Notice: file_put_contents(): Write of 9143 bytes failed with errno=28 No space left on device in /var/www/tgoop/post.php on line 50

Warning: file_put_contents(): Only 8192 of 17335 bytes written, possibly out of free disk space in /var/www/tgoop/post.php on line 50
Экстраполяция IT@itextrapolation P.850
ITEXTRAPOLATION Telegram 850
А ви знали про тест, який є останньою надією людства?

Humanity’s Last Exam (я б саме переклав як "Остання надія людства") – бенчмарк із 2500 питань, зібраних від купи експертів, щоб реально покарати AI. До речі, вони зібрали 70 000 запитань, аби відсіяти найскладніші та найреальніші кейси. Навіть топові моделі не дуже багато набирають на HLE, хоча раніше ці ж моделі «забивали» всі популярні тести на 90+%. Запитання там прикольні, звісно, більшість з яких закрита, щоб наступний AI не міг просто навчитися відповідям, але прикол в тому, що майже всі питання ставляться до провайдерів-власників, тому після першого ж такого запитання можна сказати, що модель буде вже знати відповідь на це питання наступного тренування.

Реальні кейси — це багатокрокові задачі з планування, моральними виборами та симуляціями зображень і тексту є тим, що треба тестувати зараз. Авжеж, різні компанії вже розробляють внутрішні бенчмарки для оцінки LLM в кібербезпеці та біотероризмі, тобто справжні сценарії, а не просто питання з вікі. Наприклад FrontierMath та інші тести, які перевіряють не лише знання, а й здатність реагувати на загрози та багатокрокові інструкції, але це все ще не публічні тести, а внутрішні розробки.

Справжня перевірка мудрості AI – це комплексні задачі, що ставлять моделі перед моральними, технічними та стратегічними викликами. Про публічні такі тести мені не відомо.
🤯13👍1💩1



tgoop.com/itextrapolation/850
Create:
Last Update:

А ви знали про тест, який є останньою надією людства?

Humanity’s Last Exam (я б саме переклав як "Остання надія людства") – бенчмарк із 2500 питань, зібраних від купи експертів, щоб реально покарати AI. До речі, вони зібрали 70 000 запитань, аби відсіяти найскладніші та найреальніші кейси. Навіть топові моделі не дуже багато набирають на HLE, хоча раніше ці ж моделі «забивали» всі популярні тести на 90+%. Запитання там прикольні, звісно, більшість з яких закрита, щоб наступний AI не міг просто навчитися відповідям, але прикол в тому, що майже всі питання ставляться до провайдерів-власників, тому після першого ж такого запитання можна сказати, що модель буде вже знати відповідь на це питання наступного тренування.

Реальні кейси — це багатокрокові задачі з планування, моральними виборами та симуляціями зображень і тексту є тим, що треба тестувати зараз. Авжеж, різні компанії вже розробляють внутрішні бенчмарки для оцінки LLM в кібербезпеці та біотероризмі, тобто справжні сценарії, а не просто питання з вікі. Наприклад FrontierMath та інші тести, які перевіряють не лише знання, а й здатність реагувати на загрози та багатокрокові інструкції, але це все ще не публічні тести, а внутрішні розробки.

Справжня перевірка мудрості AI – це комплексні задачі, що ставлять моделі перед моральними, технічними та стратегічними викликами. Про публічні такі тести мені не відомо.

BY Экстраполяция IT


Share with your friend now:
tgoop.com/itextrapolation/850

View MORE
Open in Telegram


Telegram News

Date: |

There have been several contributions to the group with members posting voice notes of screaming, yelling, groaning, and wailing in different rhythms and pitches. Calling out the “degenerate” community or the crypto obsessives that engage in high-risk trading, Co-founder of NFT renting protocol Rentable World emiliano.eth shared this group on his Twitter. He wrote: “hey degen, are you stressed? Just let it out all out. Voice only tg channel for screaming”. Concise Telegram desktop app: In the upper left corner, click the Menu icon (the one with three lines). Select “New Channel” from the drop-down menu. Developing social channels based on exchanging a single message isn’t exactly new, of course. Back in 2014, the “Yo” app was launched with the sole purpose of enabling users to send each other the greeting “Yo.” bank east asia october 20 kowloon
from us


Telegram Экстраполяция IT
FROM American