tgoop.com/itextrapolation/850
Last Update:
А ви знали про тест, який є останньою надією людства?
Humanity’s Last Exam (я б саме переклав як "Остання надія людства") – бенчмарк із 2500 питань, зібраних від купи експертів, щоб реально покарати AI. До речі, вони зібрали 70 000 запитань, аби відсіяти найскладніші та найреальніші кейси. Навіть топові моделі не дуже багато набирають на HLE, хоча раніше ці ж моделі «забивали» всі популярні тести на 90+%. Запитання там прикольні, звісно, більшість з яких закрита, щоб наступний AI не міг просто навчитися відповідям, але прикол в тому, що майже всі питання ставляться до провайдерів-власників, тому після першого ж такого запитання можна сказати, що модель буде вже знати відповідь на це питання наступного тренування.
Реальні кейси — це багатокрокові задачі з планування, моральними виборами та симуляціями зображень і тексту є тим, що треба тестувати зараз. Авжеж, різні компанії вже розробляють внутрішні бенчмарки для оцінки LLM в кібербезпеці та біотероризмі, тобто справжні сценарії, а не просто питання з вікі. Наприклад FrontierMath та інші тести, які перевіряють не лише знання, а й здатність реагувати на загрози та багатокрокові інструкції, але це все ще не публічні тести, а внутрішні розробки.
Справжня перевірка мудрості AI – це комплексні задачі, що ставлять моделі перед моральними, технічними та стратегічними викликами. Про публічні такі тести мені не відомо.
BY Экстраполяция IT
Share with your friend now:
tgoop.com/itextrapolation/850