КПД@quant_prune_distill P.442

КПД

Do Large Language Model
Benchmarks Test Reliability?
[Статья][Блогпост][Код]

Новые SOTA LLMки выходят нынче, как собаки нерезанные, и тем острее встает ребром вопрос о качестве их оценки.

Полностью исчерпывающего протокола замером, удовлетворяющего нуждам всех категорий пользователей нет, да и не факт, что он достижим, потому приходится, скрепя сердце, полагаться на те или иные бенчмарки, принятые в литературе или индустрии.

Группа исследователей из MIT решила взглянуть критически на популярные бенчмарки и качество ведущих моделей на них, и обнаружила следующее:

⚡Ни одна модель не является безупречной, и даже SOTA LLM допускают осечки в простых случаях
⚡Бенчи не без греха. В популярном GSM8k 5% условий и решений содержат проблемы.
⚡У разных моделей разные достоинства. o1-mini лучше всех из списка в плане общего решения математических задач, но Sonnet понимает текст (reading comprehension).

Далее в блоге авторы приводят примеры забагованных задач:
🎯 С неправильным ответом
🎯 С ошибками и неоднозначностью в условии
🎯 Где забыли условие задачи

Кроме того, на днях те же авторы опубликовали почищенный тест-сет GSM8k под названием GSM8K-Platinum, и показали,, что ведущие LLM допускают на нем гораздо меньше ошибок по сравнению с оригинальной версией от OpenAI.

Мораль проста - ежели у вас есть штангенциркуль, смотрите, чтобы у него не поехала шкала.

У проекта есть классный 🥰 дашборд с визуализациями ошибок моделей.

🥰10👍6❤1

www.tgoop.com/quant_prune_distill/442

2.69K viewsedited Mar 8 at 19:40

tgoop.com/quant_prune_distill/442

Create: 2025-03-08
Last Update: 2025-08-24 04:55:12

BY КПД

Share with your friend now:
tgoop.com/quant_prune_distill/442

Telegram News

Do Large Language Model