QUANT_PRUNE_DISTILL Telegram 442
Do Large Language Model
Benchmarks Test Reliability?

[Статья][Блогпост][Код]

Новые SOTA LLMки выходят нынче, как собаки нерезанные, и тем острее встает ребром вопрос о качестве их оценки.

Полностью исчерпывающего протокола замером, удовлетворяющего нуждам всех категорий пользователей нет, да и не факт, что он достижим, потому приходится, скрепя сердце, полагаться на те или иные бенчмарки, принятые в литературе или индустрии.

Группа исследователей из MIT решила взглянуть критически на популярные бенчмарки и качество ведущих моделей на них, и обнаружила следующее:

Ни одна модель не является безупречной, и даже SOTA LLM допускают осечки в простых случаях
Бенчи не без греха. В популярном GSM8k 5% условий и решений содержат проблемы.
У разных моделей разные достоинства. o1-mini лучше всех из списка в плане общего решения математических задач, но Sonnet понимает текст (reading comprehension).

Далее в блоге авторы приводят примеры забагованных задач:
🎯 С неправильным ответом
🎯 С ошибками и неоднозначностью в условии
🎯 Где забыли условие задачи

Кроме того, на днях те же авторы опубликовали почищенный тест-сет GSM8k под названием GSM8K-Platinum, и показали,, что ведущие LLM допускают на нем гораздо меньше ошибок по сравнению с оригинальной версией от OpenAI.

Мораль проста - ежели у вас есть штангенциркуль, смотрите, чтобы у него не поехала шкала.

У проекта есть классный 🥰 дашборд с визуализациями ошибок моделей.



tgoop.com/quant_prune_distill/442
Create:
Last Update:

Do Large Language Model
Benchmarks Test Reliability?

[Статья][Блогпост][Код]

Новые SOTA LLMки выходят нынче, как собаки нерезанные, и тем острее встает ребром вопрос о качестве их оценки.

Полностью исчерпывающего протокола замером, удовлетворяющего нуждам всех категорий пользователей нет, да и не факт, что он достижим, потому приходится, скрепя сердце, полагаться на те или иные бенчмарки, принятые в литературе или индустрии.

Группа исследователей из MIT решила взглянуть критически на популярные бенчмарки и качество ведущих моделей на них, и обнаружила следующее:

Ни одна модель не является безупречной, и даже SOTA LLM допускают осечки в простых случаях
Бенчи не без греха. В популярном GSM8k 5% условий и решений содержат проблемы.
У разных моделей разные достоинства. o1-mini лучше всех из списка в плане общего решения математических задач, но Sonnet понимает текст (reading comprehension).

Далее в блоге авторы приводят примеры забагованных задач:
🎯 С неправильным ответом
🎯 С ошибками и неоднозначностью в условии
🎯 Где забыли условие задачи

Кроме того, на днях те же авторы опубликовали почищенный тест-сет GSM8k под названием GSM8K-Platinum, и показали,, что ведущие LLM допускают на нем гораздо меньше ошибок по сравнению с оригинальной версией от OpenAI.

Мораль проста - ежели у вас есть штангенциркуль, смотрите, чтобы у него не поехала шкала.

У проекта есть классный 🥰 дашборд с визуализациями ошибок моделей.

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/442

View MORE
Open in Telegram


Telegram News

Date: |

Ng Man-ho, a 27-year-old computer technician, was convicted last month of seven counts of incitement charges after he made use of the 100,000-member Chinese-language channel that he runs and manages to post "seditious messages," which had been shut down since August 2020. To view your bio, click the Menu icon and select “View channel info.” SUCK Channel Telegram Add up to 50 administrators Public channels are public to the internet, regardless of whether or not they are subscribed. A public channel is displayed in search results and has a short address (link).
from us


Telegram КПД
FROM American