tgoop.com/neural_cat/67
Last Update:
Валидация языковых моделей
У вас бывало такое, что удалось достичь высокого качества на какой-нибудь задаче, а потом оказывалось, что был дата лик? :)
Несколько последних случаев LLM в опен-сорсе заставляют пересмотреть результаты на бенчмарках.
1️⃣ Модель NewHope с громким заголовком "Harnessing 99% of GPT-4's Programming Capabilities" получила качество 66.5 на HumanEval (у гпт-4 67.0, а у чатгпт 48.1). Оказалось, они обучились на тест сете
2️⃣ 1.5B модель от майкрасофт phi-1.5 показала качество на вопросах по математике и кодингу в несколько раз выше, чем Llama-2 7B. В твиттере есть тред с доказательствами, что тест содержался в обучении.
3️⃣ phi-1.5 обучалась на синтетических данных, сгенерированных с помощью моделей OpenAI, а это значит, что и они учились на тест-сетах
Вывод: все модели нужно перепроверять на своих задачах через АБ тесты.
Верите ли вы, что Mistral 7B работает сравнимо по качеству с Llama-2 13B?
BY Нейронный Кот

Share with your friend now:
tgoop.com/neural_cat/67
