Warning: mkdir(): No space left on device in /var/www/tgoop/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/neural_cat/--): Failed to open stream: No such file or directory in /var/www/tgoop/post.php on line 50
Нейронный Кот@neural_cat P.67
NEURAL_CAT Telegram 67
Валидация языковых моделей

У вас бывало такое, что удалось достичь высокого качества на какой-нибудь задаче, а потом оказывалось, что был дата лик? :)

Несколько последних случаев LLM в опен-сорсе заставляют пересмотреть результаты на бенчмарках.

1️⃣ Модель NewHope с громким заголовком "Harnessing 99% of GPT-4's Programming Capabilities" получила качество 66.5 на HumanEval (у гпт-4 67.0, а у чатгпт 48.1). Оказалось, они обучились на тест сете

2️⃣ 1.5B модель от майкрасофт phi-1.5 показала качество на вопросах по математике и кодингу в несколько раз выше, чем Llama-2 7B. В твиттере есть тред с доказательствами, что тест содержался в обучении.

3️⃣ phi-1.5 обучалась на синтетических данных, сгенерированных с помощью моделей OpenAI, а это значит, что и они учились на тест-сетах

Вывод: все модели нужно перепроверять на своих задачах через АБ тесты.

Верите ли вы, что Mistral 7B работает сравнимо по качеству с Llama-2 13B?
😁122



tgoop.com/neural_cat/67
Create:
Last Update:

Валидация языковых моделей

У вас бывало такое, что удалось достичь высокого качества на какой-нибудь задаче, а потом оказывалось, что был дата лик? :)

Несколько последних случаев LLM в опен-сорсе заставляют пересмотреть результаты на бенчмарках.

1️⃣ Модель NewHope с громким заголовком "Harnessing 99% of GPT-4's Programming Capabilities" получила качество 66.5 на HumanEval (у гпт-4 67.0, а у чатгпт 48.1). Оказалось, они обучились на тест сете

2️⃣ 1.5B модель от майкрасофт phi-1.5 показала качество на вопросах по математике и кодингу в несколько раз выше, чем Llama-2 7B. В твиттере есть тред с доказательствами, что тест содержался в обучении.

3️⃣ phi-1.5 обучалась на синтетических данных, сгенерированных с помощью моделей OpenAI, а это значит, что и они учились на тест-сетах

Вывод: все модели нужно перепроверять на своих задачах через АБ тесты.

Верите ли вы, что Mistral 7B работает сравнимо по качеству с Llama-2 13B?

BY Нейронный Кот




Share with your friend now:
tgoop.com/neural_cat/67

View MORE
Open in Telegram


Telegram News

Date: |

Telegram users themselves will be able to flag and report potentially false content. How to create a business channel on Telegram? (Tutorial) How to create a business channel on Telegram? (Tutorial) “[The defendant] could not shift his criminal liability,” Hui said. Commenting about the court's concerns about the spread of false information related to the elections, Minister Fachin noted Brazil is "facing circumstances that could put Brazil's democracy at risk." During the meeting, the information technology secretary at the TSE, Julio Valente, put forward a list of requests the court believes will disinformation.
from us


Telegram Нейронный Кот
FROM American