Warning: file_put_contents(aCache/aDaily/post/building_singularity/-55-56-57-55-): Failed to open stream: No space left on device in /var/www/tgoop/post.php on line 50
Приближаем сингулярность@building_singularity P.56
BUILDING_SINGULARITY Telegram 56
Какой размер датасета 📚 нужен для дообучения

Точного ответа конечно нет, но есть статьи где показали
- профит с гигантским датасетом: Orca на 5М инструкций и ответов, полученных от GPT-4
- профит с небольшими, но очень качественными датасетами

Например в статье Less is More for Alignment (LIMA) чуваки из Meta вручную собрали датасет из 1000 примеров. Дообучение на нем дает результаты лучше, чем на 52к примеров из Alpaca датасета.

Но вручную собирать дорого и долго, и в статье AlpaGasus предложили автоматизировать это (рис. 1)

Ученые придумали промпт 🧠

Причем они даже не пробовали разные, просто сказали что воспользовались этим (рис. 2) и всё 👍

Использовали GPT-4 с этим промптом, чтобы для пар (инструкция, ответ) получить оценку от 0 до 5 - насколько они подходят друг другу. Проскорили все пары в Alpaca и выбрали 9k примеров с оценкой больше 4.5. Дообучили модель на этих 9к и сравнились с обучением на 52к аж на 4 тест сетах:

- WizardLM 250к сложных примеров evol-instruct методом
- Vicuna 70к диалогов с ChatGPT
- Koala 260к разных датасетов (QA, диалоги с LLM, ...)
- Self-Instruct 82к инструкций и ответов, сгенерированных GPT-3

Выглядит как хороший замер, да вот только примеров в тест сетах было 180, 80, 218 и 252 соотвественно 😵

Замеряли качество используя GPT-4, так что я вообще не понял, почему так мало. Тем не менее, по всем тест сетам стало лучше (рис. 3)

На других обучающих данных свой подход автоматической фильтрации они не пробовали. Возможно, потому что на GPT-4-distilled датасетах (типа vicuna) это и работать не будет. Статья в общем то не очень (на мой взгляд; плюс это препринт), но есть пара вещей, которые мне кажутся действительно полезными и применимыми на практике:

1️⃣ Маленький и качественный дотасет как отличная начальная точка; больше данных не всегда лучше
2️⃣ Фильтровать ответы моделей (не ChatGPT/GPT-4) по небинарным скорам от GPT-4 (хотя в первую очередь имеет смысл просто сгенерировать ответов от GPT-4 на своем домене)

subscribe
like, share, repost :D
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥31😁1



tgoop.com/building_singularity/56
Create:
Last Update:

Какой размер датасета 📚 нужен для дообучения

Точного ответа конечно нет, но есть статьи где показали
- профит с гигантским датасетом: Orca на 5М инструкций и ответов, полученных от GPT-4
- профит с небольшими, но очень качественными датасетами

Например в статье Less is More for Alignment (LIMA) чуваки из Meta вручную собрали датасет из 1000 примеров. Дообучение на нем дает результаты лучше, чем на 52к примеров из Alpaca датасета.

Но вручную собирать дорого и долго, и в статье AlpaGasus предложили автоматизировать это (рис. 1)

Ученые придумали промпт 🧠

Причем они даже не пробовали разные, просто сказали что воспользовались этим (рис. 2) и всё 👍

Использовали GPT-4 с этим промптом, чтобы для пар (инструкция, ответ) получить оценку от 0 до 5 - насколько они подходят друг другу. Проскорили все пары в Alpaca и выбрали 9k примеров с оценкой больше 4.5. Дообучили модель на этих 9к и сравнились с обучением на 52к аж на 4 тест сетах:

- WizardLM 250к сложных примеров evol-instruct методом
- Vicuna 70к диалогов с ChatGPT
- Koala 260к разных датасетов (QA, диалоги с LLM, ...)
- Self-Instruct 82к инструкций и ответов, сгенерированных GPT-3

Выглядит как хороший замер, да вот только примеров в тест сетах было 180, 80, 218 и 252 соотвественно 😵

Замеряли качество используя GPT-4, так что я вообще не понял, почему так мало. Тем не менее, по всем тест сетам стало лучше (рис. 3)

На других обучающих данных свой подход автоматической фильтрации они не пробовали. Возможно, потому что на GPT-4-distilled датасетах (типа vicuna) это и работать не будет. Статья в общем то не очень (на мой взгляд; плюс это препринт), но есть пара вещей, которые мне кажутся действительно полезными и применимыми на практике:

1️⃣ Маленький и качественный дотасет как отличная начальная точка; больше данных не всегда лучше
2️⃣ Фильтровать ответы моделей (не ChatGPT/GPT-4) по небинарным скорам от GPT-4 (хотя в первую очередь имеет смысл просто сгенерировать ответов от GPT-4 на своем домене)

subscribe
like, share, repost :D

BY Приближаем сингулярность






Share with your friend now:
tgoop.com/building_singularity/56

View MORE
Open in Telegram


Telegram News

Date: |

Done! Now you’re the proud owner of a Telegram channel. The next step is to set up and customize your channel. Telegram offers a powerful toolset that allows businesses to create and manage channels, groups, and bots to broadcast messages, engage in conversations, and offer reliable customer support via bots. In the “Bear Market Screaming Therapy Group” on Telegram, members are only allowed to post voice notes of themselves screaming. Anything else will result in an instant ban from the group, which currently has about 75 members. On Tuesday, some local media outlets included Sing Tao Daily cited sources as saying the Hong Kong government was considering restricting access to Telegram. Privacy Commissioner for Personal Data Ada Chung told to the Legislative Council on Monday that government officials, police and lawmakers remain the targets of “doxxing” despite a privacy law amendment last year that criminalised the malicious disclosure of personal information. Avoid compound hashtags that consist of several words. If you have a hashtag like #marketingnewsinusa, split it into smaller hashtags: “#marketing, #news, #usa.
from us


Telegram Приближаем сингулярность
FROM American