Нейронный Кот@neural

🔍

Instruction Backtranslation

Помните трюк backtranslation, который мы когда-то применяли для аугментации данных на задачи machine translation, text classification, etc? Давайте использовать эту идею, чтобы намайнить больше данных для обучения инструктивных моделей.

⌨️

Проблема: мало данных, чтобы обучить хорошую инструктивную языковую модель. Например, не хватает данных, чтобы затюнить LLaMa

🥳

Решение: возьмем неразмеченные данные (ответы) и нагенерим для них инструкции. На полученных парах (instruction, output) дообучим LM.

Шаг 1. Возьмем небольшой (3к+ сэмплов), но очень качественный датасет инструкций (seed data). Обучим LLaMa по ответу генерировать инструкцию P(x|y)
Шаг 2. Для большого корпуса из ответов (500к текстов из интернета) генерируем соответсвующие инструкции. То есть пытаемся по ответам понять, какой был запрос.
Шаг 3. Фильтруем получившийся датасет, чтобы оставить только качественные данные. Для этого обучаем инструктивную модель M_0 на seed data и ей даем задачу оценить пару (instruction, output) по 5-ти балльной шкале
Шаг 4. Дообучаем M_0 на этих синтетических данных (с оценкой >= 5), получаем модель M_1
Шаг 5. Повторяем процесс фильтрации синтетических данных — фильтруем их с помощью M_1 и дообучаемся до M_2

Готово! Вы получили модель, которая работает лучше, чем LIMA (LLaMa, дообученная на несколько тысячах очень качественных данных). А самое главное — вы сами ничего не размечали, это сделала сама модель.

На практике, конечно, делать нужно не так. Фильтровать синтетические данные нужно самой лучшей моделью (GPT4 so far). Обучать обратную модель P(x|y) нужно на большем количестве данных, а не только на seed.

📎 Статья

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥2👍1🤓1

www.tgoop.com/neural_cat/61

647 viewsedited Aug 18, 2023 at 11:12

tgoop.com/neural_cat/61

Create: 2023-08-18
Last Update: 2025-10-23 04:35:15

🔍 Instruction Backtranslation

Помните трюк backtranslation, который мы когда-то применяли для аугментации данных на задачи machine translation, text classification, etc? Давайте использовать эту идею, чтобы намайнить больше данных для обучения инструктивных моделей.

⌨️ Проблема: мало данных, чтобы обучить хорошую инструктивную языковую модель. Например, не хватает данных, чтобы затюнить LLaMa

🥳 Решение: возьмем неразмеченные данные (ответы) и нагенерим для них инструкции. На полученных парах (instruction, output) дообучим LM.

Шаг 1. Возьмем небольшой (3к+ сэмплов), но очень качественный датасет инструкций (seed data). Обучим LLaMa по ответу генерировать инструкцию P(x|y)
Шаг 2. Для большого корпуса из ответов (500к текстов из интернета) генерируем соответсвующие инструкции. То есть пытаемся по ответам понять, какой был запрос.
Шаг 3. Фильтруем получившийся датасет, чтобы оставить только качественные данные. Для этого обучаем инструктивную модель M_0 на seed data и ей даем задачу оценить пару (instruction, output) по 5-ти балльной шкале
Шаг 4. Дообучаем M_0 на этих синтетических данных (с оценкой >= 5), получаем модель M_1
Шаг 5. Повторяем процесс фильтрации синтетических данных — фильтруем их с помощью M_1 и дообучаемся до M_2

Готово! Вы получили модель, которая работает лучше, чем LIMA (LLaMa, дообученная на несколько тысячах очень качественных данных). А самое главное — вы сами ничего не размечали, это сделала сама модель.

На практике, конечно, делать нужно не так. Фильтровать синтетические данные нужно самой лучшей моделью (GPT4 so far). Обучать обратную модель P(x|y) нужно на большем количестве данных, а не только на seed.

📎 Статья

Telegram News

🔍 Instruction Backtranslation