NEURAL_CAT Telegram 61
🔍 Instruction Backtranslation

Помните трюк backtranslation, который мы когда-то применяли для аугментации данных на задачи machine translation, text classification, etc? Давайте использовать эту идею, чтобы намайнить больше данных для обучения инструктивных моделей.

⌨️ Проблема: мало данных, чтобы обучить хорошую инструктивную языковую модель. Например, не хватает данных, чтобы затюнить LLaMa

🥳 Решение: возьмем неразмеченные данные (ответы) и нагенерим для них инструкции. На полученных парах (instruction, output) дообучим LM.

Шаг 1. Возьмем небольшой (3к+ сэмплов), но очень качественный датасет инструкций (seed data). Обучим LLaMa по ответу генерировать инструкцию P(x|y)
Шаг 2. Для большого корпуса из ответов (500к текстов из интернета) генерируем соответсвующие инструкции. То есть пытаемся по ответам понять, какой был запрос.
Шаг 3. Фильтруем получившийся датасет, чтобы оставить только качественные данные. Для этого обучаем инструктивную модель M_0 на seed data и ей даем задачу оценить пару (instruction, output) по 5-ти балльной шкале
Шаг 4. Дообучаем M_0 на этих синтетических данных (с оценкой >= 5), получаем модель M_1
Шаг 5. Повторяем процесс фильтрации синтетических данных — фильтруем их с помощью M_1 и дообучаемся до M_2

Готово! Вы получили модель, которая работает лучше, чем LIMA (LLaMa, дообученная на несколько тысячах очень качественных данных). А самое главное — вы сами ничего не размечали, это сделала сама модель.

На практике, конечно, делать нужно не так. Фильтровать синтетические данные нужно самой лучшей моделью (GPT4 so far). Обучать обратную модель P(x|y) нужно на большем количестве данных, а не только на seed.

📎 Статья
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2👍1🤓1



tgoop.com/neural_cat/61
Create:
Last Update:

🔍 Instruction Backtranslation

Помните трюк backtranslation, который мы когда-то применяли для аугментации данных на задачи machine translation, text classification, etc? Давайте использовать эту идею, чтобы намайнить больше данных для обучения инструктивных моделей.

⌨️ Проблема: мало данных, чтобы обучить хорошую инструктивную языковую модель. Например, не хватает данных, чтобы затюнить LLaMa

🥳 Решение: возьмем неразмеченные данные (ответы) и нагенерим для них инструкции. На полученных парах (instruction, output) дообучим LM.

Шаг 1. Возьмем небольшой (3к+ сэмплов), но очень качественный датасет инструкций (seed data). Обучим LLaMa по ответу генерировать инструкцию P(x|y)
Шаг 2. Для большого корпуса из ответов (500к текстов из интернета) генерируем соответсвующие инструкции. То есть пытаемся по ответам понять, какой был запрос.
Шаг 3. Фильтруем получившийся датасет, чтобы оставить только качественные данные. Для этого обучаем инструктивную модель M_0 на seed data и ей даем задачу оценить пару (instruction, output) по 5-ти балльной шкале
Шаг 4. Дообучаем M_0 на этих синтетических данных (с оценкой >= 5), получаем модель M_1
Шаг 5. Повторяем процесс фильтрации синтетических данных — фильтруем их с помощью M_1 и дообучаемся до M_2

Готово! Вы получили модель, которая работает лучше, чем LIMA (LLaMa, дообученная на несколько тысячах очень качественных данных). А самое главное — вы сами ничего не размечали, это сделала сама модель.

На практике, конечно, делать нужно не так. Фильтровать синтетические данные нужно самой лучшей моделью (GPT4 so far). Обучать обратную модель P(x|y) нужно на большем количестве данных, а не только на seed.

📎 Статья

BY Нейронный Кот




Share with your friend now:
tgoop.com/neural_cat/61

View MORE
Open in Telegram


Telegram News

Date: |

As five out of seven counts were serious, Hui sentenced Ng to six years and six months in jail. A few years ago, you had to use a special bot to run a poll on Telegram. Now you can easily do that yourself in two clicks. Hit the Menu icon and select “Create Poll.” Write your question and add up to 10 options. Running polls is a powerful strategy for getting feedback from your audience. If you’re considering the possibility of modifying your channel in any way, be sure to ask your subscribers’ opinions first. Among the requests, the Brazilian electoral Court wanted to know if they could obtain data on the origins of malicious content posted on the platform. According to the TSE, this would enable the authorities to track false content and identify the user responsible for publishing it in the first place. While some crypto traders move toward screaming as a coping mechanism, many mental health experts have argued that “scream therapy” is pseudoscience. Scientific research or no, it obviously feels good. ZDNET RECOMMENDS
from us


Telegram Нейронный Кот
FROM American