Приближаем сингулярность@building

Фидбек пользователей - конкурентное преимущество

💪

💡

Извлекать полезный сигнал для дообучения модели из взаимодействий пользователей с вашим приложением - важнейшая вещь.

С выходом ChatGPT стал популярен такой способ улучшения качества:
1. на своих production запросах получить датасет пар (запрос, качественный ответ от ChatGPT)
2. дообучить на этом свою собственную LLM поменьше, чтобы было дешевле и быстрее инферить

Это работает, потому что GPT-4 (полгода назад ChatGPT) от OpenAI - лучшая general purpose модель.

Но вот недавно OpenAI добавили возможность дообучать ChatGPT.

И если хочется максимального качества, то в алгоритм выше логично добавить в самое начало шаг с дообучением ChatGPT. Но на чем его дообучать?

- Если на ответах GPT-4, то профит будет не такой большой
- Если на своих же ответах (ответах ChatGPT), то его скорее всего вообще не будет

И тут (это конечно полезно и без ChatGPT, на своих собственных моделях) на помощь приходит Human Feedback, который вы собираете в своем приложении:
1️⃣ Выкатить ChatGPT на пользователей и собрать пары (запрос, ответ ChatGPT)

2️⃣

Отобрать из этих данных те ответы, которые максимально понравились пользователям
3️⃣ Дообучиться на этом

Таким образом, приватные данные создают вам конкурентное преимущество и помогают улучшать модели.

Про эту же идею есть слайд (на рисунке) в 153-страничном отчете от ARK Invest, вдруг кому будет полезно :)

Please open Telegram to view this post

VIEW IN TELEGRAM

👍10🔥3❤2

www.tgoop.com/building_singularity/58

667 viewsSep 4, 2023 at 07:56

tgoop.com/building_singularity/58

Create: 2023-09-04
Last Update: 2025-10-25 22:47:00

Фидбек пользователей - конкурентное преимущество 💪

💡 Извлекать полезный сигнал для дообучения модели из взаимодействий пользователей с вашим приложением - важнейшая вещь.

С выходом ChatGPT стал популярен такой способ улучшения качества:
1. на своих production запросах получить датасет пар (запрос, качественный ответ от ChatGPT)
2. дообучить на этом свою собственную LLM поменьше, чтобы было дешевле и быстрее инферить

Это работает, потому что GPT-4 (полгода назад ChatGPT) от OpenAI - лучшая general purpose модель.

Но вот недавно OpenAI добавили возможность дообучать ChatGPT.

И если хочется максимального качества, то в алгоритм выше логично добавить в самое начало шаг с дообучением ChatGPT. Но на чем его дообучать?

- Если на ответах GPT-4, то профит будет не такой большой
- Если на своих же ответах (ответах ChatGPT), то его скорее всего вообще не будет

И тут (это конечно полезно и без ChatGPT, на своих собственных моделях) на помощь приходит Human Feedback, который вы собираете в своем приложении:
1️⃣ Выкатить ChatGPT на пользователей и собрать пары (запрос, ответ ChatGPT)
2️⃣ Отобрать из этих данных те ответы, которые максимально понравились пользователям
3️⃣ Дообучиться на этом

Таким образом, приватные данные создают вам конкурентное преимущество и помогают улучшать модели.

Про эту же идею есть слайд (на рисунке) в 153-страничном отчете от ARK Invest, вдруг кому будет полезно :)

Telegram News

Фидбек пользователей - конкурентное преимущество 💪