tgoop.com/building_singularity/58
Last Update:
Фидбек пользователей - конкурентное преимущество
С выходом ChatGPT стал популярен такой способ улучшения качества:
1. на своих production запросах получить датасет пар (запрос, качественный ответ от ChatGPT)
2. дообучить на этом свою собственную LLM поменьше, чтобы было дешевле и быстрее инферить
Это работает, потому что GPT-4 (полгода назад ChatGPT) от OpenAI - лучшая general purpose модель.
Но вот недавно OpenAI добавили возможность дообучать ChatGPT.
И если хочется максимального качества, то в алгоритм выше логично добавить в самое начало шаг с дообучением ChatGPT. Но на чем его дообучать?
- Если на ответах GPT-4, то профит будет не такой большой
- Если на своих же ответах (ответах ChatGPT), то его скорее всего вообще не будет
И тут (это конечно полезно и без ChatGPT, на своих собственных моделях) на помощь приходит Human Feedback, который вы собираете в своем приложении:
Таким образом, приватные данные создают вам конкурентное преимущество и помогают улучшать модели.
Про эту же идею есть слайд (на рисунке) в 153-страничном отчете от ARK Invest, вдруг кому будет полезно :)

