tgoop.com/neural_cat/16
Last Update:
Долгий путь к разметке ответов генеративной модели 🧑🦯
Перед тем, как приступать к разметке, не забудьте посчитать unsupervised метрики — они могут дать понимание, как работает ваш чатбот через косвенные признаки.
• Распределение длин ответов — Ответы могут быть очень короткие, соответственно, неинтересные. Или наоборот, ответы — телега текста, которую никто читать не будет.
• Количество уникальных n-gram (Dist-n) — может, бот использует одинаковые слова и конструкции? — это достаточно скучно.
• Количество повторений (REP) — полезно следить за одной из главных проблем языковых моделей — повторения (формулы тут)
• Perplexity (ppl) — оценка "правдоподобности/человечности" текста с помощью языковых моделей (если забыли, что это такое, — читайте тут)
Только я вас прошу, не используйте ту же самую модель для оценки ppl! Это типичная ошибка: любые методы декодирования так или иначе максимизируют вероятность возникновения следующего токена (да, даже сэмплирование), поэтому и перплексия будет занижена. Берите самую большую (другую) модель, до которой можете дотянуться (gpt-4 без активаций 🤦♂️)
Еще один из секретов готовки перплексии — это посчитать её на референсных текстах и сравнивать с этим значением, а не стремиться достичь нуля (перплексия на человеческих текстах не минимальна, скорее, находится в определенных промежутках)
BY Нейронный Кот
Share with your friend now:
tgoop.com/neural_cat/16
