tgoop.com/quant_prune_distill/74
Last Update:
Результаты
LlaMA-2-chat уверенно побеждает чатботов, основанных на моделях в открытом доступе, сопоставимых размеров, и с небольшим отрывом оказывается лучше (с точки зрения человеческих предпочтений) чем ChatGPT при оценке helpfulness на собранных Meta 4k инструкциях.
При обучении на safety данных, с ростом количества safety данных стабильно уменьшается доля небезопасных ответов без просадки по метрике полезности.
По safety (доле небезопасных ответов) и общему рейтингу полезности и безопасности LlaMA-2 чатботы опережают конкуретных открытых чатботов и ChatGPT/PaLM при оценке на собственном бенчмарке из 2k промптов.
Из дополнительных экспериментов авторы показывают, что модель можно научить действовать корректно подав инструкцию относящуюся к заданному времени (например, модель не будет знать ответ на то, кто побелил во Второй мировой войне, если бы запрос был адресован в 1940 году) и хорошо взаимодействует с ToolFormer.
Итог
LLaMA-2 - новая SOTA среди моделей в открытом доступе, и с учетом бешеного прогресса в области, большого интереса в DL-сообществе, за несколько дней с выпуска, народ уже успел изрядно поиграться с моделью, покрутить и повертеть ее. Данная работа - труд скорее инженерный, чем научный, но, безусловно, полезный и важный. Приятное отличие от первой версии, где месяцами можно было ждать одобрения на скачивание весов (хотя все кому надо воспользовались пиратками), в том, что запрос на LlaMA-2 удовлетворяется оперативно (обычно в течение пары часов).
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/74