tgoop.com/bigdatai/861
Last Update:
🔥SFR-Judge 🔥 семейство LLM, специализирующееся на критике и оценке модельных ответов от других языковых моделей.
SFR-Judge выпущен в трех размерах (8B, 12B и 70B) и отлично справляются с тремя задачами оценки: парные сравнения («Ответ A лучше ответа B?»), одиночные оценки («Оцените ответ по шкале Лайкерта от 1 до 5») и классификация («Отвечает ли ответ модели желаемым критериям?»).
SFR-Judge прошел оценку на различных задачах, соответствующих различным сценариям, таким как моделирование вознаграждения, качество рассуждений и безопасность ответов. В среднем SFR-Judge демонстрирует высокую общую производительность, проявляя меньшую предвзятость суждений, чем другие модели.
📘 Статья: https://arxiv.org/abs/2409.14664
🧠 Блог: https://blog.salesforceairesearch.com/sfr-judge/
@bigdatai
BY Big Data AI

Share with your friend now:
tgoop.com/bigdatai/861