tgoop.com/bigdatai/1246
Last Update:
🔍 Пользователи недовольны LLaMA-4 Maverick — и сомневаются в честности рейтингов на LMSYS Arena
Оценки модели Maverick вызвали бурную реакцию: многие посчитали, что она незаслуженно получает высокие места. Подозрения оказались настолько массовыми, что организаторам LMSYS Arena пришлось опубликовать более 2000 реальных баттлов с участием Maverick.
В каждом баттле — текст запроса, два ответа от разных моделей (включая Maverick) и выбор пользователя. Все можно проверить по ссылке: https://huggingface.co/spaces/lmarena-ai/Llama-4-Maverick-03-26-Experimental_battles
На первый взгляд — всё прозрачно. Но возникают вопросы. Например: в одном из примеров Maverick отвечает менее точно, зато эмоционально и со смайликами — и пользователь отдает голос ей.
И это ещё не всё: на арене используется кастомизированная версия Maverick, оптимизированная под предпочтения людей. Она отличается от той, что лежит на HuggingFace и других открытых платформах — там загружена лишь базовая версия Instruct.
Организаторы заявили, что не знали о различиях, и пообещали в ближайшее время загрузить на арену оригинальный чекпоинт.
@bigdatai
BY Big Data AI

Share with your friend now:
tgoop.com/bigdatai/1246