Big Data AI@bigdatai P.1246

Big Data AI

🔍 Пользователи недовольны LLaMA-4 Maverick — и сомневаются в честности рейтингов на LMSYS Arena

Оценки модели Maverick вызвали бурную реакцию: многие посчитали, что она незаслуженно получает высокие места. Подозрения оказались настолько массовыми, что организаторам LMSYS Arena пришлось опубликовать более 2000 реальных баттлов с участием Maverick.

В каждом баттле — текст запроса, два ответа от разных моделей (включая Maverick) и выбор пользователя. Все можно проверить по ссылке: https://huggingface.co/spaces/lmarena-ai/Llama-4-Maverick-03-26-Experimental_battles

На первый взгляд — всё прозрачно. Но возникают вопросы. Например: в одном из примеров Maverick отвечает менее точно, зато эмоционально и со смайликами — и пользователь отдает голос ей.

И это ещё не всё: на арене используется кастомизированная версия Maverick, оптимизированная под предпочтения людей. Она отличается от той, что лежит на HuggingFace и других открытых платформах — там загружена лишь базовая версия Instruct.

Организаторы заявили, что не знали о различиях, и пообещали в ближайшее время загрузить на арену оригинальный чекпоинт.

@bigdatai

👍5🔥2🥱2❤1😁1

www.tgoop.com/bigdatai/1246

1.51K viewsedited Apr 8 at 07:21

tgoop.com/bigdatai/1246

Create: 2025-04-08
Last Update: 2025-10-04 21:04:44

BY Big Data AI

Share with your friend now:
tgoop.com/bigdatai/1246

Telegram News

🔍 Пользователи недовольны LLaMA-4 Maverick — и сомневаются в честности рейтингов на LMSYS Arena