BIGDATAI Telegram 1246
🔍 Пользователи недовольны LLaMA-4 Maverick — и сомневаются в честности рейтингов на LMSYS Arena

Оценки модели Maverick вызвали бурную реакцию: многие посчитали, что она незаслуженно получает высокие места. Подозрения оказались настолько массовыми, что организаторам LMSYS Arena пришлось опубликовать более 2000 реальных баттлов с участием Maverick.

В каждом баттле — текст запроса, два ответа от разных моделей (включая Maverick) и выбор пользователя. Все можно проверить по ссылке: https://huggingface.co/spaces/lmarena-ai/Llama-4-Maverick-03-26-Experimental_battles

На первый взгляд — всё прозрачно. Но возникают вопросы. Например: в одном из примеров Maverick отвечает менее точно, зато эмоционально и со смайликами — и пользователь отдает голос ей.

И это ещё не всё: на арене используется кастомизированная версия Maverick, оптимизированная под предпочтения людей. Она отличается от той, что лежит на HuggingFace и других открытых платформах — там загружена лишь базовая версия Instruct.

Организаторы заявили, что не знали о различиях, и пообещали в ближайшее время загрузить на арену оригинальный чекпоинт.

@bigdatai



tgoop.com/bigdatai/1246
Create:
Last Update:

🔍 Пользователи недовольны LLaMA-4 Maverick — и сомневаются в честности рейтингов на LMSYS Arena

Оценки модели Maverick вызвали бурную реакцию: многие посчитали, что она незаслуженно получает высокие места. Подозрения оказались настолько массовыми, что организаторам LMSYS Arena пришлось опубликовать более 2000 реальных баттлов с участием Maverick.

В каждом баттле — текст запроса, два ответа от разных моделей (включая Maverick) и выбор пользователя. Все можно проверить по ссылке: https://huggingface.co/spaces/lmarena-ai/Llama-4-Maverick-03-26-Experimental_battles

На первый взгляд — всё прозрачно. Но возникают вопросы. Например: в одном из примеров Maverick отвечает менее точно, зато эмоционально и со смайликами — и пользователь отдает голос ей.

И это ещё не всё: на арене используется кастомизированная версия Maverick, оптимизированная под предпочтения людей. Она отличается от той, что лежит на HuggingFace и других открытых платформах — там загружена лишь базовая версия Instruct.

Организаторы заявили, что не знали о различиях, и пообещали в ближайшее время загрузить на арену оригинальный чекпоинт.

@bigdatai

BY Big Data AI




Share with your friend now:
tgoop.com/bigdatai/1246

View MORE
Open in Telegram


Telegram News

Date: |

How to Create a Private or Public Channel on Telegram? More>> Although some crypto traders have moved toward screaming as a coping mechanism, several mental health experts call this therapy a pseudoscience. The crypto community finds its way to engage in one or the other way and share its feelings with other fellow members. 3How to create a Telegram channel? The best encrypted messaging apps
from us


Telegram Big Data AI
FROM American