BIGDATAI Telegram 1246
🔍 Пользователи недовольны LLaMA-4 Maverick — и сомневаются в честности рейтингов на LMSYS Arena

Оценки модели Maverick вызвали бурную реакцию: многие посчитали, что она незаслуженно получает высокие места. Подозрения оказались настолько массовыми, что организаторам LMSYS Arena пришлось опубликовать более 2000 реальных баттлов с участием Maverick.

В каждом баттле — текст запроса, два ответа от разных моделей (включая Maverick) и выбор пользователя. Все можно проверить по ссылке: https://huggingface.co/spaces/lmarena-ai/Llama-4-Maverick-03-26-Experimental_battles

На первый взгляд — всё прозрачно. Но возникают вопросы. Например: в одном из примеров Maverick отвечает менее точно, зато эмоционально и со смайликами — и пользователь отдает голос ей.

И это ещё не всё: на арене используется кастомизированная версия Maverick, оптимизированная под предпочтения людей. Она отличается от той, что лежит на HuggingFace и других открытых платформах — там загружена лишь базовая версия Instruct.

Организаторы заявили, что не знали о различиях, и пообещали в ближайшее время загрузить на арену оригинальный чекпоинт.

@bigdatai
👍5🔥2🥱21😁1



tgoop.com/bigdatai/1246
Create:
Last Update:

🔍 Пользователи недовольны LLaMA-4 Maverick — и сомневаются в честности рейтингов на LMSYS Arena

Оценки модели Maverick вызвали бурную реакцию: многие посчитали, что она незаслуженно получает высокие места. Подозрения оказались настолько массовыми, что организаторам LMSYS Arena пришлось опубликовать более 2000 реальных баттлов с участием Maverick.

В каждом баттле — текст запроса, два ответа от разных моделей (включая Maverick) и выбор пользователя. Все можно проверить по ссылке: https://huggingface.co/spaces/lmarena-ai/Llama-4-Maverick-03-26-Experimental_battles

На первый взгляд — всё прозрачно. Но возникают вопросы. Например: в одном из примеров Maverick отвечает менее точно, зато эмоционально и со смайликами — и пользователь отдает голос ей.

И это ещё не всё: на арене используется кастомизированная версия Maverick, оптимизированная под предпочтения людей. Она отличается от той, что лежит на HuggingFace и других открытых платформах — там загружена лишь базовая версия Instruct.

Организаторы заявили, что не знали о различиях, и пообещали в ближайшее время загрузить на арену оригинальный чекпоинт.

@bigdatai

BY Big Data AI




Share with your friend now:
tgoop.com/bigdatai/1246

View MORE
Open in Telegram


Telegram News

Date: |

The Channel name and bio must be no more than 255 characters long Public channels are public to the internet, regardless of whether or not they are subscribed. A public channel is displayed in search results and has a short address (link). Matt Hussey, editorial director of NEAR Protocol (and former editor-in-chief of Decrypt) responded to the news of the Telegram group with “#meIRL.” ‘Ban’ on Telegram SUCK Channel Telegram
from us


Telegram Big Data AI
FROM American