BUILDING_SINGULARITY Telegram 103
LiveBench - честный замер LLM

ЛеКун и Abacus.ai зарелизили 960 примеров для объективной оценки LLM.

Полезно как для замера своих LLM'ок, так и для выбора лучшей из имеющихся для своих нужд.

Какие обычно есть проблемы у замеров?

🔹 Contamination - данные из бенчмарка присутствуют в обучающем датасете
🔹 LLM-as-a-judge неточен: GPT4 предпочитает ответы от других моделей OpenAI, аналогично с Claude и тд.
🔹Human-as-a-judge дорого и долго; а также неточно, потому что вопросы очень сложные

🔸Первую проблему LiveBench фиксит тем, что будет выкладывать новые сложные вопросы каждый месяц

🔸Последние две тем, что в LiveBench есть точные ответы, которые можно проверить на соответствие (типа Verifiable Instructions)

На скрине категории и лидерборд: OpenAI > Anthropic > Google, пока что.

💗 Всё в открытом доступе: данные и код для замера

@building_singularity
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥173👍2🤔1



tgoop.com/building_singularity/103
Create:
Last Update:

LiveBench - честный замер LLM

ЛеКун и Abacus.ai зарелизили 960 примеров для объективной оценки LLM.

Полезно как для замера своих LLM'ок, так и для выбора лучшей из имеющихся для своих нужд.

Какие обычно есть проблемы у замеров?

🔹 Contamination - данные из бенчмарка присутствуют в обучающем датасете
🔹 LLM-as-a-judge неточен: GPT4 предпочитает ответы от других моделей OpenAI, аналогично с Claude и тд.
🔹Human-as-a-judge дорого и долго; а также неточно, потому что вопросы очень сложные

🔸Первую проблему LiveBench фиксит тем, что будет выкладывать новые сложные вопросы каждый месяц

🔸Последние две тем, что в LiveBench есть точные ответы, которые можно проверить на соответствие (типа Verifiable Instructions)

На скрине категории и лидерборд: OpenAI > Anthropic > Google, пока что.

💗 Всё в открытом доступе: данные и код для замера

@building_singularity

BY Приближаем сингулярность




Share with your friend now:
tgoop.com/building_singularity/103

View MORE
Open in Telegram


Telegram News

Date: |

The visual aspect of channels is very critical. In fact, design is the first thing that a potential subscriber pays attention to, even though unconsciously. Today, we will address Telegram channels and how to use them for maximum benefit. On Tuesday, some local media outlets included Sing Tao Daily cited sources as saying the Hong Kong government was considering restricting access to Telegram. Privacy Commissioner for Personal Data Ada Chung told to the Legislative Council on Monday that government officials, police and lawmakers remain the targets of “doxxing” despite a privacy law amendment last year that criminalised the malicious disclosure of personal information. How to Create a Private or Public Channel on Telegram? How to Create a Private or Public Channel on Telegram?
from us


Telegram Приближаем сингулярность
FROM American