ЛеКун и Abacus.ai зарелизили 960 примеров для объективной оценки LLM.
Полезно как для замера своих LLM'ок, так и для выбора лучшей из имеющихся для своих нужд.
Какие обычно есть проблемы у замеров?
🔹 Contamination - данные из бенчмарка присутствуют в обучающем датасете 🔹 LLM-as-a-judge неточен: GPT4 предпочитает ответы от других моделей OpenAI, аналогично с Claude и тд. 🔹Human-as-a-judge дорого и долго; а также неточно, потому что вопросы очень сложные
🔸Первую проблему LiveBench фиксит тем, что будет выкладывать новые сложные вопросы каждый месяц
🔸Последние две тем, что в LiveBench есть точные ответы, которые можно проверить на соответствие (типа Verifiable Instructions)
На скрине категории и лидерборд: OpenAI > Anthropic > Google, пока что.
ЛеКун и Abacus.ai зарелизили 960 примеров для объективной оценки LLM.
Полезно как для замера своих LLM'ок, так и для выбора лучшей из имеющихся для своих нужд.
Какие обычно есть проблемы у замеров?
🔹 Contamination - данные из бенчмарка присутствуют в обучающем датасете 🔹 LLM-as-a-judge неточен: GPT4 предпочитает ответы от других моделей OpenAI, аналогично с Claude и тд. 🔹Human-as-a-judge дорого и долго; а также неточно, потому что вопросы очень сложные
🔸Первую проблему LiveBench фиксит тем, что будет выкладывать новые сложные вопросы каждый месяц
🔸Последние две тем, что в LiveBench есть точные ответы, которые можно проверить на соответствие (типа Verifiable Instructions)
На скрине категории и лидерборд: OpenAI > Anthropic > Google, пока что.
The visual aspect of channels is very critical. In fact, design is the first thing that a potential subscriber pays attention to, even though unconsciously. Today, we will address Telegram channels and how to use them for maximum benefit. On Tuesday, some local media outlets included Sing Tao Daily cited sources as saying the Hong Kong government was considering restricting access to Telegram. Privacy Commissioner for Personal Data Ada Chung told to the Legislative Council on Monday that government officials, police and lawmakers remain the targets of “doxxing” despite a privacy law amendment last year that criminalised the malicious disclosure of personal information. How to Create a Private or Public Channel on Telegram? How to Create a Private or Public Channel on Telegram?
from us