tgoop.com/vikhrlabs/99
Last Update:
LLM Arena совместно с Сергеем Курбановым (руководитель направления RnD в компании MWS) рады представить новый бенчмарк.
GenCode Mini Bench не содержит выводов — только чистый эксперимент и результат работы моделей.
Да, это не совсем привычный бенчмарк, но надеемся, что вам понравится его формат. Кроме того, там подключена форма обратной связи, где вы можете прислать собственные промпты, а мы каждые 2 недели будем обновлять его содержимое.
Генерации обновляются каждые 6 часов, поэтому заглядываете периодически, чтобы посмотреть на результаты различных моделей.

