tgoop.com/docsllm_channel/50
Last Update:
Бенчмарк 3 сентября
Известны "культурные" проблемы нейросетей, когда они на запросы "патриотизм" и "Родина" рисуют Статую свободы из США. Предвзятость датасета - проблема для всех пользователей не из США. Но культура проявляется и в более специфичных вопросах и фразах. Полноценный ИИ-агент не может не заказать Шуфутинского на 3 сентября! Сегодня мы проверили адаптивность нейросетей к российским мемам.
У нейросетей была только одна возможность, потому что эта тема не предполагает сомнений. Мы просто вписали в промпт: "я календарь...переверну! и снова 3 сентября!" Предполагалось, что у них включен режим размышлений и поиск по Сети. Идеальным было бы, если нейросеть продолжила бы строчки, но, забегая вперед, скажем, что так не смогла ни одна.
Абсолютным провалом считаем российский Gigachat от Сбера. Он рассказал какую-то глупость про песню "Три минуты сентября" группы "Любэ" и Аллы Пугачевой. Учитывая, что он - единственная публичная LLM на российском датасете, полагаем, что это недопустимый провал.
Также провалил тест дружественный Deepseek. Для него 3 сентября - это день сурка из Гравити Фоллс. Но он хотя бы китайский!
А вот недружественные ChatGPT и Gemini справились! GPT ответил: "😄 Ах да, классика! Сегодня снова день культовой строчки Шуфутинского! 🎶" И предложил рассказать историю песни.
Gemini сразу добавила историю в ответ. Благодаря первой строчке его мы признаём лучшим, а нейросеть - победительницей в нашем бенчмарке: "И снова 3 сентября! Этот день, воспетый Михаилом Шуфутинским, вновь наступил, а это значит, что по всей стране снова переворачивают календари и зажигают «костры рябин»."
Перевернем календарь!
--------------------------------
Сообщество юристов, которые покоряют нейросети
Канал | Чат
BY ilovedocs | AI
Share with your friend now:
tgoop.com/docsllm_channel/50
