tgoop.com/plush_python/117
Last Update:
Недавно вышел обновлённый DeepSeek-R1. Умельцы с реддита сделали кластеризацию ответов разных моделей (в том числе старого и нового R1) на одни и те промпты. Обнаружилось, что новый дипсик стал гораздо ближе к моделям от Google, чем к моделям от OpenAI, как раньше (картинка). Речь не про качество ответов, а про лексико-стилистические характеристики. Это вычислительный, а не ручной анализ - результат основан на отклонениях частот слов и n-граммов от человеческого бейслайна.
Что это означает? Раньше разработчики дипсика больше ориентировались на модели от OpenAI, а сейчас дистиллируют Gemini. Возможно, гугловские модели просто легче/дешевле прокачивать в больших объёмах. А может, их генерации больше соответствуют представлениям о прекрасном китайских инженеров. В любом случае, интересный поворот.
На дендрограмме видно, что и клоды, и мистрали, и лламы образуют довольно устойчивые кластеры. Хотя есть и пара неожиданных сближений (грок и гпт-4.5, гемма3 12б и гпт-3.5). Не знаю, насколько стоит доверять этим результатам, но выглядит красиво.