⌨️ Text Diffusion от DeepMind
По горячим следам поста
выше с отзывом на интервью в команду, которая занималась текстовой диффузией, короткий новостной обзор модели.
DeepMind как раз пару часов назад обновил лэндинг c анонсом модели.
Ссылка📌Что такое текстовая диффузия? Авторегрессионные модели генерируют поcледовательно по одному токену (Speculative Decoding опускаем). Это медленно (и это главная причина), плюс может потеряться согласованность (coherence). Диффузионные модели устроены иначе: они не предсказывают токены напрямую, а постепенно превращают шум в осмысленный текст. Это позволяет быстро находить решения и потенциально исправлять ошибки на ходу (а не генерировать много токенов рассуждений, как это делается сейчас в авторегрессионных моделях) — особенно эффективно при редактировании, в том числе кода и математики. Сама по себе идея не супер новая, одна такая работа с работающим прототипом была уже 23 году (
ссылка).
📌Преимущества модели. В первую очередь скорость. ДипМайнд репортит 1479 tokens / sec. Второй потенциальный плюс - это более высокая согласованность сгенерированного текста. Происходит за счет того, что модель генерирует сразу блоки токенов, а не токен за токеном.
📌Бенчмарки. На сайте приводят сравнение текстовой диффузии, модель называют Gemini Diffusion, против Gemini 2.0 Flash-Lite. Про последнюю говорят, что она сильно больше в размерах (так ли это?). На бенчах диффузионка в среднем либо хуже, либо на уровне Gemini 2.0 Flash-Lite. На том же SWE-Bench Verified 22.9% против 28.5% в пользу Gemini 2.0 Flash-Lite (это к слову про тезис, что дифуззионной моделью удобнее редактировать код).
Можно объяснить такие метрики тем, что модель очень ранняя, экспериментальная и дальше будет точно лучше. Звучит очень правдоподобно. Сам факт того, что есть первый сопоставимый результат - это очень круто.
👥 Записаться в waitlist ожидания доступа к модели можно
тут@max_dot_sh