max.sh@max_dot

⌨️

Text Diffusion от DeepMind

По горячим следам поста выше с отзывом на интервью в команду, которая занималась текстовой диффузией, короткий новостной обзор модели.

DeepMind как раз пару часов назад обновил лэндинг c анонсом модели. Ссылка

📌

Что такое текстовая диффузия? Авторегрессионные модели генерируют поcледовательно по одному токену (Speculative Decoding опускаем). Это медленно (и это главная причина), плюс может потеряться согласованность (coherence). Диффузионные модели устроены иначе: они не предсказывают токены напрямую, а постепенно превращают шум в осмысленный текст. Это позволяет быстро находить решения и потенциально исправлять ошибки на ходу (а не генерировать много токенов рассуждений, как это делается сейчас в авторегрессионных моделях) — особенно эффективно при редактировании, в том числе кода и математики. Сама по себе идея не супер новая, одна такая работа с работающим прототипом была уже 23 году (ссылка).

📌

Преимущества модели. В первую очередь скорость. ДипМайнд репортит 1479 tokens / sec. Второй потенциальный плюс - это более высокая согласованность сгенерированного текста. Происходит за счет того, что модель генерирует сразу блоки токенов, а не токен за токеном.

📌

Бенчмарки. На сайте приводят сравнение текстовой диффузии, модель называют Gemini Diffusion, против Gemini 2.0 Flash-Lite. Про последнюю говорят, что она сильно больше в размерах (так ли это?). На бенчах диффузионка в среднем либо хуже, либо на уровне Gemini 2.0 Flash-Lite. На том же SWE-Bench Verified 22.9% против 28.5% в пользу Gemini 2.0 Flash-Lite (это к слову про тезис, что дифуззионной моделью удобнее редактировать код).

Можно объяснить такие метрики тем, что модель очень ранняя, экспериментальная и дальше будет точно лучше. Звучит очень правдоподобно. Сам факт того, что есть первый сопоставимый результат - это очень круто.

👥 Записаться в waitlist ожидания доступа к модели можно тут

@max_dot_sh

Please open Telegram to view this post

VIEW IN TELEGRAM

www.tgoop.com/max_dot_sh/97

1.8K viewsedited May 24 at 12:34

tgoop.com/max_dot_sh/97

Create: 2025-05-24
Last Update: 2025-06-12 17:06:04

⌨️ Text Diffusion от DeepMind

По горячим следам поста выше с отзывом на интервью в команду, которая занималась текстовой диффузией, короткий новостной обзор модели.

DeepMind как раз пару часов назад обновил лэндинг c анонсом модели. Ссылка

📌Что такое текстовая диффузия? Авторегрессионные модели генерируют поcледовательно по одному токену (Speculative Decoding опускаем). Это медленно (и это главная причина), плюс может потеряться согласованность (coherence). Диффузионные модели устроены иначе: они не предсказывают токены напрямую, а постепенно превращают шум в осмысленный текст. Это позволяет быстро находить решения и потенциально исправлять ошибки на ходу (а не генерировать много токенов рассуждений, как это делается сейчас в авторегрессионных моделях) — особенно эффективно при редактировании, в том числе кода и математики. Сама по себе идея не супер новая, одна такая работа с работающим прототипом была уже 23 году (ссылка).

📌Преимущества модели. В первую очередь скорость. ДипМайнд репортит 1479 tokens / sec. Второй потенциальный плюс - это более высокая согласованность сгенерированного текста. Происходит за счет того, что модель генерирует сразу блоки токенов, а не токен за токеном.

📌Бенчмарки. На сайте приводят сравнение текстовой диффузии, модель называют Gemini Diffusion, против Gemini 2.0 Flash-Lite. Про последнюю говорят, что она сильно больше в размерах (так ли это?). На бенчах диффузионка в среднем либо хуже, либо на уровне Gemini 2.0 Flash-Lite. На том же SWE-Bench Verified 22.9% против 28.5% в пользу Gemini 2.0 Flash-Lite (это к слову про тезис, что дифуззионной моделью удобнее редактировать код).

Можно объяснить такие метрики тем, что модель очень ранняя, экспериментальная и дальше будет точно лучше. Звучит очень правдоподобно. Сам факт того, что есть первый сопоставимый результат - это очень круто.

👥 Записаться в waitlist ожидания доступа к модели можно тут

@max_dot_sh

Telegram News

⌨️ Text Diffusion от DeepMind