NEURALDEEP Telegram 1337
LLaDA - это диффузионная языковая модель (LLM) что?


Появился новый тип LLM на основе диффузионных моделей

Отличие от авторегрессии(текущие LLM) в том, что в таких моделях каждый токен предсказывается последовательно, а в диффузионном подходе предсказывается целая матрица токенов в заданном фрейме

Это похоже на то, как идёт генерация изображений 100×100 пикселей из шума в понятную картинку

В этом подходе модель генерирует не последовательность, а целый текстовый фрейм. Нужны сравнения по весу, стоимости обучения и инференса - подход выглядит новаторским. На мой взгляд, это несколько усложняет процесс инференса и сборки датасета, но нужно тестировать! Посмотрим, что там по open-source.

Основные отличия вот в чем
Авторегрессивные модели (большинство существующих LLM):
Генерируют текст последовательно, токен за токеном слева направо
Каждый новый токен зависит от предыдущих токенов
Более прямолинейный процесс генерации

Диффузионные модели (LLaDA, Mercury):
Генерируют все токены одновременно, постепенно "очищая" шум
Работают по принципу "от грубого к точному" (coarse-to-fine)
Могут позволить более гибкое управление текстом (например, задание определенных слов в конкретных позициях)

До сих пор диффузионные модели доминировали в генерации изображений и видео, в то время как текст опирался на авторегрессию
Mercury от Inception Labs представлена как первая коммерческая диффузионная LLM

Судя по посту Karpathy, такой подход может привести к появлению моделей с уникальными сильными и слабыми сторонами


Потенциальные преимущества диффузионных LLM могут включать параллельную генерацию (возможно, более быстрый инференс) и более гибкое управление содержимым ждем open-source и гоу тестить!



tgoop.com/neuraldeep/1337
Create:
Last Update:

LLaDA - это диффузионная языковая модель (LLM) что?


Появился новый тип LLM на основе диффузионных моделей

Отличие от авторегрессии(текущие LLM) в том, что в таких моделях каждый токен предсказывается последовательно, а в диффузионном подходе предсказывается целая матрица токенов в заданном фрейме

Это похоже на то, как идёт генерация изображений 100×100 пикселей из шума в понятную картинку

В этом подходе модель генерирует не последовательность, а целый текстовый фрейм. Нужны сравнения по весу, стоимости обучения и инференса - подход выглядит новаторским. На мой взгляд, это несколько усложняет процесс инференса и сборки датасета, но нужно тестировать! Посмотрим, что там по open-source.

Основные отличия вот в чем
Авторегрессивные модели (большинство существующих LLM):
Генерируют текст последовательно, токен за токеном слева направо
Каждый новый токен зависит от предыдущих токенов
Более прямолинейный процесс генерации

Диффузионные модели (LLaDA, Mercury):
Генерируют все токены одновременно, постепенно "очищая" шум
Работают по принципу "от грубого к точному" (coarse-to-fine)
Могут позволить более гибкое управление текстом (например, задание определенных слов в конкретных позициях)

До сих пор диффузионные модели доминировали в генерации изображений и видео, в то время как текст опирался на авторегрессию
Mercury от Inception Labs представлена как первая коммерческая диффузионная LLM

Судя по посту Karpathy, такой подход может привести к появлению моделей с уникальными сильными и слабыми сторонами


Потенциальные преимущества диффузионных LLM могут включать параллельную генерацию (возможно, более быстрый инференс) и более гибкое управление содержимым ждем open-source и гоу тестить!

BY Neural Deep


Share with your friend now:
tgoop.com/neuraldeep/1337

View MORE
Open in Telegram


Telegram News

Date: |

The main design elements of your Telegram channel include a name, bio (brief description), and avatar. Your bio should be: Concise Members can post their voice notes of themselves screaming. Interestingly, the group doesn’t allow to post anything else which might lead to an instant ban. As of now, there are more than 330 members in the group. To upload a logo, click the Menu icon and select “Manage Channel.” In a new window, hit the Camera icon. Users are more open to new information on workdays rather than weekends.
from us


Telegram Neural Deep
FROM American