LLaDA - это диффузионная языковая модель (LLM) что?
Появился новый тип LLM на основе диффузионных моделей
Отличие от авторегрессии(текущие LLM) в том, что в таких моделях каждый токен предсказывается последовательно, а в диффузионном подходе предсказывается целая матрица токенов в заданном фрейме
Это похоже на то, как идёт генерация изображений 100×100 пикселей из шума в понятную картинку
В этом подходе модель генерирует не последовательность, а целый текстовый фрейм. Нужны сравнения по весу, стоимости обучения и инференса - подход выглядит новаторским. На мой взгляд, это несколько усложняет процесс инференса и сборки датасета, но нужно тестировать! Посмотрим, что там по open-source.
Основные отличия вот в чем
Авторегрессивные модели (большинство существующих LLM):
Генерируют текст последовательно, токен за токеном слева направо
Каждый новый токен зависит от предыдущих токенов
Более прямолинейный процесс генерации
Диффузионные модели (LLaDA, Mercury):
Генерируют все токены одновременно, постепенно "очищая" шум
Работают по принципу "от грубого к точному" (coarse-to-fine)
Могут позволить более гибкое управление текстом (например, задание определенных слов в конкретных позициях)
До сих пор диффузионные модели доминировали в генерации изображений и видео, в то время как текст опирался на авторегрессию
Mercury от Inception Labs представлена как первая коммерческая диффузионная LLM
Судя по посту Karpathy, такой подход может привести к появлению моделей с уникальными сильными и слабыми сторонами
Потенциальные преимущества диффузионных LLM могут включать параллельную генерацию (возможно, более быстрый инференс) и более гибкое управление содержимым ждем open-source и гоу тестить!
Появился новый тип LLM на основе диффузионных моделей
Отличие от авторегрессии(текущие LLM) в том, что в таких моделях каждый токен предсказывается последовательно, а в диффузионном подходе предсказывается целая матрица токенов в заданном фрейме
Это похоже на то, как идёт генерация изображений 100×100 пикселей из шума в понятную картинку
В этом подходе модель генерирует не последовательность, а целый текстовый фрейм. Нужны сравнения по весу, стоимости обучения и инференса - подход выглядит новаторским. На мой взгляд, это несколько усложняет процесс инференса и сборки датасета, но нужно тестировать! Посмотрим, что там по open-source.
Основные отличия вот в чем
Авторегрессивные модели (большинство существующих LLM):
Генерируют текст последовательно, токен за токеном слева направо
Каждый новый токен зависит от предыдущих токенов
Более прямолинейный процесс генерации
Диффузионные модели (LLaDA, Mercury):
Генерируют все токены одновременно, постепенно "очищая" шум
Работают по принципу "от грубого к точному" (coarse-to-fine)
Могут позволить более гибкое управление текстом (например, задание определенных слов в конкретных позициях)
До сих пор диффузионные модели доминировали в генерации изображений и видео, в то время как текст опирался на авторегрессию
Mercury от Inception Labs представлена как первая коммерческая диффузионная LLM
Судя по посту Karpathy, такой подход может привести к появлению моделей с уникальными сильными и слабыми сторонами
Потенциальные преимущества диффузионных LLM могут включать параллельную генерацию (возможно, более быстрый инференс) и более гибкое управление содержимым ждем open-source и гоу тестить!
tgoop.com/neuraldeep/1337
Create:
Last Update:
Last Update:
LLaDA - это диффузионная языковая модель (LLM) что?
Появился новый тип LLM на основе диффузионных моделей
Отличие от авторегрессии(текущие LLM) в том, что в таких моделях каждый токен предсказывается последовательно, а в диффузионном подходе предсказывается целая матрица токенов в заданном фрейме
Это похоже на то, как идёт генерация изображений 100×100 пикселей из шума в понятную картинку
В этом подходе модель генерирует не последовательность, а целый текстовый фрейм. Нужны сравнения по весу, стоимости обучения и инференса - подход выглядит новаторским. На мой взгляд, это несколько усложняет процесс инференса и сборки датасета, но нужно тестировать! Посмотрим, что там по open-source.
Основные отличия вот в чем
Авторегрессивные модели (большинство существующих LLM):
Генерируют текст последовательно, токен за токеном слева направо
Каждый новый токен зависит от предыдущих токенов
Более прямолинейный процесс генерации
Диффузионные модели (LLaDA, Mercury):
Генерируют все токены одновременно, постепенно "очищая" шум
Работают по принципу "от грубого к точному" (coarse-to-fine)
Могут позволить более гибкое управление текстом (например, задание определенных слов в конкретных позициях)
До сих пор диффузионные модели доминировали в генерации изображений и видео, в то время как текст опирался на авторегрессию
Mercury от Inception Labs представлена как первая коммерческая диффузионная LLM
Судя по посту Karpathy, такой подход может привести к появлению моделей с уникальными сильными и слабыми сторонами
Потенциальные преимущества диффузионных LLM могут включать параллельную генерацию (возможно, более быстрый инференс) и более гибкое управление содержимым ждем open-source и гоу тестить!
Появился новый тип LLM на основе диффузионных моделей
Отличие от авторегрессии(текущие LLM) в том, что в таких моделях каждый токен предсказывается последовательно, а в диффузионном подходе предсказывается целая матрица токенов в заданном фрейме
Это похоже на то, как идёт генерация изображений 100×100 пикселей из шума в понятную картинку
В этом подходе модель генерирует не последовательность, а целый текстовый фрейм. Нужны сравнения по весу, стоимости обучения и инференса - подход выглядит новаторским. На мой взгляд, это несколько усложняет процесс инференса и сборки датасета, но нужно тестировать! Посмотрим, что там по open-source.
Основные отличия вот в чем
Авторегрессивные модели (большинство существующих LLM):
Генерируют текст последовательно, токен за токеном слева направо
Каждый новый токен зависит от предыдущих токенов
Более прямолинейный процесс генерации
Диффузионные модели (LLaDA, Mercury):
Генерируют все токены одновременно, постепенно "очищая" шум
Работают по принципу "от грубого к точному" (coarse-to-fine)
Могут позволить более гибкое управление текстом (например, задание определенных слов в конкретных позициях)
До сих пор диффузионные модели доминировали в генерации изображений и видео, в то время как текст опирался на авторегрессию
Mercury от Inception Labs представлена как первая коммерческая диффузионная LLM
Судя по посту Karpathy, такой подход может привести к появлению моделей с уникальными сильными и слабыми сторонами
Потенциальные преимущества диффузионных LLM могут включать параллельную генерацию (возможно, более быстрый инференс) и более гибкое управление содержимым ждем open-source и гоу тестить!
BY Neural Deep
Share with your friend now:
tgoop.com/neuraldeep/1337