MACHINELEARNINDIGEST Telegram 1389
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ BERT is just a Single Text Diffusion Step

Любопытны пост, где автор объяснил очень простую, но мощную идею.

Он заметил, что то, что мы называем диффузией для текста, на самом деле - это просто обобщённая версия классического обучения BERT.

Как работает
BERT?
В BERT модель берёт текст и маскирует часть слов, а потом учится угадывать, какие слова были скрыты.
В диффузии происходит почти то же самое, только шагов больше: на каждом шаге модель немного «портит» текст (добавляет шум), а затем восстанавливает его, всё меньше и меньше теряя смысл, пока не соберёт финальный чистый текст.

То есть BERT делает один шаг очистки - угадывает замаскированные слова.

А диффузионная модель делает много таких шагов подряд, постепенно превращая случайный набор токенов в осмысленный текст.

Барри дообучил RoBERTa, чтобы показать это на практике - и получил настоящий текстовый диффузионный генератор.

В примере:
- Используется RoBER (улучшенная версия модели BERT,) и датасет WikiText.
- На каждом шаге часть токенов заменяется на <MASK>,
модель восстанавливает их, потом снова маскирует — и так несколько раз.
- После нескольких итераций модель способна генерировать связный текст,
даже без автогенеративного декодера (как у GPT).

📈 Результаты
- Модель генерирует осмысленный текст, хотя и не идеально связный.
- Качество улучшалось по мере добавления шагов диффузии.
- По времени генерации RoBERTa Diffusion была немного медленнее, чем GPT-2 (~13 сек против 9 сек), но архитектура осталась полностью encoder-only.

Автор упоминает, что позже наткнулся на работу DiffusionBERT, где идею реализовали глубже и подтвердили результатами.

Главная мысль:
BERT можно считать одноступенчатой версией текстовой диффузии.
Если добавить больше шагов, то vs получаем диффузионный генератор текста.

Если BERT - это один шаг диффузии, то будущее может принадлежать моделям, совмещающим "понимание" и "генерацию" текста в одном процессе.

https://nathan.rs/posts/roberta-diffusion/

@ai_machinelearning_big_data


#AI #Diffusion #RoBERTa #BERT #LanguageModel #MLM #Research
Please open Telegram to view this post
VIEW IN TELEGRAM



tgoop.com/machinelearnindigest/1389
Create:
Last Update:

⚡️ BERT is just a Single Text Diffusion Step

Любопытны пост, где автор объяснил очень простую, но мощную идею.

Он заметил, что то, что мы называем диффузией для текста, на самом деле - это просто обобщённая версия классического обучения BERT.

Как работает
BERT?
В BERT модель берёт текст и маскирует часть слов, а потом учится угадывать, какие слова были скрыты.
В диффузии происходит почти то же самое, только шагов больше: на каждом шаге модель немного «портит» текст (добавляет шум), а затем восстанавливает его, всё меньше и меньше теряя смысл, пока не соберёт финальный чистый текст.

То есть BERT делает один шаг очистки - угадывает замаскированные слова.

А диффузионная модель делает много таких шагов подряд, постепенно превращая случайный набор токенов в осмысленный текст.

Барри дообучил RoBERTa, чтобы показать это на практике - и получил настоящий текстовый диффузионный генератор.

В примере:
- Используется RoBER (улучшенная версия модели BERT,) и датасет WikiText.
- На каждом шаге часть токенов заменяется на <MASK>,
модель восстанавливает их, потом снова маскирует — и так несколько раз.
- После нескольких итераций модель способна генерировать связный текст,
даже без автогенеративного декодера (как у GPT).

📈 Результаты
- Модель генерирует осмысленный текст, хотя и не идеально связный.
- Качество улучшалось по мере добавления шагов диффузии.
- По времени генерации RoBERTa Diffusion была немного медленнее, чем GPT-2 (~13 сек против 9 сек), но архитектура осталась полностью encoder-only.

Автор упоминает, что позже наткнулся на работу DiffusionBERT, где идею реализовали глубже и подтвердили результатами.

Главная мысль:
BERT можно считать одноступенчатой версией текстовой диффузии.
Если добавить больше шагов, то vs получаем диффузионный генератор текста.

Если BERT - это один шаг диффузии, то будущее может принадлежать моделям, совмещающим "понимание" и "генерацию" текста в одном процессе.

https://nathan.rs/posts/roberta-diffusion/

@ai_machinelearning_big_data


#AI #Diffusion #RoBERTa #BERT #LanguageModel #MLM #Research

BY Машинное обучение digest


Share with your friend now:
tgoop.com/machinelearnindigest/1389

View MORE
Open in Telegram


Telegram News

Date: |

More>> In 2018, Telegram’s audience reached 200 million people, with 500,000 new users joining the messenger every day. It was launched for iOS on 14 August 2013 and Android on 20 October 2013. Other crimes that the SUCK Channel incited under Ng’s watch included using corrosive chemicals to make explosives and causing grievous bodily harm with intent. The court also found Ng responsible for calling on people to assist protesters who clashed violently with police at several universities in November 2019. Avoid compound hashtags that consist of several words. If you have a hashtag like #marketingnewsinusa, split it into smaller hashtags: “#marketing, #news, #usa. Telegram channels fall into two types:
from us


Telegram Машинное обучение digest
FROM American