КПД@quant_prune_distill P.431

КПД

Метод

Предложенный процесс не является диффузией в привычном понимании, а маскированием с разной степенью зашумления [MASK] токенами.

Задача языкового моделирования обычно оперирует в терминах дискретных токенов.
Имея некий исходный текст, предлагается “зашумить” некую долю (от 0 до 1) токенов, заменив их на [MASK], а задача модели - предсказать зашумленные токены. Прямо как старый добрый BERT, только доля зашумленных токенов переменная.

Обучение состоит из pretrain и SFT:
🌟На pretrain зашумляют токены на любых позициях.
🌟На SFT только в ответе. Промпт не трогают.

RL, как я понял, пока не осилили.

Инференс выглядит следующим образом - стартуя с большого количества [MASK] токенов, предсказываем токены, которые стоят на этой позиции. Прогон за один раз работает не очень, потому делаем процедуру итеративно, снова зашумляя уже меньший процент [MASK] токенов . Выбирать токены можно случайно, а можно брвть те, где модель наиболее уверена, а остальные снова зашумлять перед следующей итерацией.

Чем больше шагов диффузии (маскирования/демаскирования) - тем ожидается, что лучше качесво.

Эксперименты

Обучают две модели размера 1B и 8B на некотором собственноручно собранном корпусе данных. Замеряют на стандартном наборе задач из lm-eval и HumanEval (кодинг бенче).

При прочих равных (архитектуре и размере модели, затраченном на обучение бюджете) диффузия на большинстве задач не хуже авторегрессионного бейзлайна (кроме PiQA).

Полученная 8B модель посильнее Llama 2 7B, но все же уступает Llama 3 8B и Qwen2.5 7B. Справедливости ради стоить заметить, что обучали всего на 2.7T токенах, что по нынешним меркам немного, всего лишь 0.13 миллионов H800 GPU часов.

Авторы утверждают, что в плане оценки правдоподобия диффузионки сильно менее эффективные по сравнению с авторегрессионными, но бенчмарки от этого не сильно страдают,

И напоследок показывают, что диффузионные модели гораздо лучше умеют предсказывать прошлое (прошлые строки на основе последующих в стихах), чем авторегрессионные LLM. Непонятно зачем, правда.

Вывод

Попытки уйти от стандартной парадигмы всегда выглядят интересно. Пока еще сильно далеко от SOTA LLM, да и протокол замеров не исчерпывающий, но тем не менее, кажется, что история сколь-либо жизнеспособная. Сильно не хватает замеров скорости, и экспериментов по trade-off между скоростью генерации и качеством результатов. Ждем выпуска моделей и кода, дабы самим заценить.

👍2

www.tgoop.com/quant_prune_distill/431

2.51K viewsFeb 17 at 21:17

tgoop.com/quant_prune_distill/431

Create: 2025-02-17
Last Update: 2025-08-24 11:01:20

BY КПД

Share with your friend now:
tgoop.com/quant_prune_distill/431

Telegram News

Метод