tgoop.com/quant_prune_distill/431
Last Update:
Метод
Предложенный процесс не является диффузией в привычном понимании, а маскированием с разной степенью зашумления [MASK]
токенами.
Задача языкового моделирования обычно оперирует в терминах дискретных токенов.
Имея некий исходный текст, предлагается “зашумить” некую долю (от 0 до 1) токенов, заменив их на [MASK],
а задача модели - предсказать зашумленные токены. Прямо как старый добрый BERT, только доля зашумленных токенов переменная.
Обучение состоит из pretrain и SFT:
🌟На pretrain зашумляют токены на любых позициях.
🌟На SFT только в ответе. Промпт не трогают.
RL, как я понял, пока не осилили.
Инференс выглядит следующим образом - стартуя с большого количества [MASK]
токенов, предсказываем токены, которые стоят на этой позиции. Прогон за один раз работает не очень, потому делаем процедуру итеративно, снова зашумляя уже меньший процент [MASK]
токенов . Выбирать токены можно случайно, а можно брвть те, где модель наиболее уверена, а остальные снова зашумлять перед следующей итерацией.
Чем больше шагов диффузии (маскирования/демаскирования) - тем ожидается, что лучше качесво.
Эксперименты
Обучают две модели размера 1B и 8B на некотором собственноручно собранном корпусе данных. Замеряют на стандартном наборе задач из lm-eval и HumanEval (кодинг бенче).
При прочих равных (архитектуре и размере модели, затраченном на обучение бюджете) диффузия на большинстве задач не хуже авторегрессионного бейзлайна (кроме PiQA).
Полученная 8B модель посильнее Llama 2 7B, но все же уступает Llama 3 8B и Qwen2.5 7B. Справедливости ради стоить заметить, что обучали всего на 2.7T токенах, что по нынешним меркам немного, всего лишь 0.13 миллионов H800 GPU часов.
Авторы утверждают, что в плане оценки правдоподобия диффузионки сильно менее эффективные по сравнению с авторегрессионными, но бенчмарки от этого не сильно страдают,
И напоследок показывают, что диффузионные модели гораздо лучше умеют предсказывать прошлое (прошлые строки на основе последующих в стихах), чем авторегрессионные LLM. Непонятно зачем, правда.
Вывод
Попытки уйти от стандартной парадигмы всегда выглядят интересно. Пока еще сильно далеко от SOTA LLM, да и протокол замеров не исчерпывающий, но тем не менее, кажется, что история сколь-либо жизнеспособная. Сильно не хватает замеров скорости, и экспериментов по trade-off между скоростью генерации и качеством результатов. Ждем выпуска моделей и кода, дабы самим заценить.
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/431