Демка оценивающая оптимальный шаг обучения и размер батча для модели заданного размера, количества токенов на обучении и ширины эмбеда на основе формул из статьи про первый DeepSeek 🐋.
Оно еще предлагает конфигурации распараллеливания для разного количества нод.
Формула, правда, ломается для очень маленьких моделей.
Оно еще предлагает конфигурации распараллеливания для разного количества нод.
Формула, правда, ломается для очень маленьких моделей.
👍12👀5
SMOL_секреты_создания_LLM_мирового_класса_Перевод_t_me_aivkube.pdf
14.6 MB
Русскоязычный перевод The Smol Training Playbook от @sergeydolgov с качественной версткой.
Оригинальный материал представляет собой очень полезное пособие по обучению LLM, да и DL в целом.
Оригинальный материал представляет собой очень полезное пособие по обучению LLM, да и DL в целом.
👍20💩4🔥3❤2❤🔥1
BEYOND OUTLIERS: A STUDY OF OPTIMIZERS UNDER QUANTIZATION
[Статья] [Кода нет]
Введение
Существует целый зоопарк оптимизаторов, использующих тот или иной механизм предобусловливания. И некоторые из них, в частности Muon, уже вполне себе составляют конкуренцию Adam-у.
Кроме того для более эффективного инференса модели можно квантизовать.
И отсюда возникает вопрос - есть ли взаимосвязь между сложностью квантизации и оптимизатором на обучении? Может ли быть так, что некоторые алгоритмы производят модели более податливые к сжатию, а другие нет 🤔?
И в рассматриваемой работе изучили данный вопрос систематически.
[Статья] [Кода нет]
Введение
Существует целый зоопарк оптимизаторов, использующих тот или иной механизм предобусловливания. И некоторые из них, в частности Muon, уже вполне себе составляют конкуренцию Adam-у.
Кроме того для более эффективного инференса модели можно квантизовать.
И отсюда возникает вопрос - есть ли взаимосвязь между сложностью квантизации и оптимизатором на обучении? Может ли быть так, что некоторые алгоритмы производят модели более податливые к сжатию, а другие нет 🤔?
И в рассматриваемой работе изучили данный вопрос систематически.
🔥10👍4❤1
🔬 Метод
Берут 6 оптимизаторов:
📌 AdamW
📌 PSGD
📌 Shampoo
📌 Muon
📌 Scion
📌 SOAP
и обучают семейство OLMo2-like трансформеров от 50M до 1.5B параметров Шиншилла-оптимальное количество токенов. Learning rate подобран на меньшей модели, а затем масштабируется на большие как 1 / размер.
Обучают fp16 бейзлайн и 4-х битные модели с квантизацией весов и активаций. Рассматривают PTQ (квантизацию fp16 модели) и QAT (Quantization-Aware Training).
В прошлых статьях в качестве прокси на сложность квантизации смотрели на отношение максимума по модулю к медиане (MMR) и kurtosis (4-ый момент распределения). Первая метрика показывает насколько выбросы отличаются от среднего, а вторая - “тяжесть” хвостов квантизации.
Оказывается 😱, что эти метрики не слишком коррелированны с реальной просадкой качества. Шампунь имеет большой MMR и kurtosis, но при этом обученные им модели легче всего квантизуются.
Из интересного, замечают что MMR растет с повышением learning rate, что, в целом, ожидаемо, так как у весов/активаций больше возможностей убежать от среднего. При этом MMR наименьший у Muon.
Взамен предлагают свою метрику - относительную послойную ошибку (квадрат нормы разности неквантизованной активации и квантизованную деленный на квадрат нормы первой) и показывают, что она гораздо лучше связана с результатами на бенчах.
Берут 6 оптимизаторов:
📌 AdamW
📌 PSGD
📌 Shampoo
📌 Muon
📌 Scion
📌 SOAP
и обучают семейство OLMo2-like трансформеров от 50M до 1.5B параметров Шиншилла-оптимальное количество токенов. Learning rate подобран на меньшей модели, а затем масштабируется на большие как 1 / размер.
Обучают fp16 бейзлайн и 4-х битные модели с квантизацией весов и активаций. Рассматривают PTQ (квантизацию fp16 модели) и QAT (Quantization-Aware Training).
В прошлых статьях в качестве прокси на сложность квантизации смотрели на отношение максимума по модулю к медиане (MMR) и kurtosis (4-ый момент распределения). Первая метрика показывает насколько выбросы отличаются от среднего, а вторая - “тяжесть” хвостов квантизации.
Оказывается 😱, что эти метрики не слишком коррелированны с реальной просадкой качества. Шампунь имеет большой MMR и kurtosis, но при этом обученные им модели легче всего квантизуются.
Из интересного, замечают что MMR растет с повышением learning rate, что, в целом, ожидаемо, так как у весов/активаций больше возможностей убежать от среднего. При этом MMR наименьший у Muon.
Взамен предлагают свою метрику - относительную послойную ошибку (квадрат нормы разности неквантизованной активации и квантизованную деленный на квадрат нормы первой) и показывают, что она гораздо лучше связана с результатами на бенчах.
🔥5
🧪Эксперименты
Модели обучают на корпусе ClimbMix. Для замеров берут стандартные бенчи из lm-eval-harness.
Для QAT используется рецепт из QuEST (Адамаровы вращения + стохастическое округление).
Без квантизации лучшие результаты на меньших моделях выдает SOAP 🧼, а остальных - Muon. Для PTQ в большинстве случаев Shampoo выходит победителем. В QAT режиме нет однозначного победителя, но на больших моделях будто бы “средство для мытья головы” снова предпочтителен.
Для разных моделей фитируют коэффициент эффективного размера ρ в законе;
В соответствии с результатами выше, он наибольший у Shampoo и наименьший у Muon. Adam следующий по хорошести.
💡 Выводы
Довольно интересный и практически полезный результат учитывая растущие потребности в получении качественных низкобитных результат. Интересно, обобщаются ли полученные выводы на другие битности (более высокие или низкие), и соотношения размера обучающих данных к размеру модели (много Шиншилл). Станет ли это мотивацией для более пристального внимания к Shampoo или оверхед на внедрение и настройку перебьет потенциальные бенефиты 🤔?
Модели обучают на корпусе ClimbMix. Для замеров берут стандартные бенчи из lm-eval-harness.
Для QAT используется рецепт из QuEST (Адамаровы вращения + стохастическое округление).
Без квантизации лучшие результаты на меньших моделях выдает SOAP 🧼, а остальных - Muon. Для PTQ в большинстве случаев Shampoo выходит победителем. В QAT режиме нет однозначного победителя, но на больших моделях будто бы “средство для мытья головы” снова предпочтителен.
Для разных моделей фитируют коэффициент эффективного размера ρ в законе;
L = A / (N · ρ)^α + BВ соответствии с результатами выше, он наибольший у Shampoo и наименьший у Muon. Adam следующий по хорошести.
💡 Выводы
Довольно интересный и практически полезный результат учитывая растущие потребности в получении качественных низкобитных результат. Интересно, обобщаются ли полученные выводы на другие битности (более высокие или низкие), и соотношения размера обучающих данных к размеру модели (много Шиншилл). Станет ли это мотивацией для более пристального внимания к Shampoo или оверхед на внедрение и настройку перебьет потенциальные бенефиты 🤔?
🔥4
11 декабря в Москве пройдет встреча ML Global Recap'25, посвященная основным международным AI конференциям и главным трендам
в рекомендательных технологиях, компьютерном зрении, технологиях распознавания речи и NLP.
Список выступающих и доклады:
🔸 Алексей Гусаков, CTO Поисковых сервисов и ИИ. Откроет ивент кратким обзором NeurlPS
🔸 Борис Шелудько, руководитель команды качества звука. Расскажет про последние тренды по звуку и рассмотрит статьи с Interspeech
🔸 Николай Савушкин, руководитель команды рекомендательных технологий. Выступит с докладом про CIKM и RecSys и тренды в рекомендательных решениях
🔸 Роман Исаченко, руководитель команды анализа и изображений. Расскажет про тренды в компьютерном зрении и детально рассмотрит ICLR
🔸 Александр Юшкевич, руководитель команды развития моделей базового качества. Расскажет про тренды в NLP и поделится новостями с ICLR и ACL
📅 Когда: 11 декабря в 18:00
🏙️ Где: в Москве и онлайн
Приглашаются все желающие.
в рекомендательных технологиях, компьютерном зрении, технологиях распознавания речи и NLP.
Список выступающих и доклады:
🔸 Алексей Гусаков, CTO Поисковых сервисов и ИИ. Откроет ивент кратким обзором NeurlPS
🔸 Борис Шелудько, руководитель команды качества звука. Расскажет про последние тренды по звуку и рассмотрит статьи с Interspeech
🔸 Николай Савушкин, руководитель команды рекомендательных технологий. Выступит с докладом про CIKM и RecSys и тренды в рекомендательных решениях
🔸 Роман Исаченко, руководитель команды анализа и изображений. Расскажет про тренды в компьютерном зрении и детально рассмотрит ICLR
🔸 Александр Юшкевич, руководитель команды развития моделей базового качества. Расскажет про тренды в NLP и поделится новостями с ICLR и ACL
📅 Когда: 11 декабря в 18:00
🏙️ Где: в Москве и онлайн
Приглашаются все желающие.
❤4
Back to Basics: Let Denoising Generative Models Denoise
[Статья][Код]
Введение
На данный момент в области генерации изображений и видео доминирует латетная диффузия, использующая вспомогательную сеть - автоэнкодер - для отображения в пространство с меньшей пространственно-временной размерностью. В таком пространстве и диффузионный процесс дешевле и качество хорошее.
Но что если очень хочется 🤔гонять диффузию в пиксельном пространстве, на больших пиксельных патчах?
И авторы сегодняшней статьи (один из них не абы кто, а создатель Резнета 👑) предлагают рабочий рецепт пиксельной диффузии в сравнительно большой размерности.
[Статья][Код]
Введение
На данный момент в области генерации изображений и видео доминирует латетная диффузия, использующая вспомогательную сеть - автоэнкодер - для отображения в пространство с меньшей пространственно-временной размерностью. В таком пространстве и диффузионный процесс дешевле и качество хорошее.
Но что если очень хочется 🤔гонять диффузию в пиксельном пространстве, на больших пиксельных патчах?
И авторы сегодняшней статьи (один из них не абы кто, а создатель Резнета 👑) предлагают рабочий рецепт пиксельной диффузии в сравнительно большой размерности.
🔥7
🔬🧪 Метод и эксперименты
Известно, что естественные изображения заметают не все возможные комбинации пикселей, а лежат на некотором подпространстве.
При обучении диффузионных моделей используются обыкновенно 3 типа предсказания:
📌Предсказание расшумленного сэмпла - x0
📌Предсказание шума epsilon
📌Предсказание скорости - v (взвешенная комбинация x0 и eps)
Математически вроде бы все формулировки эквивалентны (с точностью до изменения коэффициентов перед лоссом). Однако на подпространстве лежит лишь x0, в то время как шум и, соответственно, скорость заметают все пространство.
Отсюда авторы делают предположение, что учиться на x0 должно быть проще, чем на \epsilon или скорости.
Для валидации гипотезы сэмплируют данные в виде 2-мерной спирали, вложенной в пространство большой размерности. И оказывается, что начиная с какого-то момента v-prediction и eps-prediction работает плохо, а x0 - хорошо.
Затем гипотезу проверяют уже на большем масштабе. Берут Vision Transformer, который называют просто Just Image Transformer (JiT, не путать с JiT-компиляцией), нарезают картинку на большие патчи (16x16, 32x32), и гоняют в таком пространстве диффузию на ImageNet-256/512.
Все варианты, кроме x0-prediction работают из ряда вон плохо, и тюнинг уровня шума не помогает. x0-prediction же работает сносно. Оказывается, что добавление дополнительного боттлнека после патчевалки даже немного улучшает качество.
Далее в модель накидывают ряд архитектурных модификаций, отходя от классического DiT - SwiGLU, RMSNorm-ы, RoPE и 32 in-context класс токена, что немного улучшает метрики.
Итоговый результат не SOTA 🏆, но вполне пристойный.
💡 Выводы
Интерпретация через manifold learning выглядит интересно. Однако вход в модель-то все равно (зашумленный сэмпл) остается чем-то лежащим в пространстве высокой размерности. Интересно, перенесутся ли полученные результаты на class-conditional случай.
Известно, что естественные изображения заметают не все возможные комбинации пикселей, а лежат на некотором подпространстве.
При обучении диффузионных моделей используются обыкновенно 3 типа предсказания:
📌Предсказание расшумленного сэмпла - x0
📌Предсказание шума epsilon
📌Предсказание скорости - v (взвешенная комбинация x0 и eps)
Математически вроде бы все формулировки эквивалентны (с точностью до изменения коэффициентов перед лоссом). Однако на подпространстве лежит лишь x0, в то время как шум и, соответственно, скорость заметают все пространство.
Отсюда авторы делают предположение, что учиться на x0 должно быть проще, чем на \epsilon или скорости.
Для валидации гипотезы сэмплируют данные в виде 2-мерной спирали, вложенной в пространство большой размерности. И оказывается, что начиная с какого-то момента v-prediction и eps-prediction работает плохо, а x0 - хорошо.
Затем гипотезу проверяют уже на большем масштабе. Берут Vision Transformer, который называют просто Just Image Transformer (JiT, не путать с JiT-компиляцией), нарезают картинку на большие патчи (16x16, 32x32), и гоняют в таком пространстве диффузию на ImageNet-256/512.
Все варианты, кроме x0-prediction работают из ряда вон плохо, и тюнинг уровня шума не помогает. x0-prediction же работает сносно. Оказывается, что добавление дополнительного боттлнека после патчевалки даже немного улучшает качество.
Далее в модель накидывают ряд архитектурных модификаций, отходя от классического DiT - SwiGLU, RMSNorm-ы, RoPE и 32 in-context класс токена, что немного улучшает метрики.
Итоговый результат не SOTA 🏆, но вполне пристойный.
💡 Выводы
Интерпретация через manifold learning выглядит интересно. Однако вход в модель-то все равно (зашумленный сэмпл) остается чем-то лежащим в пространстве высокой размерности. Интересно, перенесутся ли полученные результаты на class-conditional случай.
👏5❤4👍2
Маленький коммит для человека, огромный скачок для человечества.
Можно теперь в резюме на LinkedIn хвастаться.
Можно теперь в резюме на LinkedIn хвастаться.
🤪26🔥4🤡3❤1
THE UNSEEN FRONTIER: PUSHING THE LIMITS OF LLM SPARSITY WITH SURROGATE-FREE ADMM
[Статья][Нет кода]
Введение
В отличие от квантизации методы прунинга для LLM не получили такого широкого распространения, с одной стороны, из-за аппаратной поддержки, а с другой, из-за больших просадок качества даже при сравнительно слабом прореживании - 50-60%.
В рассматриваемой работе авторы. вероятно, похожие на группу BTS, вместо с Дэном Алистаром предложили метод, основанный на ADMM, позволяющий доходить до высоких степеней прореживания (до 90%), сохраняя при этом когерентную генерацию.
[Статья][Нет кода]
Введение
В отличие от квантизации методы прунинга для LLM не получили такого широкого распространения, с одной стороны, из-за аппаратной поддержки, а с другой, из-за больших просадок качества даже при сравнительно слабом прореживании - 50-60%.
В рассматриваемой работе авторы. вероятно, похожие на группу BTS, вместо с Дэном Алистаром предложили метод, основанный на ADMM, позволяющий доходить до высоких степеней прореживания (до 90%), сохраняя при этом когерентную генерацию.
⚡5
🔬 Метод
Задача нахождения оптимальной прореженной сети суть задача оптимизации с ограничениями. Как известно, задачу с условиями можно перевести в безусловную, введя множители Лагранжа. И итерационный процесс, задаваемый ADMM, позволяет ее эффективно решать.
Но как определить задачу? MSE между весами сжатой и не сжатой модели - не лучший критерий из-за разной чувствительности модели к изменению разных весов. И в качестве метрики предлагают матрицу Гессе (вторых производных функции потерь). Но так как ее точно посчитать нереалистично на практике, ее просто заменяют диагональным Фишером - квадратом градиентов.
Для больших моделей градиенты можно квантизовать в более низкую битность (как в Adam-8bit).
🧪 Эксперименты
Метод валидируют на моделях из разных эпох. От допотопного OPT до не таких старых Llama-3.2 и Gemma 3.
При высоких уровнях прореживания (70%-90%) ELSA выдает 2-значную перплексию, в то время как остальные методы (SparseGPT, Wanda, L-ADMM) улетают в космос 🚀.
При умеренном прореживании ELSA не всегда лучшая (ALPS и SAFE выглядят несколько получше), но, в целом, вполне себе рабочая 🛠.
ELSA лучше скейлится по данным по сравнению с L-ADMM (где минимизируется ошибка на выходе слоя, вместо Фишеровской метрики)
💡 Выводы
Любопытно, что довольно грубое Фишероское диагональное приближение в связке с ADMM выстрелило так неплохо для высокой sparsity. С точки зрения практиков просадки все равно слишком серьезные, чтобы разреженность конкурировала с квантизацией или вариантом взять модель поменьше, тем не менее, это все же серьезный прогресс.
Задача нахождения оптимальной прореженной сети суть задача оптимизации с ограничениями. Как известно, задачу с условиями можно перевести в безусловную, введя множители Лагранжа. И итерационный процесс, задаваемый ADMM, позволяет ее эффективно решать.
Но как определить задачу? MSE между весами сжатой и не сжатой модели - не лучший критерий из-за разной чувствительности модели к изменению разных весов. И в качестве метрики предлагают матрицу Гессе (вторых производных функции потерь). Но так как ее точно посчитать нереалистично на практике, ее просто заменяют диагональным Фишером - квадратом градиентов.
Для больших моделей градиенты можно квантизовать в более низкую битность (как в Adam-8bit).
🧪 Эксперименты
Метод валидируют на моделях из разных эпох. От допотопного OPT до не таких старых Llama-3.2 и Gemma 3.
При высоких уровнях прореживания (70%-90%) ELSA выдает 2-значную перплексию, в то время как остальные методы (SparseGPT, Wanda, L-ADMM) улетают в космос 🚀.
При умеренном прореживании ELSA не всегда лучшая (ALPS и SAFE выглядят несколько получше), но, в целом, вполне себе рабочая 🛠.
ELSA лучше скейлится по данным по сравнению с L-ADMM (где минимизируется ошибка на выходе слоя, вместо Фишеровской метрики)
💡 Выводы
Любопытно, что довольно грубое Фишероское диагональное приближение в связке с ADMM выстрелило так неплохо для высокой sparsity. С точки зрения практиков просадки все равно слишком серьезные, чтобы разреженность конкурировала с квантизацией или вариантом взять модель поменьше, тем не менее, это все же серьезный прогресс.
🔥5❤1
PixelDiT: Pixel Diffusion Transformers for Image Generation
[Статья] [Кода нет]
Введение
В последнее время в диффузионных моделях пошла мода на отказ от латентной диффузии с использованием VAE, переход к генерации напрямую в пиксельном пространстве.
И в разбираемой статье коллектив авторов предложил решение, якобы выдающее лучшее качество в сравнении с прошлыми подходами и могущее в криспи 🍒 генерации.
[Статья] [Кода нет]
Введение
В последнее время в диффузионных моделях пошла мода на отказ от латентной диффузии с использованием VAE, переход к генерации напрямую в пиксельном пространстве.
И в разбираемой статье коллектив авторов предложил решение, якобы выдающее лучшее качество в сравнении с прошлыми подходами и могущее в криспи 🍒 генерации.
❤2
🔬 Метод
Чтобы моделировать на уровне пикселей, предлагают двухуровневый каскад из patch-level сети, обрабатывающей патчи, и pixel-level сети, работающей на пикселях.
Patch-level сеть - это просто трансформер обрабатывающие патчи (в основном 16x16), как токены. Она принимает на вход либо метку класса, либо текст.
Более примечательна pixel-level сеть. Она использует pixel-level модуляцию (домножение на скаляр и сдвиг) на основе выхода patch-level сети. Чтобы параметры модуляции были специфичны для каждого пикселя через линейный слой карту признаков патчей разворачивают в p x p (p - размер патча).
Полный аттеншен между всеми пикселями будет слишком дорогим, поэтому перед вниманием токены группируются снова в патчи (p x p), и затем снова разворачиваются в исходную последовательность.
Обычно берут pixel-level сетку неглубокой и неширокой (2-4 слоя) со скрытой размерностью 16, поэтому гонять ее даже на высокоразмерных изображениях недорого.
🧪 Эксперименты
Обучают как class-condition, так и text-2-image модель. Чтобы улучшить метрики и сходимость используют REPA с признаками DINOv2.
Модель выбивает неплохие FID-ы, опережая все прошлые подходы на пиксельной диффузии, но недотягивая несколько до SOTA FID-арасов.
В ablation показывают, что просто учить DiT на патчах плохо, аттеншен без сжатия токенов ООМается, пиксельная модуляция помогает.
Уменьшение патчей не сильно улучшает качество, особенно для больших моделей, при этом кратно делая процедуру дороже, поэтому патчи 16x16 выбирают как более-менее оптимальные.
Затем обучают T2I MMDiT-модель с Gemma-2 энкодером размером 1.3B параметров и она выдает довольно неплохие метрики. Обучают на 26М пар, не очень долго, поэтому ожидать SOTA не приходится, но для таких ресурсов вполне достойное качество.
💡 Выводы
В целом выглядит неплохо, но кажется, что хорошие VAE - FLUX, Wan, Qwen-Image обладают очень хорошим качеством реконструкции и так. Возможно, разница будет бросаться только на крошечных деталях или на мелком шрифте.
Чтобы моделировать на уровне пикселей, предлагают двухуровневый каскад из patch-level сети, обрабатывающей патчи, и pixel-level сети, работающей на пикселях.
Patch-level сеть - это просто трансформер обрабатывающие патчи (в основном 16x16), как токены. Она принимает на вход либо метку класса, либо текст.
Более примечательна pixel-level сеть. Она использует pixel-level модуляцию (домножение на скаляр и сдвиг) на основе выхода patch-level сети. Чтобы параметры модуляции были специфичны для каждого пикселя через линейный слой карту признаков патчей разворачивают в p x p (p - размер патча).
Полный аттеншен между всеми пикселями будет слишком дорогим, поэтому перед вниманием токены группируются снова в патчи (p x p), и затем снова разворачиваются в исходную последовательность.
Обычно берут pixel-level сетку неглубокой и неширокой (2-4 слоя) со скрытой размерностью 16, поэтому гонять ее даже на высокоразмерных изображениях недорого.
🧪 Эксперименты
Обучают как class-condition, так и text-2-image модель. Чтобы улучшить метрики и сходимость используют REPA с признаками DINOv2.
Модель выбивает неплохие FID-ы, опережая все прошлые подходы на пиксельной диффузии, но недотягивая несколько до SOTA FID-арасов.
В ablation показывают, что просто учить DiT на патчах плохо, аттеншен без сжатия токенов ООМается, пиксельная модуляция помогает.
Уменьшение патчей не сильно улучшает качество, особенно для больших моделей, при этом кратно делая процедуру дороже, поэтому патчи 16x16 выбирают как более-менее оптимальные.
Затем обучают T2I MMDiT-модель с Gemma-2 энкодером размером 1.3B параметров и она выдает довольно неплохие метрики. Обучают на 26М пар, не очень долго, поэтому ожидать SOTA не приходится, но для таких ресурсов вполне достойное качество.
💡 Выводы
В целом выглядит неплохо, но кажется, что хорошие VAE - FLUX, Wan, Qwen-Image обладают очень хорошим качеством реконструкции и так. Возможно, разница будет бросаться только на крошечных деталях или на мелком шрифте.
👍4
WUSH: Near-Optimal Adaptive Transforms for LLM Quantization
[Статья] [Кода нет]
Вращения, в частности, пресловутые Адамаровы, активно используются для “размазывания” распределений и упрощения задачи квантизации. Адамаровы и прочие фиксированные вращения (дискретное синусное/косинусное преобразования) неплохи, но можно ли найти на основе данных более оптимальное преобразование?
И авторы рассматриваемой статьи нашли некую форму, которая оказывается стабильно лучше Адамаровых матриц, в особенности, для miscroscaling форматов.
[Статья] [Кода нет]
Вращения, в частности, пресловутые Адамаровы, активно используются для “размазывания” распределений и упрощения задачи квантизации. Адамаровы и прочие фиксированные вращения (дискретное синусное/косинусное преобразования) неплохи, но можно ли найти на основе данных более оптимальное преобразование?
И авторы рассматриваемой статьи нашли некую форму, которая оказывается стабильно лучше Адамаровых матриц, в особенности, для miscroscaling форматов.
🔬 Метод
Предложенное преобразование строится следующим образом:
📌 Первой идет Адамарова матрица
📌 Затем диагональная S^{-½} и ортогональная U матрицы из SVD разложения
📌 И затем сам Холески фактор W’^T.
Полученная конструкция выглядит следующим образом:
Или WUSH, если прочитать наоборот.
Здесь важно заметить, что преобразование на самом деле имеет блочно-диагональную форму, т.е на выходе имеем d_in / g матриц размера gxg (g - размер группы квантизации).
Далее в статье приводятся теоретические аргументы в пользу оптимальности такого вращения для INT и FP форматов в предположении об использовании round-to-nearest квантизации.
🧪 Эксперименты
Метод валидируют на квантизации Llama-3 и Qwen-3 семейств моделей. Рассматриваются на бенчи из OpenLLM Leaderboard v1, так и Platinum Bench из почищенных задач из разных бенчмарков.
WUSH накидывает 1-3% в сравнении с identity и Адамаровыми вращениями. Разница для MXFP чуть больше.
💡 Выводы
Выглядит как интересная альтернатива приевшимся Адамаровым матрицам. Важный нюанс, правда, в том, что оверхед от таких преобразований неизбежно больше, чем у фиксированных вращений, ибо блочно-диагональная матрица целиком не влезет в кэши и иную эффективную память у GPU.
Предложенное преобразование строится следующим образом:
📌 Первой идет Адамарова матрица
📌 Затем диагональная S^{-½} и ортогональная U матрицы из SVD разложения
W’ X = U S V^T (W’ - из разложения Холески W’ W’^T = W W^T).📌 И затем сам Холески фактор W’^T.
Полученная конструкция выглядит следующим образом:
T = H S^{-½} U^T W’^T Или WUSH, если прочитать наоборот.
Здесь важно заметить, что преобразование на самом деле имеет блочно-диагональную форму, т.е на выходе имеем d_in / g матриц размера gxg (g - размер группы квантизации).
Далее в статье приводятся теоретические аргументы в пользу оптимальности такого вращения для INT и FP форматов в предположении об использовании round-to-nearest квантизации.
🧪 Эксперименты
Метод валидируют на квантизации Llama-3 и Qwen-3 семейств моделей. Рассматриваются на бенчи из OpenLLM Leaderboard v1, так и Platinum Bench из почищенных задач из разных бенчмарков.
WUSH накидывает 1-3% в сравнении с identity и Адамаровыми вращениями. Разница для MXFP чуть больше.
💡 Выводы
Выглядит как интересная альтернатива приевшимся Адамаровым матрицам. Важный нюанс, правда, в том, что оверхед от таких преобразований неизбежно больше, чем у фиксированных вращений, ибо блочно-диагональная матрица целиком не влезет в кэши и иную эффективную память у GPU.
❤3✍2👏2
