Есть ли способ в телеграме выбрать себе вид наказания ботами или обменяться с кем-то?
Если уж выбирать зло, я бы предпочел шлюхоботов вместо дурацких NFT-ботов.
Зло есть Зло. Большее. Меньшее. Среднее... Какая разница? Зло трудно измерить, его границы размыты. И если мне придётся выбирать между одним Злом и другим, я не стану выбирать вовсе.
(с) Геральт из Ривии
Если уж выбирать зло, я бы предпочел шлюхоботов вместо дурацких NFT-ботов.
(с) Геральт из Ривии
😁21
Наткнулся на проект "Математические Этюды" где в формате красочных постов с визуализациями рассказывают про интересные факты и концепции из математики. С красивыми иллюстрациями, видосиками, ползунками.
В частности, внимания заслуживают:
📐 Пост про модель Пуанкаре Геометрии Лобачевского
🤔 Исчезающая клетка и числа Фибонначи
🌌 Три геометрии: сходства и различия
Жаль, что в те времена, когда я учился, такой красоты еще не было...
В частности, внимания заслуживают:
📐 Пост про модель Пуанкаре Геометрии Лобачевского
🤔 Исчезающая клетка и числа Фибонначи
🌌 Три геометрии: сходства и различия
Жаль, что в те времена, когда я учился, такой красоты еще не было...
👍12🔥8
KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization
[Статья][Код на месте]
И снова про квантизацию KV-кэшей.
Про это тему можно говорить бесконечно, но не буду утруждать себя, иначе вы потонете в потоке этой информации.
Примерно в одно время с KIVI другая команда выпустила статью, которая так же целится в сохранение приемлемого качества при квантизации ниже 4-бит.
[Статья][Код на месте]
И снова про квантизацию KV-кэшей.
Про это тему можно говорить бесконечно, но не буду утруждать себя, иначе вы потонете в потоке этой информации.
Примерно в одно время с KIVI другая команда выпустила статью, которая так же целится в сохранение приемлемого качества при квантизации ниже 4-бит.
🔥1
Метод
1️⃣ Первое наблюдение полностью идентично KIVI - ключи обладают ярко выраженными выбросами, а значения - нет. Потому ключи квантизуются поканально, значения - потокенно.
2️⃣ Далее замечают, что RoPE перемешивает соседние каналы и делает выбросы и channel-specific поведение не столько ярко выраженным, потому предлагают квантизовать ключи до применения RoPE и каждый раз применять его уже к квантизованным кэшам.
3️⃣ Однородная квантизация приятна и удобна в использовании, но обычно далека от оптимальной в плане ошибки. И не мудрствуя лукаво предлагают использовать 1-мерный k-means, но используя в качестве метрики не стандарную Евклидову, а диагональ матрицы Фишера, которую оценивают по маленькой выборке.
4️⃣ Некоторые значения сильно выбиваются среди остальных, потому их предлагается не квантизовать, а держать в виде разреженной матрицы (CSR, CSC). На практике берут 1% самых больших по модулю значений.
5️⃣ Модели чувствительны к изменениям attention sinks, отличающихся большими нормами активаций, потому предлагается их не квантизовать - все равно их мало, и на общей битности не скажется. Не квантизуют только первый токен.
6️⃣ Динамическое определение диапазона значений на лету дорого, и для поканального квантования требует пересчета значений всех токенов. По этой причине предлагают калибровку констант квантизации для ключей проводить offline, на небольшой выборке, а потокенную квантизацию кэшей на лету.
И для всей этой навороченной красоты пишут специальный кернел, что работало все с адекватной скоростью.
Эксперименты
Метод валидируют на перплексии на стандартной длине контекста на 🦙-1.
- В 4 бита просадка порядка 0.01 ppl
- В 3 бита просадка порядка 0.1 ppl
- В 2 бита - десятые
Затем метод проверяют на версиях Llama-2, адаптированных под длинный контекст, где KVQuant почти не просаживает метрики в 4 битах, и умеренно в 3 бита. На Passkey 🗝 retrieval метод не просаживается по качеству, в отличие от KIVI.
Далее KVQuant прогоняют на LongBench/RULER (где одна из задач - “иголка в сене”, вытащить нужный факт из далекого прошлого) - популярных бенчах на длинный контекст.
KVQuant снова лучше KIVI, на RULER KIVI (эффективно 3-битный) заметно страдает (56%->40%), но KVQuant теряет 3% качества (56->53%).
Метод совместим с квантизацией весов. Так как авторы KVQuant - авторы еще и SqueezeLLM, то совмещают именно с этим подходом. Квантизация кэшей почти не меняет метрики квантизованной модели.
В ablation показывают, что все компоненты важны для успеха:
1️⃣ Выбор размерностей для квантизации
2️⃣ Pre-RoPE квантизация
3️⃣ Неоднородная квантизация
4️⃣ Учет выбросов
Итоговое ускорение операций умножения в KV - 1.2x-1.7x (не end-to-end latency). При 2-битной квантизации удается впихнуть на одну A100 1M токенов для Llama-2-7b, и на 8 - 10M токенов.
Вывод
Метод композитный, солидный, заточенный под выбивание хорошего качества. Однако сложность имеет свою цену - и в данном случае это достаточно дорогая деквантизация, из-за которой ускорение инференса меньше, чем у конкуретных подходов (того же KIVI).
1️⃣ Первое наблюдение полностью идентично KIVI - ключи обладают ярко выраженными выбросами, а значения - нет. Потому ключи квантизуются поканально, значения - потокенно.
2️⃣ Далее замечают, что RoPE перемешивает соседние каналы и делает выбросы и channel-specific поведение не столько ярко выраженным, потому предлагают квантизовать ключи до применения RoPE и каждый раз применять его уже к квантизованным кэшам.
3️⃣ Однородная квантизация приятна и удобна в использовании, но обычно далека от оптимальной в плане ошибки. И не мудрствуя лукаво предлагают использовать 1-мерный k-means, но используя в качестве метрики не стандарную Евклидову, а диагональ матрицы Фишера, которую оценивают по маленькой выборке.
4️⃣ Некоторые значения сильно выбиваются среди остальных, потому их предлагается не квантизовать, а держать в виде разреженной матрицы (CSR, CSC). На практике берут 1% самых больших по модулю значений.
5️⃣ Модели чувствительны к изменениям attention sinks, отличающихся большими нормами активаций, потому предлагается их не квантизовать - все равно их мало, и на общей битности не скажется. Не квантизуют только первый токен.
6️⃣ Динамическое определение диапазона значений на лету дорого, и для поканального квантования требует пересчета значений всех токенов. По этой причине предлагают калибровку констант квантизации для ключей проводить offline, на небольшой выборке, а потокенную квантизацию кэшей на лету.
И для всей этой навороченной красоты пишут специальный кернел, что работало все с адекватной скоростью.
Эксперименты
Метод валидируют на перплексии на стандартной длине контекста на 🦙-1.
- В 4 бита просадка порядка 0.01 ppl
- В 3 бита просадка порядка 0.1 ppl
- В 2 бита - десятые
Затем метод проверяют на версиях Llama-2, адаптированных под длинный контекст, где KVQuant почти не просаживает метрики в 4 битах, и умеренно в 3 бита. На Passkey 🗝 retrieval метод не просаживается по качеству, в отличие от KIVI.
Далее KVQuant прогоняют на LongBench/RULER (где одна из задач - “иголка в сене”, вытащить нужный факт из далекого прошлого) - популярных бенчах на длинный контекст.
KVQuant снова лучше KIVI, на RULER KIVI (эффективно 3-битный) заметно страдает (56%->40%), но KVQuant теряет 3% качества (56->53%).
Метод совместим с квантизацией весов. Так как авторы KVQuant - авторы еще и SqueezeLLM, то совмещают именно с этим подходом. Квантизация кэшей почти не меняет метрики квантизованной модели.
В ablation показывают, что все компоненты важны для успеха:
1️⃣ Выбор размерностей для квантизации
2️⃣ Pre-RoPE квантизация
3️⃣ Неоднородная квантизация
4️⃣ Учет выбросов
Итоговое ускорение операций умножения в KV - 1.2x-1.7x (не end-to-end latency). При 2-битной квантизации удается впихнуть на одну A100 1M токенов для Llama-2-7b, и на 8 - 10M токенов.
Вывод
Метод композитный, солидный, заточенный под выбивание хорошего качества. Однако сложность имеет свою цену - и в данном случае это достаточно дорогая деквантизация, из-за которой ускорение инференса меньше, чем у конкуретных подходов (того же KIVI).
👍6🔥4
[Model page]
DeepSeek 🐳 выкатили пару часов назад на лицехватах 🤗 веса DeepSeek-R1 в публичный доступ!
Напомню, что это Reasoning модель, под цепоцки рассуждений а-ля o1, o1-mini, o3.
В модели 685B параметров и веса выложены в fp8-E4M3.
Архитектура почти идентична DeepSeek-V3.
Так что, счастливые обладатели 8+1 H100, развлекайтесь на здоровье)
DeepSeek 🐳 выкатили пару часов назад на лицехватах 🤗 веса DeepSeek-R1 в публичный доступ!
Напомню, что это Reasoning модель, под цепоцки рассуждений а-ля o1, o1-mini, o3.
В модели 685B параметров и веса выложены в fp8-E4M3.
Архитектура почти идентична DeepSeek-V3.
Так что, счастливые обладатели 8+1 H100, развлекайтесь на здоровье)
👍14😁6❤1
Inference-Time Scaling for Diffusion Models beyond Scaling Denoising Steps
[Статья][DeepMind не часто публикует код]
Введение
Данная статья уже появлялась на Love. Death. Transformers и была разобрана у Сиолошной . Тем не менее, выскажу свое скромное мнение 😉.
Inference-time scaling уже продемонстрировал впечатляющие результаты в контексте языковых моделей, где длинные цепочки рассуждений позволяют значительно улучшать качество на сложных задачах.
У диффузионных моделей механизм улучшения качества генераций за счет большего объема вычислений есть “из 📦” - выбор количества шагов сэмплирования. С ростом количества шагов расшумления качество полученных генераций и их соответствие запросу 🔼, но начиная с какого-то момента происходит насыщение, и дальнейшее повышение не приводит к значимым улучшениям, а иногда даже наоборот.
Поэтому в данной статье предлагают улучшать генерации за счет сэмплирования разных случайных шумов, начальных точек в процессе генерации, и выборе лучшего случайного зерна 🌱.
[Статья][DeepMind не часто публикует код]
Введение
Данная статья уже появлялась на Love. Death. Transformers и была разобрана у Сиолошной . Тем не менее, выскажу свое скромное мнение 😉.
Inference-time scaling уже продемонстрировал впечатляющие результаты в контексте языковых моделей, где длинные цепочки рассуждений позволяют значительно улучшать качество на сложных задачах.
У диффузионных моделей механизм улучшения качества генераций за счет большего объема вычислений есть “из 📦” - выбор количества шагов сэмплирования. С ростом количества шагов расшумления качество полученных генераций и их соответствие запросу 🔼, но начиная с какого-то момента происходит насыщение, и дальнейшее повышение не приводит к значимым улучшениям, а иногда даже наоборот.
Поэтому в данной статье предлагают улучшать генерации за счет сэмплирования разных случайных шумов, начальных точек в процессе генерации, и выборе лучшего случайного зерна 🌱.
👍7
Метод
В статье рассматривают две постановки:
1️⃣ Class-conditional генерация SiT-B/L/XL (какой-то трансформер с приблудами)
2️⃣ 📝-2-🖥 генерация c FLUX
В данной статье исследуют разные стратегии отбора лучших сэмплов и модели для оценки качества.
Стратегии отбора
1️⃣ Random Search. Просто сэмплируем независимо N кандидатов и берем лучшего (с точки зрения модели-оценщика).
2️⃣ Zero-Order Search. Стартуя со случайного шума, сэмплируем несколько шумов в его окрестности. Оцениваем их, находим лучший, и используем в качестве начальной точки на новой итерации. (Градиентная оптимизация требует проброса градиентов через всю цепочку сэмплирования, потому очень дорогая, и не очень хорошо работает, как показано в приложении)
3️⃣ Search over Paths. Сэмплируем несколько начальных шумов (траекторий), и с некоторого уровня шума генерируем несколько конечных сэмплов. Отбираем лучшие для каждой траектории, зашумляем до меньшего уровня шума и запускаем генерацию уже оттуда.
В качестве верификаторов для оценки качества class-conditional генерации используют:
1️⃣ Inception Score напрямую
2️⃣ CLIP (где эмбеддят класс в промпт вида “a photo of <class>” )
3️⃣ Линейный классификатор поверх DINOv2
При фиксированном (достаточно большом числе шагов) увеличивают количество случайных шумов. Метрика Inception Score (оценивающая точность распознавания сгенерированного изображения Inception-V3) монотонно растет с увеличением количества сэмплов (для supervised классификаторов ожидаемо сильнее). Однако, FID (тоже хреновая метрика, к слову), начиная с какого-то момента начинает расти (т.е ухудшаться). По всей видимости, это связано с тем, что строгий отбор снижает разнообразие генераций и имеет место переобучение под верификаторы.
В качестве альтернативы авторы предлагают self-supervised верификаторы - косинусную близость между логитами классификаторов x0-предсказания на малом уровне шума, и конечного сэмпла. И показывают, что она неплохо коррелирует с исходными классификаторами. Метрика не самая интуитивная. Предположительно, идея в том, что если сэмпл хороший получается, то на последнем участке генерации x0-предсказание слабо меняется.
Далее пробуют разные стратегии отбора, увеличивая число кандидатов. Метрики монотонно растут, но будто бы результаты мало зависят от гиперпараметров каждого из вариантов - размера окрестности в случае Zero-Order Search и числа траекторий для Search over Paths.
В статье рассматривают две постановки:
1️⃣ Class-conditional генерация SiT-B/L/XL (какой-то трансформер с приблудами)
2️⃣ 📝-2-🖥 генерация c FLUX
В данной статье исследуют разные стратегии отбора лучших сэмплов и модели для оценки качества.
Стратегии отбора
1️⃣ Random Search. Просто сэмплируем независимо N кандидатов и берем лучшего (с точки зрения модели-оценщика).
2️⃣ Zero-Order Search. Стартуя со случайного шума, сэмплируем несколько шумов в его окрестности. Оцениваем их, находим лучший, и используем в качестве начальной точки на новой итерации. (Градиентная оптимизация требует проброса градиентов через всю цепочку сэмплирования, потому очень дорогая, и не очень хорошо работает, как показано в приложении)
3️⃣ Search over Paths. Сэмплируем несколько начальных шумов (траекторий), и с некоторого уровня шума генерируем несколько конечных сэмплов. Отбираем лучшие для каждой траектории, зашумляем до меньшего уровня шума и запускаем генерацию уже оттуда.
В качестве верификаторов для оценки качества class-conditional генерации используют:
1️⃣ Inception Score напрямую
2️⃣ CLIP (где эмбеддят класс в промпт вида “a photo of <class>” )
3️⃣ Линейный классификатор поверх DINOv2
При фиксированном (достаточно большом числе шагов) увеличивают количество случайных шумов. Метрика Inception Score (оценивающая точность распознавания сгенерированного изображения Inception-V3) монотонно растет с увеличением количества сэмплов (для supervised классификаторов ожидаемо сильнее). Однако, FID (тоже хреновая метрика, к слову), начиная с какого-то момента начинает расти (т.е ухудшаться). По всей видимости, это связано с тем, что строгий отбор снижает разнообразие генераций и имеет место переобучение под верификаторы.
В качестве альтернативы авторы предлагают self-supervised верификаторы - косинусную близость между логитами классификаторов x0-предсказания на малом уровне шума, и конечного сэмпла. И показывают, что она неплохо коррелирует с исходными классификаторами. Метрика не самая интуитивная. Предположительно, идея в том, что если сэмпл хороший получается, то на последнем участке генерации x0-предсказание слабо меняется.
Далее пробуют разные стратегии отбора, увеличивая число кандидатов. Метрики монотонно растут, но будто бы результаты мало зависят от гиперпараметров каждого из вариантов - размера окрестности в случае Zero-Order Search и числа траекторий для Search over Paths.
Эксперименты
Для Text-2-Image генерации с FLUX в качестве верификаторов используют:
1️⃣ Классификатор эстетичности 💃 поверх OpenCLIP
2️⃣ CLIP Score
3️⃣ ImageReward
4️⃣ Ансамбль всех трех (с одинаковыми весами)
FLUXом гененируют по умолчанию в 30 шагов сэмплирования, SiT в 250.
Для оценки качества (не доверяя субъективного мнению кожаных мешков) используют Gemini-1.5-Flash, которая оценивает качество по 5 аспектам:
⚡️Accuracy to Prompt (соответствие запросу)
⚡️Originality (оригинальность)
⚡️Visual Quality (визуальное качество)
⚡️Internal Consistency (внутренняя консистентность)
⚡️Emotional Resonance (в душе не ебу, что это, возможно, степень шатания смотрящего от эмоций при взгляде на картинку )
Для валидации используют DrawBench и T2I-CompBench.
Сначала исследуют взаимные корреляции между разными верификаторами на DrawBench.
Эстетичность коррелирует с ImageReward, но слегка понижает CLIP Score. Общее качество (по мнению Gemini) немного растет.
CLIP Score повышает ImageReward, но слегка понижает эстетичность. Общее качество слегка улучшается.
ImageReward повышает CLIP Score и оценку Gemini более существенно, эстетичность почти не меняется.
Ансамбль всех трех метрик улучшает все три метрики.
При увеличении количества сэмплов в ансамбле все метрики растут, но ImageReward значительнее всего (вероятно, из-за шкалы).
На максимуме ставят суммарное число прогонов через модель (2880 = 96 сэмплов х 30 шагов). Весьма забавно, что лучше всего себя показывает наивная стратегия независимой генерации случайных шумов, а остальные две, более заумные стратегии, не приносят пользы.
На T2I-CompBench, где оценивается соответствие промпту - взаимоотношения между объектами, формы, их положение, а не эстетичность, классификатор эстетичности слегка просаживает метрики, а CLIP Score и ImageReward улучшает. Причем ImageReward лучше ансамбля, по всей видимости, из-за наличия Aesthetic Score.
Предложенный метод работает и поверх DPO дообученной SDXL.
При фиксированном бюджете (если он мал) для SiT-XL выгоднее нагенерить несколько траекторий с меньшим количеством шагов, чем одну “дорогую”. Но с ростом доступного бюджета становится полезным повышать число шагов сэмплера.
Кроме того, на малых бюджетах меньшие версии SiT-B/L, генерирующее нескольких кандидатов, лучше чем один прогон через большую SiT-XL.
Выводы
С идейной точки зрения - направление исследований довольно интересное, однако польза пока еще не столь очевидна, как для LLM, где сложный reasoning процесс позволяет решать сложные задачи (недоступные без него), а здесь же приводит к некоторому улучшению метрик. На текущий момент процесс слишком дорогой для большинства практических приложений (ибо ждать несколько минут вместо нескольких секунд для создания немного более хорошей картинки не каждый готов, да и стоить сие будет у провайдеров недешево). Тем не менее, подход может быть использован для генерации высококачественной синтетики.
Для Text-2-Image генерации с FLUX в качестве верификаторов используют:
1️⃣ Классификатор эстетичности 💃 поверх OpenCLIP
2️⃣ CLIP Score
3️⃣ ImageReward
4️⃣ Ансамбль всех трех (с одинаковыми весами)
FLUXом гененируют по умолчанию в 30 шагов сэмплирования, SiT в 250.
Для оценки качества (не доверяя субъективного мнению кожаных мешков) используют Gemini-1.5-Flash, которая оценивает качество по 5 аспектам:
⚡️Accuracy to Prompt (соответствие запросу)
⚡️Originality (оригинальность)
⚡️Visual Quality (визуальное качество)
⚡️Internal Consistency (внутренняя консистентность)
⚡️Emotional Resonance (
Для валидации используют DrawBench и T2I-CompBench.
Сначала исследуют взаимные корреляции между разными верификаторами на DrawBench.
Эстетичность коррелирует с ImageReward, но слегка понижает CLIP Score. Общее качество (по мнению Gemini) немного растет.
CLIP Score повышает ImageReward, но слегка понижает эстетичность. Общее качество слегка улучшается.
ImageReward повышает CLIP Score и оценку Gemini более существенно, эстетичность почти не меняется.
Ансамбль всех трех метрик улучшает все три метрики.
При увеличении количества сэмплов в ансамбле все метрики растут, но ImageReward значительнее всего (вероятно, из-за шкалы).
На максимуме ставят суммарное число прогонов через модель (2880 = 96 сэмплов х 30 шагов). Весьма забавно, что лучше всего себя показывает наивная стратегия независимой генерации случайных шумов, а остальные две, более заумные стратегии, не приносят пользы.
На T2I-CompBench, где оценивается соответствие промпту - взаимоотношения между объектами, формы, их положение, а не эстетичность, классификатор эстетичности слегка просаживает метрики, а CLIP Score и ImageReward улучшает. Причем ImageReward лучше ансамбля, по всей видимости, из-за наличия Aesthetic Score.
Предложенный метод работает и поверх DPO дообученной SDXL.
При фиксированном бюджете (если он мал) для SiT-XL выгоднее нагенерить несколько траекторий с меньшим количеством шагов, чем одну “дорогую”. Но с ростом доступного бюджета становится полезным повышать число шагов сэмплера.
Кроме того, на малых бюджетах меньшие версии SiT-B/L, генерирующее нескольких кандидатов, лучше чем один прогон через большую SiT-XL.
Выводы
С идейной точки зрения - направление исследований довольно интересное, однако польза пока еще не столь очевидна, как для LLM, где сложный reasoning процесс позволяет решать сложные задачи (недоступные без него), а здесь же приводит к некоторому улучшению метрик. На текущий момент процесс слишком дорогой для большинства практических приложений (ибо ждать несколько минут вместо нескольких секунд для создания немного более хорошей картинки не каждый готов, да и стоить сие будет у провайдеров недешево). Тем не менее, подход может быть использован для генерации высококачественной синтетики.
arXiv.org
ImageReward: Learning and Evaluating Human Preferences for...
We present a comprehensive solution to learn and improve text-to-image models from human preference feedback. To begin with, we build ImageReward -- the first general-purpose text-to-image human...
❤9👍1
Visual Autoregressive Modeling for Image Super-Resolution
[Статья][Рыдми]
Введение
VAR и его производные в прошлом году произвели некоторый ажиотаж, показав вполне достойные результаты в задачах class-conditional и text-to-image генерации.
Ранее было показано, что дообучение text-2-image диффузионных моделей (так называемый SR c generative prior) на задачу Blind Super Resolution (с произвольными деградациями входных изображений) неплохо себя показывает в случае сильно шакальных картинок.
В этой же статье предложили по существу перенести данную идею на VARы - а именно, дообучить class-conditional VAR на задачу Super Resolution. И не особо заморачиваясь с оригинальностью и звучностью назвали свое детище VARSR 🥱.
[Статья][Рыдми]
Введение
VAR и его производные в прошлом году произвели некоторый ажиотаж, показав вполне достойные результаты в задачах class-conditional и text-to-image генерации.
Ранее было показано, что дообучение text-2-image диффузионных моделей (так называемый SR c generative prior) на задачу Blind Super Resolution (с произвольными деградациями входных изображений) неплохо себя показывает в случае сильно шакальных картинок.
В этой же статье предложили по существу перенести данную идею на VARы - а именно, дообучить class-conditional VAR на задачу Super Resolution. И не особо заморачиваясь с оригинальностью и звучностью назвали свое детище VARSR 🥱.
❤4🔥2
Метод
Напомню, что в задаче Blind Super Resolution мы хотим, с одной стороны, повысить разрешение, а с другой убрать шумы/размытости и иные возможные дефекты. Потому по самой постановке задачи, надо каким-то образом сохранить семантику входного изображения и при этом получить качественную картинку, с резкими деталями, сочными цветами и без дефектов.
И дабы достичь поставленной цели авторы предлагают следующее:
1️⃣ Обусловливание на изображение низкого разрешения путем добавления ее эмбеддингов (для чего обучают небольший энкодер) в префикс последовательности.
2️⃣ Чтобы лучше учитывать пространственные зависимости предлагают Scale-align
rotary positional encoding (SA-RoPE), адаптивный под каждый масштаб.
3️⃣ Квантованные VAE заметно уступают в качестве реконструкций непрерывным аналогам. Следуя MAR https://arxiv.org/abs/2406.11838, обучают небольшую модель (Diffusion Refiner) из 6-ти трансформерных блоков, обусловленную на дискретные токены, для получения конечного изображения.
4️⃣ Дабы улучшить качество генераций применяют classifier-free guidance c негативными примерами. Для этого отбирают из публичных датасетов сэмплы с низкими оценками и на каждом шаге прогоняют с исходным условием, “плохим условием” и считают взвешенную сумму, как в стандартном CFG. Причем CFG повышают постепенно с увеличением разрешения (в диффузионных моделях его можно отключить в конце без ущерба для качества).
Имеющиеся в публичном доступе SR-датасеты невелики (1к-10к примеров), потому авторы собирают свой датасет из LAION и прочих источников, выфильтровывают его до 4 миллионов картинок, которые классифицируют по 3к категориям (пояснение будет чуть ниже).
Напомню, что в задаче Blind Super Resolution мы хотим, с одной стороны, повысить разрешение, а с другой убрать шумы/размытости и иные возможные дефекты. Потому по самой постановке задачи, надо каким-то образом сохранить семантику входного изображения и при этом получить качественную картинку, с резкими деталями, сочными цветами и без дефектов.
И дабы достичь поставленной цели авторы предлагают следующее:
1️⃣ Обусловливание на изображение низкого разрешения путем добавления ее эмбеддингов (для чего обучают небольший энкодер) в префикс последовательности.
2️⃣ Чтобы лучше учитывать пространственные зависимости предлагают Scale-align
rotary positional encoding (SA-RoPE), адаптивный под каждый масштаб.
3️⃣ Квантованные VAE заметно уступают в качестве реконструкций непрерывным аналогам. Следуя MAR https://arxiv.org/abs/2406.11838, обучают небольшую модель (Diffusion Refiner) из 6-ти трансформерных блоков, обусловленную на дискретные токены, для получения конечного изображения.
4️⃣ Дабы улучшить качество генераций применяют classifier-free guidance c негативными примерами. Для этого отбирают из публичных датасетов сэмплы с низкими оценками и на каждом шаге прогоняют с исходным условием, “плохим условием” и считают взвешенную сумму, как в стандартном CFG. Причем CFG повышают постепенно с увеличением разрешения (в диффузионных моделях его можно отключить в конце без ущерба для качества).
Имеющиеся в публичном доступе SR-датасеты невелики (1к-10к примеров), потому авторы собирают свой датасет из LAION и прочих источников, выфильтровывают его до 4 миллионов картинок, которые классифицируют по 3к категориям (пояснение будет чуть ниже).
Эксперименты
Процедура обучения выглядит следующим образом:
1️⃣ Сначала дообучают RQ-VAE на собранных данных, чтобы улучшить качество реконструкций. Обучается только квантизатор, все остальное заморожено.
2️⃣ В качестве основы для VARSR берут предобученный на ImageNet class-conditional VAR из оригинальной статьи и дообучают на class-2-image генерацию на 3 классов на своем датасете.
3️⃣ После этого дообучают полученную модель на целевую Image Super Resolution задачу.
4️⃣ При обучении на ISR в качестве лосса используется взвешенная сумма кросс-энтропии по токенам и диффузионного лосса в рефайнере.
Полученную модель сравнивают с GAN-based и диффузионными подходами на стандартных SR-бенчмарках (DIV2K-Val, RealSR, DRealSR). VARSR и диффузия уступает GAN моделям по классическим метрикам - PSNR, SSIM, но лучше по более свежим MANIQA, СLIP-IQA, MUSIQ.
В качественных визуализациях VARSR более-менее реалистично восстанавливает изображения при жестких деградациях, в то время как альтернативные подходы заметно шакалят.
В Ablation Study показывают, что все компоненты важны и накидывают качество:
🌟 Обусловливание на LR изображение через Prefix работает лучше, чем ControlNet.
🌟 SA-RoPE полезен.
🌟 Diffusion Refiner улучшает метрики, хоть и не так сильно.
🌟 Image-Based CFG понижает SSIM, PSNR, но заметно накидывает в современных нейросетевых метриках.
По user-preference study VARSR лучше GANов и диффузий с Image Prior.
Существенным достоинством VAR является скорость работы, за счет того, что выход формируется за один проход через все масштабы, большинство из которых “почти бесплатные”. Стоит, однако, заметить, что шельмы не сравниваются с GANами и адверсариальными дистилляциями (AddSR) диффузионных моделей, которые будут по факту быстрее.
Вывод
Вполне успешная адаптация VAR к задаче Image SR c рядом нетривиальных архитектурных решений. Однако, процедура обучения содержит слишком много компонент и промежуточных этапов. Да и сравнение с дистиллами диффузионок для SR тактично опущено.
Процедура обучения выглядит следующим образом:
1️⃣ Сначала дообучают RQ-VAE на собранных данных, чтобы улучшить качество реконструкций. Обучается только квантизатор, все остальное заморожено.
2️⃣ В качестве основы для VARSR берут предобученный на ImageNet class-conditional VAR из оригинальной статьи и дообучают на class-2-image генерацию на 3 классов на своем датасете.
3️⃣ После этого дообучают полученную модель на целевую Image Super Resolution задачу.
4️⃣ При обучении на ISR в качестве лосса используется взвешенная сумма кросс-энтропии по токенам и диффузионного лосса в рефайнере.
Полученную модель сравнивают с GAN-based и диффузионными подходами на стандартных SR-бенчмарках (DIV2K-Val, RealSR, DRealSR). VARSR и диффузия уступает GAN моделям по классическим метрикам - PSNR, SSIM, но лучше по более свежим MANIQA, СLIP-IQA, MUSIQ.
В качественных визуализациях VARSR более-менее реалистично восстанавливает изображения при жестких деградациях, в то время как альтернативные подходы заметно шакалят.
В Ablation Study показывают, что все компоненты важны и накидывают качество:
🌟 Обусловливание на LR изображение через Prefix работает лучше, чем ControlNet.
🌟 SA-RoPE полезен.
🌟 Diffusion Refiner улучшает метрики, хоть и не так сильно.
🌟 Image-Based CFG понижает SSIM, PSNR, но заметно накидывает в современных нейросетевых метриках.
По user-preference study VARSR лучше GANов и диффузий с Image Prior.
Существенным достоинством VAR является скорость работы, за счет того, что выход формируется за один проход через все масштабы, большинство из которых “почти бесплатные”. Стоит, однако, заметить, что шельмы не сравниваются с GANами и адверсариальными дистилляциями (AddSR) диффузионных моделей, которые будут по факту быстрее.
Вывод
Вполне успешная адаптация VAR к задаче Image SR c рядом нетривиальных архитектурных решений. Однако, процедура обучения содержит слишком много компонент и промежуточных этапов. Да и сравнение с дистиллами диффузионок для SR тактично опущено.
👍1
Гугол выпустил занятную книженцию 📕 про обучение, профилирование и хорошие практики обучения больших языковых моделей на TPU.
В частности, рассматриваются следующие вопросы:
🌟 Основы анализа вычислений и оценки сложности
🌟 Архитектура и особенности TPU
🌟 Реализация параллельного обучения
🌟 Обучение на TPU с JAX
Если вы любитель JAX и TPU, вперед и с песней 🎼!
UPD чуть раньше появилось еще у epsilon correct
В частности, рассматриваются следующие вопросы:
🌟 Основы анализа вычислений и оценки сложности
🌟 Архитектура и особенности TPU
🌟 Реализация параллельного обучения
🌟 Обучение на TPU с JAX
Если вы любитель JAX и TPU, вперед и с песней 🎼!
UPD чуть раньше появилось еще у epsilon correct
🔥11👍1
Подборка материалов про DeepSeek 🐳
Сие творение китайских 🇨🇳 Ку Ли Биных вызвало бурный ажиотаж, подняло высокое цунами 🌊 хайпа, не на шутку встревожило Саму, и про него не высказался только ленивый.
Но я ленивый, и все уже до меня все сказали, потому предлагаю ниже подборку материалов из англо- и русско- язычных источников
Статьи
📑 Техрепорт про DeepSeek V3
📑 Техрепорт про DeepSeek R1
Блогпосты
📝 The Illustrated DeepSeek-R1 от Jay Allamar, автора легендарного блогпоста The Illustrated Transformer
📝 Блогпост от Phil Schmid про DeepSeek-R1 своими руками
📝 Open-R1 - попытка воспроизвести результаты Deep Seek сообществом лицехватов. Так уже и первый апдейт подьехал.
📝 Отличный разбор от Антона Раззжигаева, автора канала @abstractDL
📝 Комментарии про DeepSeek на gonzo-обзоры ML статей
📝 Подробный технический разбор DeepSeek V3 на gonzo-обзоры ML статей
📝 Хитрый ход от DeepSeek
Код
💻 Репозиторий DeepSeek V3
💻 Репозиторий DeepSeek R1
💻 Репозиторий проекта Open-R1
Не преминули упомянуть DeepSeek и у Лекса в недавнем подкасте.
Сие творение китайских 🇨🇳 Ку Ли Биных вызвало бурный ажиотаж, подняло высокое цунами 🌊 хайпа, не на шутку встревожило Саму, и про него не высказался только ленивый.
Но я ленивый, и все уже до меня все сказали, потому предлагаю ниже подборку материалов из англо- и русско- язычных источников
Статьи
📑 Техрепорт про DeepSeek V3
📑 Техрепорт про DeepSeek R1
Блогпосты
📝 The Illustrated DeepSeek-R1 от Jay Allamar, автора легендарного блогпоста The Illustrated Transformer
📝 Блогпост от Phil Schmid про DeepSeek-R1 своими руками
📝 Open-R1 - попытка воспроизвести результаты Deep Seek сообществом лицехватов. Так уже и первый апдейт подьехал.
📝 Отличный разбор от Антона Раззжигаева, автора канала @abstractDL
📝 Комментарии про DeepSeek на gonzo-обзоры ML статей
📝 Подробный технический разбор DeepSeek V3 на gonzo-обзоры ML статей
📝 Хитрый ход от DeepSeek
Код
💻 Репозиторий DeepSeek V3
💻 Репозиторий DeepSeek R1
💻 Репозиторий проекта Open-R1
Не преминули упомянуть DeepSeek и у Лекса в недавнем подкасте.
👍15🔥4
ParetoQ: Scaling Laws in Extremely Low-bit LLM Quantization
[Папира] [No Code No Party]
Введение
Вопрос о том, какая битность весов при QAT (Quantization Aware Training), дает наилучшее качество, представляет несомненный интерес как с академической, так и практической точки зрения, и ранее был рассмотрен, в частности, в работе Scaling Laws for Precision, где утверждалось, что оптимальная битность в районе 6-7 бит на параметр.
Однако, подобные выводы сильно чувствительны к качеству процедуры QAT.
Успех серии работ по BitNet намекает, что вряд ли все так плохо в низкой битности.
И в данной работе большой коллектив авторов из Меты предлагает пару модификаций улучшения процедуры QAT.
[Папира] [No Code No Party]
Введение
Вопрос о том, какая битность весов при QAT (Quantization Aware Training), дает наилучшее качество, представляет несомненный интерес как с академической, так и практической точки зрения, и ранее был рассмотрен, в частности, в работе Scaling Laws for Precision, где утверждалось, что оптимальная битность в районе 6-7 бит на параметр.
Однако, подобные выводы сильно чувствительны к качеству процедуры QAT.
Успех серии работ по BitNet намекает, что вряд ли все так плохо в низкой битности.
И в данной работе большой коллектив авторов из Меты предлагает пару модификаций улучшения процедуры QAT.
👍6
Метод
Рассматривают обучение 1-, 1.58-, 2-, 3-, 4- битных моделей MobileLLM.
По существу в работе 2️⃣ основные идеи.
⭐️ Можно какую-то часть времени обучать модель в исходной точности, а затем врубить QAT. Оптимальнее всего оказывается 90% учить во float16, а последние 10%. Т.е большую часть обучения динамика совпадает с floating-point моделью, а оставшихся 10% хватает для восстановления качества после сжатия.
⭐️ Под каждую битность подбирают оптимальную сетку. При бинаризации весов оптимально (да больше ничего и не сделаешь) брать знак от весов, при 1.58 и 2-х битах брать определенную в данной работе Stretched Elastic Quant сетку (небольшую модификацию LSQ), и LSQ при 3-х и 4-х битах.
Причем важно скейлы квантизации держать как обучаемые параметры. min-max масштабирование работает совсем плохо на низких битностях, обрезка (непонятно каким образом) лучше, но все же заметно хуже learnable scales.
Для обучения всего хозяйства используют STE без каких-то наворотов.
Кроме того, еще пробуют QAT на MobileLLM не с нуля, а с готовых чекпоинтов, и это оказывается ожидаемо лучше.
Относительная норма разницы весов претерпевает скачок при переходе от ¾ битной квантизации к более низким битностям. Из этого авторы делают вывод, что при менее агрессивной квантизации модель при QAT пытается компенсировать ошибку квантизации, а при экстремально низких битностях ищет новую, более удачную конфигурацию весов.
Эксперименты
Сначала подход проверяют на семействе моделей MobileLLM (от 125M до 1.5B). Битности 1.58 и 2 оказываются Парето-оптимальными. Качество оценивают как средне по нескольким бенчам из lm-eval-harness.
Затем ParetoQ проверяют на Llama-3-8B, где предложенный подход заметно опережает LLM-QAT, EfficientQAT, и PTQ подходы (даже с AQLM и QuIP сравниваются). Учат модель на 30B токенах, что не так уж мало, но и не так уж много. C PV-Tuning и QTIP тактично не сравниваются, хитрецы. При всей дороговизне PV, он задействует все же меньше токенов).
На тернарной квантизации авторы показывают превосходство над прошлыми QAT подходами - Spectra, BitNet - при фиксированном бюджете обучения.
Кроме того, авторы написали CPU kernel, дающий хорошее ускорение при 2-битной квантизации, благодаря чему 2-битные модельки оказываются оптимальными с точки зрения баланса между скоростью инференса и качеством.
Вывод
Подход выглядит разумным и рабочим, без rocket 🚀 science. Для полного счастья не хватает квантизации активаций и замеров на более сложных задачах.
Рассматривают обучение 1-, 1.58-, 2-, 3-, 4- битных моделей MobileLLM.
По существу в работе 2️⃣ основные идеи.
⭐️ Можно какую-то часть времени обучать модель в исходной точности, а затем врубить QAT. Оптимальнее всего оказывается 90% учить во float16, а последние 10%. Т.е большую часть обучения динамика совпадает с floating-point моделью, а оставшихся 10% хватает для восстановления качества после сжатия.
⭐️ Под каждую битность подбирают оптимальную сетку. При бинаризации весов оптимально (да больше ничего и не сделаешь) брать знак от весов, при 1.58 и 2-х битах брать определенную в данной работе Stretched Elastic Quant сетку (небольшую модификацию LSQ), и LSQ при 3-х и 4-х битах.
Причем важно скейлы квантизации держать как обучаемые параметры. min-max масштабирование работает совсем плохо на низких битностях, обрезка (непонятно каким образом) лучше, но все же заметно хуже learnable scales.
Для обучения всего хозяйства используют STE без каких-то наворотов.
Кроме того, еще пробуют QAT на MobileLLM не с нуля, а с готовых чекпоинтов, и это оказывается ожидаемо лучше.
Относительная норма разницы весов претерпевает скачок при переходе от ¾ битной квантизации к более низким битностям. Из этого авторы делают вывод, что при менее агрессивной квантизации модель при QAT пытается компенсировать ошибку квантизации, а при экстремально низких битностях ищет новую, более удачную конфигурацию весов.
Эксперименты
Сначала подход проверяют на семействе моделей MobileLLM (от 125M до 1.5B). Битности 1.58 и 2 оказываются Парето-оптимальными. Качество оценивают как средне по нескольким бенчам из lm-eval-harness.
Затем ParetoQ проверяют на Llama-3-8B, где предложенный подход заметно опережает LLM-QAT, EfficientQAT, и PTQ подходы (даже с AQLM и QuIP сравниваются). Учат модель на 30B токенах, что не так уж мало, но и не так уж много. C PV-Tuning и QTIP тактично не сравниваются, хитрецы. При всей дороговизне PV, он задействует все же меньше токенов).
На тернарной квантизации авторы показывают превосходство над прошлыми QAT подходами - Spectra, BitNet - при фиксированном бюджете обучения.
Кроме того, авторы написали CPU kernel, дающий хорошее ускорение при 2-битной квантизации, благодаря чему 2-битные модельки оказываются оптимальными с точки зрения баланса между скоростью инференса и качеством.
Вывод
Подход выглядит разумным и рабочим, без rocket 🚀 science. Для полного счастья не хватает квантизации активаций и замеров на более сложных задачах.
❤8👍3
Better & Faster Large Language Models via Multi-token Prediction
[Статья] [Кода нет, но есть модели]
Введение
Раз уж пост вышел на Love. Death. Transformers. и братва требует пояснений, разберем.
За последние несколько лет мы наблюдали несколько качественных скачков возможностей LLM. Однако в основе их работы все еще (преимущественно) лежит задача предсказания следующего токена.
Данная незамысловатая задача позволяет решать задачи любой сложности, но существенным недостатком является дороговизна 💵 инференса, когда ради одного несчастного токена приходится загружать всю модель (или часть слоев в случае MoE) в быструю память и сгружать обратно.
Дабы повысить эффективность инференса предлагается незамысловатое решение - предсказывать несколько токенов за раз. На самом деле такое уже было еще в далеком 2020-м году, и в сценарии дообучения однотокенной модели (Medusa). Заслуга авторов из Меты в том, что они исследовали разные варианты предсказания токенов для моделей разного размера.
[Статья] [Кода нет, но есть модели]
Введение
Раз уж пост вышел на Love. Death. Transformers. и братва требует пояснений, разберем.
За последние несколько лет мы наблюдали несколько качественных скачков возможностей LLM. Однако в основе их работы все еще (преимущественно) лежит задача предсказания следующего токена.
Данная незамысловатая задача позволяет решать задачи любой сложности, но существенным недостатком является дороговизна 💵 инференса, когда ради одного несчастного токена приходится загружать всю модель (или часть слоев в случае MoE) в быструю память и сгружать обратно.
Дабы повысить эффективность инференса предлагается незамысловатое решение - предсказывать несколько токенов за раз. На самом деле такое уже было еще в далеком 2020-м году, и в сценарии дообучения однотокенной модели (Medusa). Заслуга авторов из Меты в том, что они исследовали разные варианты предсказания токенов для моделей разного размера.
👍7
Метод
Архитектура следующая - есть трансформерная тушка и несколько голов, каждая из которых предсказывает k-ый следующий токен (для головы с индексом k). Если я правильно понял, эти головы на самом деле преобразуют эмбеддинг перед подачей в unembedding матрицу (из размерности модели в размер словаря), а сама unembedding матрица общая для всех токенов.
Обучают на стандартный кроссэнтропийный лосс.
Дабы расход памяти не взрывался от тяжелых матриц логитов, авторы предлагают делать backward по каждой голове в отдельности (в LigerKernel на этапе обучения логиты считают чанками и делают backprop на них, к слову).
Эксперименты
Обучают семейство моделей размером от 300M to 13B параметров на датасете из ~100B токенов какого-то кода. Валидируют на
На маленьких моделях предсказание нескольких токенов вперед работает плохо, но начиная с какого-то размера (~3B) становится лучше по бенчам.
4 головы отпимальны по качеству для словаря в 32к токенов (8 для байтов).
Далее метод проверяют в сценарии дообучения и сравнивают 3 варианта:
⚡️Дообучение на предсказание 1 токена вперед, для модели обученной предсказывать 1 токен вперед
⚡️Дообучение на предсказание 1 токена вперед, для модели обученной предсказывать 4 токена вперед
⚡️Дообучение на предсказание 4 токена вперед, для модели обученной предсказывать 4 токена вперед
Оказывается, что второй вариант работает лучше всего почему-то.
Multi-token prediction работает не очень на multiple-choice задачах. Вероятно потому, что там требуется выдать всего один или немного токенов.
Потом тестируются на синтетике - Induction Heads, арифметике многочленов и наблюдают некоторый прирост качества, который объясняют тем, что в таких задачах полезно смотреть слегка наперед.
Очевидный практический плюс от многотокенного предсказания - ускорение 🚤 инференса в 3 раза на BPE токенах и около 6 на байтах.
Вывод
Mutli-token prediction выглядит как естественная и рабочая история. Тем более что в нашумевшем DeepSeek-V3 (где использовалась модифицированная версия метода с трансфорнеыми блоками на каждый новый токен) данная стратегия тоже отлично завелась. Вероятно, она будет стандартной в будущих моделях. Ждем 🦙-4, Qwen-3?
Архитектура следующая - есть трансформерная тушка и несколько голов, каждая из которых предсказывает k-ый следующий токен (для головы с индексом k). Если я правильно понял, эти головы на самом деле преобразуют эмбеддинг перед подачей в unembedding матрицу (из размерности модели в размер словаря), а сама unembedding матрица общая для всех токенов.
Обучают на стандартный кроссэнтропийный лосс.
Дабы расход памяти не взрывался от тяжелых матриц логитов, авторы предлагают делать backward по каждой голове в отдельности (в LigerKernel на этапе обучения логиты считают чанками и делают backprop на них, к слову).
Эксперименты
Обучают семейство моделей размером от 300M to 13B параметров на датасете из ~100B токенов какого-то кода. Валидируют на
MBPP, HumanEval, APPS
- сравнительно простых задачах про код. Пробуют обучать на сырых байтах и словаре из 32к токенов.На маленьких моделях предсказание нескольких токенов вперед работает плохо, но начиная с какого-то размера (~3B) становится лучше по бенчам.
4 головы отпимальны по качеству для словаря в 32к токенов (8 для байтов).
Далее метод проверяют в сценарии дообучения и сравнивают 3 варианта:
⚡️Дообучение на предсказание 1 токена вперед, для модели обученной предсказывать 1 токен вперед
⚡️Дообучение на предсказание 1 токена вперед, для модели обученной предсказывать 4 токена вперед
⚡️Дообучение на предсказание 4 токена вперед, для модели обученной предсказывать 4 токена вперед
Оказывается, что второй вариант работает лучше всего почему-то.
Multi-token prediction работает не очень на multiple-choice задачах. Вероятно потому, что там требуется выдать всего один или немного токенов.
Потом тестируются на синтетике - Induction Heads, арифметике многочленов и наблюдают некоторый прирост качества, который объясняют тем, что в таких задачах полезно смотреть слегка наперед.
Очевидный практический плюс от многотокенного предсказания - ускорение 🚤 инференса в 3 раза на BPE токенах и около 6 на байтах.
Вывод
Mutli-token prediction выглядит как естественная и рабочая история. Тем более что в нашумевшем DeepSeek-V3 (где использовалась модифицированная версия метода с трансфорнеыми блоками на каждый новый токен) данная стратегия тоже отлично завелась. Вероятно, она будет стандартной в будущих моделях. Ждем 🦙-4, Qwen-3?
🔥3
Не проплаченной рекламы пост (от @transformerslovedeatch).
Стартап в области безопасности ИИ ищет инженера LLM (Оптимизация и RL Alignment)
Чем предстоит заниматься.
⭐️ Дообучение и Оценка Sota llm, аттаки на blackbox модели
⭐️ Улучшение RL для атак на модели, настройки моделей (PPO, RLHF, стабильность обучения).
⭐️ Бенчмаркинг и оценка качества моделей (ELO-метрики, alignment).
⭐️ Оптимизация инференса (vLLM, SGLang, TRT).
Требования.
🪄 Опыт работы с LLM (архитектуры, RL, alignment).
🪄 Знание PyTorch/JAX.
🪄 Реальная практика с RL методами (DPO, RLHF — плюс).
🪄 Опыт с системами инференса (vLLM, kuber, docker).
🪄 Публикации в NeurIPS/ICML/ICLR и др. — сильный плюс.
Преимущество
Экспертиза в байесовской оптимизации, эволюционных алгоритмах, гиперпараметрическом поиске, автоматической оптимизации промптов.
Условия
⚡️Зарплата: 80K–130K usd + опционы.
⚡️Релокация в Париж🥐, полная занятость.
⚡️Работа с передовым стеком (AI research, model alignment).
Форма для отклика
https://forms.gle/z45WwdBTRHrd8inM9
Стартап в области безопасности ИИ ищет инженера LLM (Оптимизация и RL Alignment)
Чем предстоит заниматься.
⭐️ Дообучение и Оценка Sota llm, аттаки на blackbox модели
⭐️ Улучшение RL для атак на модели, настройки моделей (PPO, RLHF, стабильность обучения).
⭐️ Бенчмаркинг и оценка качества моделей (ELO-метрики, alignment).
⭐️ Оптимизация инференса (vLLM, SGLang, TRT).
Требования.
🪄 Опыт работы с LLM (архитектуры, RL, alignment).
🪄 Знание PyTorch/JAX.
🪄 Реальная практика с RL методами (DPO, RLHF — плюс).
🪄 Опыт с системами инференса (vLLM, kuber, docker).
🪄 Публикации в NeurIPS/ICML/ICLR и др. — сильный плюс.
Преимущество
Экспертиза в байесовской оптимизации, эволюционных алгоритмах, гиперпараметрическом поиске, автоматической оптимизации промптов.
Условия
⚡️Зарплата: 80K–130K usd + опционы.
⚡️Релокация в Париж🥐, полная занятость.
⚡️Работа с передовым стеком (AI research, model alignment).
Форма для отклика
https://forms.gle/z45WwdBTRHrd8inM9
👍7❤1
QuEST: Stable Training of LLMs with 1-Bit Weights and Activations
[Статья][Код]
Введение
Уважаемые коллеги из IST, в частности, @black_samorez_channel выпустили статью про стабильное обучение моделей с квантизованными весами и активациями.
Статей с той же аббревиатурой пруд пруди на архиве:
- Вот
- Вот
- Вот
- И вот
Но эта - особенная!
Ранее уже неоднократно поднимался (в том числе и на этом канале) вопрос о том, в какой точности оптимально учить модель (веса и активации), дабы получить наилучшее качество при заданном размере (через PTQ или QAT). Ранее утверждали, что 6-7 бит оптимально при квантизации весов и активаций в INTx/FPx. Но сама процедура была незамысловата, и нет гарантий, что нельзя пробить существенно Парето-фронт. Свежие результаты (смотри краткий обзор на gonzo-ml) показывают, что в fp4 тоже можно эффективно обучать.
В данной же статье авторам удается достичь Парето-оптимальности в W3A3/W4A4 и стабильного обучения в W1A1 😮 (уже не оптимального, но на одном уровне с fp16).
[Статья][Код]
Введение
Уважаемые коллеги из IST, в частности, @black_samorez_channel выпустили статью про стабильное обучение моделей с квантизованными весами и активациями.
Статей с той же аббревиатурой пруд пруди на архиве:
- Вот
- Вот
- Вот
- И вот
Но эта - особенная!
Ранее уже неоднократно поднимался (в том числе и на этом канале) вопрос о том, в какой точности оптимально учить модель (веса и активации), дабы получить наилучшее качество при заданном размере (через PTQ или QAT). Ранее утверждали, что 6-7 бит оптимально при квантизации весов и активаций в INTx/FPx. Но сама процедура была незамысловата, и нет гарантий, что нельзя пробить существенно Парето-фронт. Свежие результаты (смотри краткий обзор на gonzo-ml) показывают, что в fp4 тоже можно эффективно обучать.
В данной же статье авторам удается достичь Парето-оптимальности в W3A3/W4A4 и стабильного обучения в W1A1 😮 (уже не оптимального, но на одном уровне с fp16).
👍2
Метод
Основным затруднением при оптимизации весов и активаций в низкой точности является высокая степень шума. Напомню, что операция квантизации недифференцируема, и дабы все можно было оптимизировать градиентными методами применяют трюк имени Бенджио под названием STE (небось, тоже спиздил у Шмидхубера) , где градиент просто пробрасывается через недифференцируемую операцию (как будто вместо нее стоит функция y=x). Но при низких битностнях, такая оценка сильно расходится от истинного градиента и не сходится нормально.
Авторы формулируют задачу оптимизации STE, как минимизацию между оцененным псевдоградиентом и истинным. Предполагая гладкость функции потерь по весам, можно оценить ошибку градиента, как константа на ошибку квантизации весов.
Веса модели разделяют на 2️⃣ группы - с ошибкой квантизации ниже и выше некоторого порога. На шаге оптимизации учитывают только градиенты от весов с ошибкой ниже заданного порога, ибо вторые как раз и вносят шум и нестабильность в обучение.
Далее, дабы работать с более регулярным распределением весов/активаций, которое проще квантизовать, применяют пару трюков:
1️⃣ Чтобы привести распределение в более удобо квантизуемый вид применяют известный старым читателям канала трюк - вращения Адамаровыми матрицами как весов и активаций. В результате получают что-то близкое к гауссиане.
2️⃣ Дабы привести все приблизительно к
То есть в итоге алгоритм выглядит следующим образом:
🎯 На прямом проходе вращаем и нормализуем веса, сохраняя Адамаровы матрицы
🎯 На обратном проходе применяем обратное Адамарово преобразование и маскируем градиент
В Ablation показывают, что trust estimator (отбрасывание градиентов по шумным весам) в связке с Адамаровыми вращениями дает хорошую близость с истинным градиентом, в то время как vanilla STE и без Адамара корреляция низкая.
Основным затруднением при оптимизации весов и активаций в низкой точности является высокая степень шума. Напомню, что операция квантизации недифференцируема, и дабы все можно было оптимизировать градиентными методами применяют трюк имени Бенджио под названием STE
Авторы формулируют задачу оптимизации STE, как минимизацию между оцененным псевдоградиентом и истинным. Предполагая гладкость функции потерь по весам, можно оценить ошибку градиента, как константа на ошибку квантизации весов.
Веса модели разделяют на 2️⃣ группы - с ошибкой квантизации ниже и выше некоторого порога. На шаге оптимизации учитывают только градиенты от весов с ошибкой ниже заданного порога, ибо вторые как раз и вносят шум и нестабильность в обучение.
Далее, дабы работать с более регулярным распределением весов/активаций, которое проще квантизовать, применяют пару трюков:
1️⃣ Чтобы привести распределение в более удобо квантизуемый вид применяют известный старым читателям канала трюк - вращения Адамаровыми матрицами как весов и активаций. В результате получают что-то близкое к гауссиане.
2️⃣ Дабы привести все приблизительно к
N(0, 1)
применяют RMS нормализацию к результату шага 1. А для N(0, 1
) можно уже численно найти оптимальный скейлинг фактор для решетки квантизации и пользоваться им.То есть в итоге алгоритм выглядит следующим образом:
🎯 На прямом проходе вращаем и нормализуем веса, сохраняя Адамаровы матрицы
🎯 На обратном проходе применяем обратное Адамарово преобразование и маскируем градиент
В Ablation показывают, что trust estimator (отбрасывание градиентов по шумным весам) в связке с Адамаровыми вращениями дает хорошую близость с истинным градиентом, в то время как vanilla STE и без Адамара корреляция низкая.
👍4