tgoop.com/quant_prune_distill/515
Last Update:
Метод
В данной работе по факту занимаются подбором архитектуры субквадратичного attention, хотя сам предложенный фреймворк довольно общий.
Система состоит из 4️⃣-х модулей:
🧑🔬 Исследователь. Предлагает и реализует архитектур.
🛠 Инженер. Тестирует и оценивает (по новизне / сложности).
🅰️ Аналитик. Получает на вход результаты инженера и на основе текущих и прошлых исторических данных дает заключение.
📚 База данных. Подборка ключевых работ в области NAS (примерно 100 статей), на основе которой можно предлагать архитектуры, либо сравнивать и оценивать текущий результат.
Процедура оптимизации архитектуры основана на эволюционном поиске, для которого важно задать fitness функцию - оценивающую качество сэмпла. С одной стороны, хочется высокой точности, а с другой эффективности и удобства реализации.
Предложенная мера является средним от трех слагаемых:
1⃣️️ Сигмоидой от разницы лоссов (с бейзлайном)
2️⃣ Сигмоидой от разницы метрик (с бейзлайном)
3️⃣ LLM_judge 🤖 (LLM с неким промптом оценивает годность архитектуры)
База доступных модулей содержит всякие свертки, гейты, фильтры, блоки памяти и прочие структуры.
Проверяльщик сравнивает предложенную архитектуру (на основе эмбеддинга кода?) с 5-ую самыми похожими, оценивая разумность идеи. Кроме того, есть проверка на асимптотическую сложность, чтобы она не была O(n^2) по длине последовательности и больше. Если случилась бага в реализации, то трейс ошибки подается исследователю, чтобы он поправил.
Эксперименты
В качестве бейзлайна берут DeltaNet и Mamba2. При оценке архитектур смотрят только на то, что выдает лосс в пределах 10% от него. Типа если слишком идет хорошо по лоссу - че-т протекло. Порог будто взят от балды, не знаю как его характеризовать.
Процедура поиска состоит из холодного старта без обновления базы, поощряющей исследование новых вариантов, а потом происходит побатчовое обновление кандидатов - т.е переход к exploitation.
Дабы все можно было прогнать за разумное время, сначала гоняют кандидатов размера 20M на 1B токенах, и когда появляются более перспективные кандидаты, их масштабируют до 400M. А затем самых лучших обучают уже на 15B токенах.
На первой стадии обучают 1773 архитектур, на второй 400 лучших, и 5 самых удачных на третьей. На все про все уходит 20 000 GPU часов.
5 лучших архитектур - это нечто про gating, иерархическую агрерацию и какое-то хитрое смешивание признаков.
Лучшие кандидаты достигают лосса заметно меньше, чем бейзлайн и до 2-3% лушчего качества не бенчах. В качестве бенчей берут выборку простых задач из lm-eval-harness, где на рассматриваемых бюджетах все модели по факту чуть лучше рандома.
Из наиболее удачных паттернов авторы отмечают:
1️⃣ Свертки
2️⃣ Гейты
3️⃣ Некий механизм routing
Всякие вдохновленные физикой и биологией штукенции, напротив, работают не очень.
Анализируя природу успеха той или иной архитектуры, авторы приходят к выводу, что наибольший вес имеет cognition (учет существующего знания) и экспериментальная оценка, а оригинальность влияет в меньшей степени.
Вывод
Самая идея доверить поиск архитектуры AI выглядит довольно привлекательно, и сам по себе предложенный фрейворк интересен. Над сайтиком постарались на славу. Однако, на текущий момент, практическая польза не очевидна, ибо даже конечная валидация на масштабе далеком от тех, на чем обучают более менее современные LLM, и в реальном бою, как это обычно бывает, разница может размыться с увеличением модели и обучающей выборки. Кроме того, с практической точки зрения интересна еще и скорость инференса, и некоторые варианты могут быть не очень хороши с точки зрения реализации эффективных кернелов. Так что “AlphaGo момент” - скорее overclaim, но реакции на x.com / reddit не пахнут.
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/515