tgoop.com/quant_prune_distill/510
Last Update:
Лунныйвыстрел 🌚 эйай выложили техрепорт Kimi-K2 у себя на гитхабе.
Напомню, что это типа дипсик, только с 1Т параметров, побольше экспертов 👨🏫, поменьше голов 🗿 внимания.
Наиболее примечательные моменты
Ранее эти же ребята показали, что Muon якобы даже эффективнее Adam при обучении LLM MoE размера 16B, а теперь попробовали на реально большой модели.
📌 При наивном применении Muon, оказалось, что логиты в attention растут со временем, что приводит к нестабильности обучения. Стандартный механизм вставки QK-нормализации неприменим для MLA, так как матрицы Q, K в явном виде не материализуются. Для решения данной проблемы авторы выставляют некий порог на attention логиты, и если при прямом проходе attention вылезают за порог - оптимизатор домножает веса W_Q, W_K проекций на число меньше 1. Благодаря этому логиты на практике не выходят за выставленный порог (100) и обучение проходит без спайков лосса.
📌 Следующий аспект про данные. Нейросеть - это то, что она ест, а хороших токенов не так много в интернете. А делать много эпох на небольшом датасете бесполезно. Потому некий датасет более высокого качества перефразируют 10-ую разными способами (с разными промптами), и утверждают что это дает лучшее качество.
📌 Затем перебирают параметры архитектуры - число экспертов и голов в attention. 8 активных экспертов из 384 оказываются оптимальными по качеству. А лишние головы замедляют инференс - поэтому их убирают.
📌 Суммарно обучают на 15.5Т токенах с разогревом и гашением lr в конце.
📌 Для файтьюна используют так же Muon и данные собирают частично вручную, частичтно при помощи Kimi-K1.5 и других неназванных специализированных моделей.
📌 Далее модель обучают на tool-use, собирая публичные MCP в гитхаба. Для RL-оптимизации используют алгоритм из Kimi-K1.5. Там еще есть ряд нюансов, за которые я не шарю.
Результаты
Замеряют на разных задачах по кодингу, tool use, Math & STEM и world knowledge. В задачах на код и tool use заметный прирост по сравнению с DeepSeek. STEM немного лучше. На китайском вроде бы новая SOTA.
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/510