КПД@quant_prune_distill P.510

КПД

Лунныйвыстрел 🌚 эйай выложили техрепорт Kimi-K2 у себя на гитхабе.

Напомню, что это типа дипсик, только с 1Т параметров, побольше экспертов 👨‍🏫, поменьше голов 🗿 внимания.

Наиболее примечательные моменты

Ранее эти же ребята показали, что Muon якобы даже эффективнее Adam при обучении LLM MoE размера 16B, а теперь попробовали на реально большой модели.

📌 При наивном применении Muon, оказалось, что логиты в attention растут со временем, что приводит к нестабильности обучения. Стандартный механизм вставки QK-нормализации неприменим для MLA, так как матрицы Q, K в явном виде не материализуются. Для решения данной проблемы авторы выставляют некий порог на attention логиты, и если при прямом проходе attention вылезают за порог - оптимизатор домножает веса W_Q, W_K проекций на число меньше 1. Благодаря этому логиты на практике не выходят за выставленный порог (100) и обучение проходит без спайков лосса.

📌 Следующий аспект про данные. Нейросеть - это то, что она ест, а хороших токенов не так много в интернете. А делать много эпох на небольшом датасете бесполезно. Потому некий датасет более высокого качества перефразируют 10-ую разными способами (с разными промптами), и утверждают что это дает лучшее качество.

📌 Затем перебирают параметры архитектуры - число экспертов и голов в attention. 8 активных экспертов из 384 оказываются оптимальными по качеству. А лишние головы замедляют инференс - поэтому их убирают.

📌 Суммарно обучают на 15.5Т токенах с разогревом и гашением lr в конце.

📌 Для файтьюна используют так же Muon и данные собирают частично вручную, частичтно при помощи Kimi-K1.5 и других неназванных специализированных моделей.

📌 Далее модель обучают на tool-use, собирая публичные MCP в гитхаба. Для RL-оптимизации используют алгоритм из Kimi-K1.5. Там еще есть ряд нюансов, за которые я не шарю.

Результаты

Замеряют на разных задачах по кодингу, tool use, Math & STEM и world knowledge. В задачах на код и tool use заметный прирост по сравнению с DeepSeek. STEM немного лучше. На китайском вроде бы новая SOTA.

👍8🔥4

www.tgoop.com/quant_prune_distill/510

1.97K viewsedited Jul 22 at 07:56

tgoop.com/quant_prune_distill/510

Create: 2025-07-22
Last Update: 2025-08-25 14:37:41

BY КПД

Share with your friend now:
tgoop.com/quant_prune_distill/510

Telegram News

Лунныйвыстрел 🌚 эйай выложили техрепорт Kimi-K2 у себя на гитхабе.