QUANT_PRUNE_DISTILL Telegram 510
Лунныйвыстрел 🌚 эйай выложили техрепорт Kimi-K2 у себя на гитхабе.

Напомню, что это типа дипсик, только с 1Т параметров, побольше экспертов 👨‍🏫, поменьше голов 🗿 внимания.

Наиболее примечательные моменты

Ранее эти же ребята показали, что Muon якобы даже эффективнее Adam при обучении LLM MoE размера 16B, а теперь попробовали на реально большой модели.

📌 При наивном применении Muon, оказалось, что логиты в attention растут со временем, что приводит к нестабильности обучения. Стандартный механизм вставки QK-нормализации неприменим для MLA, так как матрицы Q, K в явном виде не материализуются. Для решения данной проблемы авторы выставляют некий порог на attention логиты, и если при прямом проходе attention вылезают за порог - оптимизатор домножает веса W_Q, W_K проекций на число меньше 1. Благодаря этому логиты на практике не выходят за выставленный порог (100) и обучение проходит без спайков лосса.

📌 Следующий аспект про данные. Нейросеть - это то, что она ест, а хороших токенов не так много в интернете. А делать много эпох на небольшом датасете бесполезно. Потому некий датасет более высокого качества перефразируют 10-ую разными способами (с разными промптами), и утверждают что это дает лучшее качество.

📌 Затем перебирают параметры архитектуры - число экспертов и голов в attention. 8 активных экспертов из 384 оказываются оптимальными по качеству. А лишние головы замедляют инференс - поэтому их убирают.

📌 Суммарно обучают на 15.5Т токенах с разогревом и гашением lr в конце.

📌 Для файтьюна используют так же Muon и данные собирают частично вручную, частичтно при помощи Kimi-K1.5 и других неназванных специализированных моделей.

📌 Далее модель обучают на tool-use, собирая публичные MCP в гитхаба. Для RL-оптимизации используют алгоритм из Kimi-K1.5. Там еще есть ряд нюансов, за которые я не шарю.

Результаты

Замеряют на разных задачах по кодингу, tool use, Math & STEM и world knowledge. В задачах на код и tool use заметный прирост по сравнению с DeepSeek. STEM немного лучше. На китайском вроде бы новая SOTA.
👍8🔥4



tgoop.com/quant_prune_distill/510
Create:
Last Update:

Лунныйвыстрел 🌚 эйай выложили техрепорт Kimi-K2 у себя на гитхабе.

Напомню, что это типа дипсик, только с 1Т параметров, побольше экспертов 👨‍🏫, поменьше голов 🗿 внимания.

Наиболее примечательные моменты

Ранее эти же ребята показали, что Muon якобы даже эффективнее Adam при обучении LLM MoE размера 16B, а теперь попробовали на реально большой модели.

📌 При наивном применении Muon, оказалось, что логиты в attention растут со временем, что приводит к нестабильности обучения. Стандартный механизм вставки QK-нормализации неприменим для MLA, так как матрицы Q, K в явном виде не материализуются. Для решения данной проблемы авторы выставляют некий порог на attention логиты, и если при прямом проходе attention вылезают за порог - оптимизатор домножает веса W_Q, W_K проекций на число меньше 1. Благодаря этому логиты на практике не выходят за выставленный порог (100) и обучение проходит без спайков лосса.

📌 Следующий аспект про данные. Нейросеть - это то, что она ест, а хороших токенов не так много в интернете. А делать много эпох на небольшом датасете бесполезно. Потому некий датасет более высокого качества перефразируют 10-ую разными способами (с разными промптами), и утверждают что это дает лучшее качество.

📌 Затем перебирают параметры архитектуры - число экспертов и голов в attention. 8 активных экспертов из 384 оказываются оптимальными по качеству. А лишние головы замедляют инференс - поэтому их убирают.

📌 Суммарно обучают на 15.5Т токенах с разогревом и гашением lr в конце.

📌 Для файтьюна используют так же Muon и данные собирают частично вручную, частичтно при помощи Kimi-K1.5 и других неназванных специализированных моделей.

📌 Далее модель обучают на tool-use, собирая публичные MCP в гитхаба. Для RL-оптимизации используют алгоритм из Kimi-K1.5. Там еще есть ряд нюансов, за которые я не шарю.

Результаты

Замеряют на разных задачах по кодингу, tool use, Math & STEM и world knowledge. В задачах на код и tool use заметный прирост по сравнению с DeepSeek. STEM немного лучше. На китайском вроде бы новая SOTA.

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/510

View MORE
Open in Telegram


Telegram News

Date: |

Click “Save” ; How to create a business channel on Telegram? (Tutorial) Telegram is a leading cloud-based instant messages platform. It became popular in recent years for its privacy, speed, voice and video quality, and other unmatched features over its main competitor Whatsapp. The administrator of a telegram group, "Suck Channel," was sentenced to six years and six months in prison for seven counts of incitement yesterday. SUCK Channel Telegram
from us


Telegram КПД
FROM American