🧠 Thinking Machines предложила новый способ обучения нейросетей — manifold Muon, который делает веса более стабильными и предсказуемыми.
🔑 Суть метода:
- Веса ограничиваются на специальной математической поверхности (многообразии Стифеля), где они не могут «разъехаться».
- Размер обновлений контролируется через спектральную норму, чтобы шаги обучения не искажали сеть слишком сильно.
- Обновления считаются в касательном пространстве и возвращаются обратно на многообразие.
📊 На тестах CIFAR-10 метод оказался точнее AdamW и удерживал веса в стабильном диапазоне, хотя шаги обучения занимали больше времени.
🎯 Главная идея — ИИ может давать последовательные и надёжные ответы. То, что сейчас считается «рандомностью» моделей, авторы называют исправимым багом.
Это может стать основой для создания безопасных AGI-систем, где нельзя допускать хаотичное поведение модели.
https://thinkingmachines.ai/blog/modular-manifolds/
🔑 Суть метода:
- Веса ограничиваются на специальной математической поверхности (многообразии Стифеля), где они не могут «разъехаться».
- Размер обновлений контролируется через спектральную норму, чтобы шаги обучения не искажали сеть слишком сильно.
- Обновления считаются в касательном пространстве и возвращаются обратно на многообразие.
📊 На тестах CIFAR-10 метод оказался точнее AdamW и удерживал веса в стабильном диапазоне, хотя шаги обучения занимали больше времени.
🎯 Главная идея — ИИ может давать последовательные и надёжные ответы. То, что сейчас считается «рандомностью» моделей, авторы называют исправимым багом.
Это может стать основой для создания безопасных AGI-систем, где нельзя допускать хаотичное поведение модели.
https://thinkingmachines.ai/blog/modular-manifolds/
❤25🔥9👍7💅1
tgoop.com/machinelearning_interview/2212
Create:
Last Update:
Last Update:
🧠 Thinking Machines предложила новый способ обучения нейросетей — manifold Muon, который делает веса более стабильными и предсказуемыми.
🔑 Суть метода:
- Веса ограничиваются на специальной математической поверхности (многообразии Стифеля), где они не могут «разъехаться».
- Размер обновлений контролируется через спектральную норму, чтобы шаги обучения не искажали сеть слишком сильно.
- Обновления считаются в касательном пространстве и возвращаются обратно на многообразие.
📊 На тестах CIFAR-10 метод оказался точнее AdamW и удерживал веса в стабильном диапазоне, хотя шаги обучения занимали больше времени.
🎯 Главная идея — ИИ может давать последовательные и надёжные ответы. То, что сейчас считается «рандомностью» моделей, авторы называют исправимым багом.
Это может стать основой для создания безопасных AGI-систем, где нельзя допускать хаотичное поведение модели.
https://thinkingmachines.ai/blog/modular-manifolds/
🔑 Суть метода:
- Веса ограничиваются на специальной математической поверхности (многообразии Стифеля), где они не могут «разъехаться».
- Размер обновлений контролируется через спектральную норму, чтобы шаги обучения не искажали сеть слишком сильно.
- Обновления считаются в касательном пространстве и возвращаются обратно на многообразие.
📊 На тестах CIFAR-10 метод оказался точнее AdamW и удерживал веса в стабильном диапазоне, хотя шаги обучения занимали больше времени.
🎯 Главная идея — ИИ может давать последовательные и надёжные ответы. То, что сейчас считается «рандомностью» моделей, авторы называют исправимым багом.
Это может стать основой для создания безопасных AGI-систем, где нельзя допускать хаотичное поведение модели.
https://thinkingmachines.ai/blog/modular-manifolds/
BY Machine learning Interview




Share with your friend now:
tgoop.com/machinelearning_interview/2212