MACHINELEARNING_RU Telegram 2988
Forwarded from Machinelearning
⚡️ Ling-flash-2.0 теперь в открытом доступе! ⚡️

Модель на 100B параметров, но задействовано всего ≈6.1B активных, что делает модель очень экономной в вычислительной нагрузке.

🚀 Чем хороша Ling-flash-2.0
- Обучена на более чем 20 триллионах токенов с до-обучением и RL-этапами.
- Демонстрирует state-of-the-art производительность среди плотных моделей до 40B параметров.
- Особенно хороша в сложном рассуждении, генерации кода и задачах с фронтендом.

⚙️ Архитектура и эффективность
- MoE-архитектура с активированием лишь части параметров (activation ratio 1/32).
- Много технических фишек: продвинутое распределение экспертов, баланс внимания, схема маршрутизации без вспомогательных потерь и др.
- На железе H20 модель генерирует 200+ токенов в секунду - в 3× быстрее по сравнению с плотной моделью 36B.
- Поддерживает контексты до 128K токенов (с YaRN).

https://huggingface.co/inclusionAI/Ling-flash-2.0

@ai_machinelearning_big_data


#moe #llm #ml #ai #opensource
👍42🔥2



tgoop.com/machinelearning_ru/2988
Create:
Last Update:

⚡️ Ling-flash-2.0 теперь в открытом доступе! ⚡️

Модель на 100B параметров, но задействовано всего ≈6.1B активных, что делает модель очень экономной в вычислительной нагрузке.

🚀 Чем хороша Ling-flash-2.0
- Обучена на более чем 20 триллионах токенов с до-обучением и RL-этапами.
- Демонстрирует state-of-the-art производительность среди плотных моделей до 40B параметров.
- Особенно хороша в сложном рассуждении, генерации кода и задачах с фронтендом.

⚙️ Архитектура и эффективность
- MoE-архитектура с активированием лишь части параметров (activation ratio 1/32).
- Много технических фишек: продвинутое распределение экспертов, баланс внимания, схема маршрутизации без вспомогательных потерь и др.
- На железе H20 модель генерирует 200+ токенов в секунду - в 3× быстрее по сравнению с плотной моделью 36B.
- Поддерживает контексты до 128K токенов (с YaRN).

https://huggingface.co/inclusionAI/Ling-flash-2.0

@ai_machinelearning_big_data


#moe #llm #ml #ai #opensource

BY Машинное обучение RU





Share with your friend now:
tgoop.com/machinelearning_ru/2988

View MORE
Open in Telegram


Telegram News

Date: |

How to Create a Private or Public Channel on Telegram? 5Telegram Channel avatar size/dimensions Telegram message that reads: "Bear Market Screaming Therapy Group. You are only allowed to send screaming voice notes. Everything else = BAN. Text pics, videos, stickers, gif = BAN. Anything other than screaming = BAN. You think you are smart = BAN. The initiatives announced by Perekopsky include monitoring the content in groups. According to the executive, posts identified as lacking context or as containing false information will be flagged as a potential source of disinformation. The content is then forwarded to Telegram's fact-checking channels for analysis and subsequent publication of verified information. The Channel name and bio must be no more than 255 characters long
from us


Telegram Машинное обучение RU
FROM American