AI_MACHINELEARNING_BIG_DATA Telegram 8569
⚡️ Ling-flash-2.0 теперь в открытом доступе! ⚡️

Модель 100 B параметров, но задействовано всего ≈6.1B активных, что делает модель очень экономной.

🚀 Чем хороша Ling-flash-2.0
- Обучена на более чем 20 триллионах токенов с до-обучением и RL-этапами.
- Демонстрирует state-of-the-art производительность среди плотных моделей до 40B параметров.
- Особенно хороша в сложном рассуждении, генерации кода и задачах с фронтендом.

⚙️ Архитектура и эффективность
- MoE-архитектура с активированием лишь части параметров (activation ratio 1/32).
- Много технических фишек: продвинутое распределение экспертов, баланс внимания, схема маршрутизации без вспомогательных потерь и др.
- На железе H20 модель генерирует 200+ токенов в секунду - в 3× быстрее по сравнению с плотной моделью 36B.
- Поддерживает контексты до 128K токенов (с YaRN).

https://huggingface.co/inclusionAI/Ling-flash-2.0

@ai_machinelearning_big_data


#moe #llm #ml #ai #opensource
👍32148👏25🔥21🎉16😁10🤩7🥰5😢5😍5🏆4



tgoop.com/ai_machinelearning_big_data/8569
Create:
Last Update:

⚡️ Ling-flash-2.0 теперь в открытом доступе! ⚡️

Модель 100 B параметров, но задействовано всего ≈6.1B активных, что делает модель очень экономной.

🚀 Чем хороша Ling-flash-2.0
- Обучена на более чем 20 триллионах токенов с до-обучением и RL-этапами.
- Демонстрирует state-of-the-art производительность среди плотных моделей до 40B параметров.
- Особенно хороша в сложном рассуждении, генерации кода и задачах с фронтендом.

⚙️ Архитектура и эффективность
- MoE-архитектура с активированием лишь части параметров (activation ratio 1/32).
- Много технических фишек: продвинутое распределение экспертов, баланс внимания, схема маршрутизации без вспомогательных потерь и др.
- На железе H20 модель генерирует 200+ токенов в секунду - в 3× быстрее по сравнению с плотной моделью 36B.
- Поддерживает контексты до 128K токенов (с YaRN).

https://huggingface.co/inclusionAI/Ling-flash-2.0

@ai_machinelearning_big_data


#moe #llm #ml #ai #opensource

BY Machinelearning





Share with your friend now:
tgoop.com/ai_machinelearning_big_data/8569

View MORE
Open in Telegram


Telegram News

Date: |

Telegram Channels requirements & features The best encrypted messaging apps Telegram channels enable users to broadcast messages to multiple users simultaneously. Like on social media, users need to subscribe to your channel to get access to your content published by one or more administrators. Find your optimal posting schedule and stick to it. The peak posting times include 8 am, 6 pm, and 8 pm on social media. Try to publish serious stuff in the morning and leave less demanding content later in the day. Telegram channels fall into two types:
from us


Telegram Machinelearning
FROM American