MACHINELEARNING_RU Telegram 2987
Forwarded from Machinelearning
⚡️ Ling-flash-2.0 теперь в открытом доступе! ⚡️

Модель на 100B параметров, но задействовано всего ≈6.1B активных, что делает модель очень экономной в вычислительной нагрузке.

🚀 Чем хороша Ling-flash-2.0
- Обучена на более чем 20 триллионах токенов с до-обучением и RL-этапами.
- Демонстрирует state-of-the-art производительность среди плотных моделей до 40B параметров.
- Особенно хороша в сложном рассуждении, генерации кода и задачах с фронтендом.

⚙️ Архитектура и эффективность
- MoE-архитектура с активированием лишь части параметров (activation ratio 1/32).
- Много технических фишек: продвинутое распределение экспертов, баланс внимания, схема маршрутизации без вспомогательных потерь и др.
- На железе H20 модель генерирует 200+ токенов в секунду - в 3× быстрее по сравнению с плотной моделью 36B.
- Поддерживает контексты до 128K токенов (с YaRN).

https://huggingface.co/inclusionAI/Ling-flash-2.0

@ai_machinelearning_big_data


#moe #llm #ml #ai #opensource
👍42🔥2



tgoop.com/machinelearning_ru/2987
Create:
Last Update:

⚡️ Ling-flash-2.0 теперь в открытом доступе! ⚡️

Модель на 100B параметров, но задействовано всего ≈6.1B активных, что делает модель очень экономной в вычислительной нагрузке.

🚀 Чем хороша Ling-flash-2.0
- Обучена на более чем 20 триллионах токенов с до-обучением и RL-этапами.
- Демонстрирует state-of-the-art производительность среди плотных моделей до 40B параметров.
- Особенно хороша в сложном рассуждении, генерации кода и задачах с фронтендом.

⚙️ Архитектура и эффективность
- MoE-архитектура с активированием лишь части параметров (activation ratio 1/32).
- Много технических фишек: продвинутое распределение экспертов, баланс внимания, схема маршрутизации без вспомогательных потерь и др.
- На железе H20 модель генерирует 200+ токенов в секунду - в 3× быстрее по сравнению с плотной моделью 36B.
- Поддерживает контексты до 128K токенов (с YaRN).

https://huggingface.co/inclusionAI/Ling-flash-2.0

@ai_machinelearning_big_data


#moe #llm #ml #ai #opensource

BY Машинное обучение RU





Share with your friend now:
tgoop.com/machinelearning_ru/2987

View MORE
Open in Telegram


Telegram News

Date: |

Don’t publish new content at nighttime. Since not all users disable notifications for the night, you risk inadvertently disturbing them. Hashtags are a fast way to find the correct information on social media. To put your content out there, be sure to add hashtags to each post. We have two intelligent tips to give you: Activate up to 20 bots In handing down the sentence yesterday, deputy judge Peter Hui Shiu-keung of the district court said that even if Ng did not post the messages, he cannot shirk responsibility as the owner and administrator of such a big group for allowing these messages that incite illegal behaviors to exist.
from us


Telegram Машинное обучение RU
FROM American