AI_MACHINELEARNING_BIG_DATA Telegram 8570
⚡️ Ling-flash-2.0 теперь в открытом доступе! ⚡️

Модель 100 B параметров, но задействовано всего ≈6.1B активных, что делает модель очень экономной.

🚀 Чем хороша Ling-flash-2.0
- Обучена на более чем 20 триллионах токенов с до-обучением и RL-этапами.
- Демонстрирует state-of-the-art производительность среди плотных моделей до 40B параметров.
- Особенно хороша в сложном рассуждении, генерации кода и задачах с фронтендом.

⚙️ Архитектура и эффективность
- MoE-архитектура с активированием лишь части параметров (activation ratio 1/32).
- Много технических фишек: продвинутое распределение экспертов, баланс внимания, схема маршрутизации без вспомогательных потерь и др.
- На железе H20 модель генерирует 200+ токенов в секунду - в 3× быстрее по сравнению с плотной моделью 36B.
- Поддерживает контексты до 128K токенов (с YaRN).

https://huggingface.co/inclusionAI/Ling-flash-2.0

@ai_machinelearning_big_data


#moe #llm #ml #ai #opensource
👍32349👏25🔥21🎉16😁10🤩8🥰7😢5😍5🏆4



tgoop.com/ai_machinelearning_big_data/8570
Create:
Last Update:

⚡️ Ling-flash-2.0 теперь в открытом доступе! ⚡️

Модель 100 B параметров, но задействовано всего ≈6.1B активных, что делает модель очень экономной.

🚀 Чем хороша Ling-flash-2.0
- Обучена на более чем 20 триллионах токенов с до-обучением и RL-этапами.
- Демонстрирует state-of-the-art производительность среди плотных моделей до 40B параметров.
- Особенно хороша в сложном рассуждении, генерации кода и задачах с фронтендом.

⚙️ Архитектура и эффективность
- MoE-архитектура с активированием лишь части параметров (activation ratio 1/32).
- Много технических фишек: продвинутое распределение экспертов, баланс внимания, схема маршрутизации без вспомогательных потерь и др.
- На железе H20 модель генерирует 200+ токенов в секунду - в 3× быстрее по сравнению с плотной моделью 36B.
- Поддерживает контексты до 128K токенов (с YaRN).

https://huggingface.co/inclusionAI/Ling-flash-2.0

@ai_machinelearning_big_data


#moe #llm #ml #ai #opensource

BY Machinelearning





Share with your friend now:
tgoop.com/ai_machinelearning_big_data/8570

View MORE
Open in Telegram


Telegram News

Date: |

Hui said the messages, which included urging the disruption of airport operations, were attempts to incite followers to make use of poisonous, corrosive or flammable substances to vandalize police vehicles, and also called on others to make weapons to harm police. How to Create a Private or Public Channel on Telegram? The best encrypted messaging apps How to create a business channel on Telegram? (Tutorial) "Doxxing content is forbidden on Telegram and our moderators routinely remove such content from around the world," said a spokesman for the messaging app, Remi Vaughn.
from us


Telegram Machinelearning
FROM American