tgoop.com/data_analysis_ml/3774
Create:
Last Update:
Last Update:
🚀 Вышла новая модель DeepSeek-TNG R1T2 Chimera 671B
Особенности:
- примерно на 20% быстрее обычного R1 и более чем в 2 раза быстрее R1-0528
- значительно умнее стандартного R1 по бенчмаркам GPQA и AIME-24
- намного умнее и обеспечивает согласованность think-token по сравнению с первым R1T Chimera 0426
R1T2 получает веса из R1-0528, R1 и V3-0324 с помощью Assembly-of-Experts. Слияние сохраняет способность рассуждать R1-0528 и использует лёгкие общие слои V3-0324, так что ответы остаются точными и ёмкими.
Модель распространяется под лицензией MIT на huggingface
https://huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera
@data_analysis_ml
BY Анализ данных (Data analysis)

Share with your friend now:
tgoop.com/data_analysis_ml/3774