MACHINELEARNING_INTERVIEW Telegram 1320
⚡️ Tencent Hunyuan Large - 389B (Total) X 52B (Active) - превосходит Llama 3.1 405B, Mistral 8x22B, DeepSeek V2!

В настоящее время это самая большая модель MoE на основе транспортеров с открытым исходным кодом, содержащая 389 миллиардов параметров и 52 миллиарда активных параметров.

Многоязычный, 128K контекст, использует GQA + CLA для сжатия KV кэша.

https://huggingface.co/OuteAI/OuteTTS-0.1-350M

@machinelearning_interview
👍8🔥2🥰21



tgoop.com/machinelearning_interview/1320
Create:
Last Update:

⚡️ Tencent Hunyuan Large - 389B (Total) X 52B (Active) - превосходит Llama 3.1 405B, Mistral 8x22B, DeepSeek V2!

В настоящее время это самая большая модель MoE на основе транспортеров с открытым исходным кодом, содержащая 389 миллиардов параметров и 52 миллиарда активных параметров.

Многоязычный, 128K контекст, использует GQA + CLA для сжатия KV кэша.

https://huggingface.co/OuteAI/OuteTTS-0.1-350M

@machinelearning_interview

BY Machine learning Interview




Share with your friend now:
tgoop.com/machinelearning_interview/1320

View MORE
Open in Telegram


Telegram News

Date: |

A vandalised bank during the 2019 protest. File photo: May James/HKFP. ‘Ban’ on Telegram The SUCK Channel on Telegram, with a message saying some content has been removed by the police. Photo: Telegram screenshot. How to create a business channel on Telegram? (Tutorial) Over 33,000 people sent out over 1,000 doxxing messages in the group. Although the administrators tried to delete all of the messages, the posting speed was far too much for them to keep up.
from us


Telegram Machine learning Interview
FROM American