КПД@quant_prune_distill P.418

QUANT_PRUNE_DISTILL Telegram 418

Better & Faster Large Language Models via Multi-token Prediction
[Статья] [Кода нет, но есть модели]

Введение

Раз уж пост вышел на Love. Death. Transformers. и братва требует пояснений, разберем.

За последние несколько лет мы наблюдали несколько качественных скачков возможностей LLM. Однако в основе их работы все еще (преимущественно) лежит задача предсказания следующего токена.

Данная незамысловатая задача позволяет решать задачи любой сложности, но существенным недостатком является дороговизна 💵 инференса, когда ради одного несчастного токена приходится загружать всю модель (или часть слоев в случае MoE) в быструю память и сгружать обратно.

Дабы повысить эффективность инференса предлагается незамысловатое решение - предсказывать несколько токенов за раз. На самом деле такое уже было еще в далеком 2020-м году, и в сценарии дообучения однотокенной модели (Medusa). Заслуга авторов из Меты в том, что они исследовали разные варианты предсказания токенов для моделей разного размера.

👍7

www.tgoop.com/quant_prune_distill/418

1.49K viewsedited Feb 9 at 20:40

tgoop.com/quant_prune_distill/418

Create: 2025-02-09
Last Update: 2025-08-24 02:51:08

Better & Faster Large Language Models via Multi-token Prediction
[Статья] [Кода нет, но есть модели]

Введение

Раз уж пост вышел на Love. Death. Transformers. и братва требует пояснений, разберем.

За последние несколько лет мы наблюдали несколько качественных скачков возможностей LLM. Однако в основе их работы все еще (преимущественно) лежит задача предсказания следующего токена.

Данная незамысловатая задача позволяет решать задачи любой сложности, но существенным недостатком является дороговизна 💵 инференса, когда ради одного несчастного токена приходится загружать всю модель (или часть слоев в случае MoE) в быструю память и сгружать обратно.

Дабы повысить эффективность инференса предлагается незамысловатое решение - предсказывать несколько токенов за раз. На самом деле такое уже было еще в далеком 2020-м году, и в сценарии дообучения однотокенной модели (Medusa). Заслуга авторов из Меты в том, что они исследовали разные варианты предсказания токенов для моделей разного размера.

BY КПД

Share with your friend now:
tgoop.com/quant_prune_distill/418

Open in Telegram

Telegram News

Date: 2025-08-24|

In the “Bear Market Screaming Therapy Group” on Telegram, members are only allowed to post voice notes of themselves screaming. Anything else will result in an instant ban from the group, which currently has about 75 members. With the administration mulling over limiting access to doxxing groups, a prominent Telegram doxxing group apparently went on a "revenge spree." But a Telegram statement also said: "Any requests related to political censorship or limiting human rights such as the rights to free speech or assembly are not and will not be considered." Add the logo from your device. Adjust the visible area of your image. Congratulations! Now your Telegram channel has a face Click “Save”.! Hashtags are a fast way to find the correct information on social media. To put your content out there, be sure to add hashtags to each post. We have two intelligent tips to give you:
from us

Telegram КПД
FROM American