tgoop.com/quant_prune_distill/468
Create:
Last Update:
Last Update:
Hogwild! Inference: Parallel LLM Generation via Concurrent Attention
[Статья] [Репозиторий][Страница проекта]
Введение
Для человеческих особей биполярное расстройство считается тяжелой психической болезнью 🤪, но для больших языковых моделей способность рассуждать в несколько взаимодействующих между собой потоков, как будто от лица разных персонажей, может быть полезна в контексте решения логических задач.
Коллеги из Yandex Research, где ваш покорный слуга выступал скорее в роли моральной поддержки, реализовали training-free подход параллельного инференса для LLM.
BY КПД

Share with your friend now:
tgoop.com/quant_prune_distill/468