Открытый код ФКН ВШЭ@hse_cs

Открытый код ФКН ВШЭ

hogwild_llm

В репозитории содержится код для реализации и запуска параллельного инференса больших языковых моделей (LLM) по методу Hogwild! Inference — подхода, при котором несколько копий одной и той же модели выполняются параллельно и синхронизируются через общий attention-кэш. Вместо заранее заданной стратегии кооперации, модели сами решают, как разделить задачи, используя видимость токенов друг друга в общем KV-кэше и минимальную задержку при взаимодействии. Метод позволяет моделям в процессе инференса договариваться о стратегии: распределять подзадачи, исправлять ошибки других агентов, перепланировать ход решения. Для этого используются специальные конфигурации shared attention cache (contiguous, interleaved и combined), а также промптинг, стимулирующий модели проверять, не дублируют ли они работу друг друга. Эксперименты с открытыми LLM (например, QwQ-32B, DeepSeek-R1) показывают, что даже без дополнительного обучения модели способны обнаруживать дублирование, корректировать план решения и достигать сопоставимого или лучшего качества при меньшем количестве итераций. Кроме того, предложенная архитектура демонстрирует хорошее аппаратное ускорение за счёт снижения необходимости повторного вычисления attention-блоков. Код может быть полезен LLM-инженерам и исследователям, специалистам по агентам и DL исследователям.

статья | код

GitHub

GitHub - eqimp/hogwild_llm: Official PyTorch implementation for Hogwild! Inference: Parallel LLM Generation with a Concurrent Attention…

Official PyTorch implementation for Hogwild! Inference: Parallel LLM Generation with a Concurrent Attention Cache - eqimp/hogwild_llm

❤7🔥7😍1

www.tgoop.com/hse_cs_opensource/89

738 viewsApr 18 at 09:13