Big Data AI@bigdatai P.709

🌟

MInference 1.0 — метод ускорения обработки промпта для LLM с большим контекстом

git clone https://huggingface.co/spaces/microsoft/MInference
cd MInference
pip install -r requirments.txt
pip install flash_attn pycuda==2023.1
python app.py

Вычислительные проблемы, связанные с выводом данных с помощью LLM, остаются большим препятствием для их широкого применения; вычислительная сложность растёт с увеличением длины подсказок.
Из-за квадратичной сложности вычислений для обработки промпта из 1 млн лексем на одном GPU A100 для 8B LLM требуется 30 минут.

Поэтому Microsoft выкатили MInference, которая позволяет ускорить обработку большого промпта до 10 раз, причём с сохранением точности LLM

🖥

GitHub
🤗 Демо на HF

🟡

Arxiv

@bigdatai

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5❤3👍3

www.tgoop.com/bigdatai/709

3.06K viewsJul 6, 2024 at 08:47

tgoop.com/bigdatai/709

Create: 2024-07-06
Last Update: 2025-07-29 12:14:41

🌟 MInference 1.0 — метод ускорения обработки промпта для LLM с большим контекстом

git clone https://huggingface.co/spaces/microsoft/MInference
cd MInference
pip install -r requirments.txt
pip install flash_attn pycuda==2023.1
python app.py

🖥

GitHub
🤗 Демо на HF

🟡

Arxiv

@bigdatai

Telegram News

🌟 MInference 1.0 — метод ускорения обработки промпта для LLM с большим контекстом