MACHINELEARNING_RU Telegram 2262
Forwarded from Machinelearning
🌟 TGI v3: Новая архитектура ускоренного инференса LLMs.

TGI v3 — новая версия архитектуры для обработки естественного языка, разработанная Hugging Face. TGI v3 демонстрирует значительный прирост производительности, особенно при работе с длинными запросами.

Улучшения v3:

🟢оптимизированные ядра;
🟢эффективная структура кэширования префиксов;
🟢улучшенное управление вычислительными ресурсами.

Flashinfer и flashdecoding — новые ядра быстрой обработки текста. Оптимизированная структура кэширования позволяет быстро находить совпадения даже для очень длинных запросов.

TGI v3 оценивалась в реалистичных сценариях на коротких и длинные запросах. Результаты тестов показали, что TGI v3 обрабатывает в 3 раза больше токенов, чем vLLM, а скорость обработки увеличилась в 13 раз для запросов длиной 200K+ токенов.

Хотя результаты работы TGI v3 впечатляют, следует учитывать некоторые ограничения:

⚠️ Если в среде не хватает места в kv-кэше, это может привести к конфликту. Чтобы избежать этого эффекта, следует установить ограничение --max-total-tokens.

⚠️ В сценариях, где несколько реплик находятся за одним эндпоинтом рекомендуется использовать балансировку нагрузки на зависимые сеансы, чтобы заставить каждого пользователя отправлять свои запросы на одну и ту же реплику.

🔜 Полная статья с описанием TGI v3 доступна на HF.


🖥 GIthub


@ai_machinelearning_big_data

#AI #ML #LLM #HuggingFace #TGI
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43



tgoop.com/machinelearning_ru/2262
Create:
Last Update:

🌟 TGI v3: Новая архитектура ускоренного инференса LLMs.

TGI v3 — новая версия архитектуры для обработки естественного языка, разработанная Hugging Face. TGI v3 демонстрирует значительный прирост производительности, особенно при работе с длинными запросами.

Улучшения v3:

🟢оптимизированные ядра;
🟢эффективная структура кэширования префиксов;
🟢улучшенное управление вычислительными ресурсами.

Flashinfer и flashdecoding — новые ядра быстрой обработки текста. Оптимизированная структура кэширования позволяет быстро находить совпадения даже для очень длинных запросов.

TGI v3 оценивалась в реалистичных сценариях на коротких и длинные запросах. Результаты тестов показали, что TGI v3 обрабатывает в 3 раза больше токенов, чем vLLM, а скорость обработки увеличилась в 13 раз для запросов длиной 200K+ токенов.

Хотя результаты работы TGI v3 впечатляют, следует учитывать некоторые ограничения:

⚠️ Если в среде не хватает места в kv-кэше, это может привести к конфликту. Чтобы избежать этого эффекта, следует установить ограничение --max-total-tokens.

⚠️ В сценариях, где несколько реплик находятся за одним эндпоинтом рекомендуется использовать балансировку нагрузки на зависимые сеансы, чтобы заставить каждого пользователя отправлять свои запросы на одну и ту же реплику.

🔜 Полная статья с описанием TGI v3 доступна на HF.


🖥 GIthub


@ai_machinelearning_big_data

#AI #ML #LLM #HuggingFace #TGI

BY Машинное обучение RU






Share with your friend now:
tgoop.com/machinelearning_ru/2262

View MORE
Open in Telegram


Telegram News

Date: |

In the next window, choose the type of your channel. If you want your channel to be public, you need to develop a link for it. In the screenshot below, it’s ”/catmarketing.” If your selected link is unavailable, you’ll need to suggest another option. Telegram iOS app: In the “Chats” tab, click the new message icon in the right upper corner. Select “New Channel.” The SUCK Channel on Telegram, with a message saying some content has been removed by the police. Photo: Telegram screenshot. Done! Now you’re the proud owner of a Telegram channel. The next step is to set up and customize your channel. To edit your name or bio, click the Menu icon and select “Manage Channel.”
from us


Telegram Машинное обучение RU
FROM American