tgoop.com/data_analysis_ml/3596
Create:
Last Update:
Last Update:
👾 SGLang — промышленный фреймворк для быстрого обслуживания LLM. Проект предлагает готовое решение для быстрого разворачивания модели в продакшене — от оптимизированного рантайма до удобного API. Проект уже используют в NVIDIA, Google Cloud и LinkedIn для обработки триллионов токенов ежедневно на парках из 100k+ GPU. Установка — pip install sglang,
а для масштабирования есть туториалы по tensor parallelism.
Ключевая фишка — RadixAttention: система кеширования префиксов, сокращающая время генерации. Поддерживает все популярные модели и фичи вроде speculative decoding или квантования INT4. Для разработчиков есть Python-интерфейс с контролем потока и мультимодальным вводом.
🤖 GitHub
@data_analysis_ml
BY Анализ данных (Data analysis)

Share with your friend now:
tgoop.com/data_analysis_ml/3596