tgoop.com/MTSWebServices/1825
Last Update:
Как создать платформу инференса LLM?
Кто-то ответит, что это просто. Достаточно взять модели с Hugging Face, использовать vLLM, и всё готово. Действительно, многие так начинают. Сложности появляются вместе со вторым vLLM-контейнером. Чем больше разрозненных сервисов, тем сложнее наладить их работу.
Скажем сразу, создание собственной платформы — это долгий и дорогостоящий процесс. Иногда проще и выгоднее вложиться в готовое решение. Например, MWS GPT имеет OpenAI‑совместимый API и SLA 99,95%, её можно адаптировать под ваши задачи.
Если же вы выбираете «простой» старт с vLLM и Hugging Face, будьте готовы создавать вспомогательную инфраструктуру с нуля. Вам предстоит добавить балансировщик (один или несколько), сделать кластеризацию моделей, наладить мониторинг на глубоком уровне… При этом любой бизнес требует минимизировать затраты.
Чтобы узнать больше, предлагаем вам посмотреть вебинар «Почему не стоит инвестировать 2 года в платформу инференса LLM?»
Спикеры — Павел Бабин, CPO MWS GPT, и Алсу Иовкова, менеджер продуктов MWS AI Services.
Запись доступна: