LLM под капотом@llm_under

LLM под капотом

Результаты опроса про внедрение Schema-Guided Reasoning в компаниях

Всего был заполнен 21 опросник (ссылка). Вот самые частые вопросы:

(1) Как повысить стабильность и точность динамического роутинга интентов в разговорных графах с помощью SGR?
(2) Как надежно извлекать структурированные данные из больших и сложных PDF-файлов на локальных или open-source моделях?
(3) Как оценивать качество текстовых ответов, сгенерированных при помощи SGR, особенно если результат субъективен или носит описательный характер?
(4) В чём практическая разница, преимущества и недостатки подходов Structured Output vs Tool Calling?
(5) Какие подходы позволяют управлять и валидировать мультиязычные реализации SGR-схем?
(6) Как упростить сложные SGR-схемы, чтобы снизить задержку ответа в real-time агентах?
(7) Какие методологии и практики существуют для интеграции и тестирования решений на основе SGR в текущие рабочие процессы компаний?

Сразу скажу, что точных ответов на большую часть вопросов - у меня вот прямо сейчас нет - тема новая, а мы только начинаем нащупывать работающие подходы (пара мыслей есть - их озвучим).

Но это не значит, что ответы нельзя будет найти всем вместе, замерить, систематизировать и задокументировать.

Идея такая. Все же помнят, как в истории про спасение проекта мы разделили команды на две противоборствующие силы - Eval vs SGR? Это важно. т.к. разрабатывать что-то и одновременно контроллировать качество - сложно. Вот и сейчас, многие пилят агентные решения на базе SGR (особенно - SGR Deep Research вокруг @neuraldeep), а вот дотошно бенчмаркать и сравнивать обычно не хватает времени или ground truth.

В ближайшие дни я возвращаюсь к работе над инфраструктурой Enterprise RAG Challenge v3. И вот в нее я хочу встроить бенчмарки/evals/стратегические карты ошибок, которые позволят любому написать своего агента и протестировать его способности, сравнив с другими. Вот тут и можно будет сравнить Function Calls vs Structured Output, разные маленькие локальные модели или просто скорость ответов разных архитектур.

API будет доступна публично по мере готовности, а после соревнования - весь код будет выложен в OpenSource. Статистика и отчеты тоже публичные, как и всегда в ERC.

Ну что, поищем ответы на эти вопросы вместе?

Ваш, @llm_under_hood 🤗

👍49🔥34❤15🤝7

www.tgoop.com/llm_under_hood/662

11.7K viewsedited Sep 19 at 08:40

tgoop.com/llm_under_hood/662

Create: 2025-09-19
Last Update: 2025-10-09 07:23:33

BY LLM под капотом

Share with your friend now:
tgoop.com/llm_under_hood/662

Telegram News

Результаты опроса про внедрение Schema-Guided Reasoning в компаниях