LLM_UNDER_HOOD Telegram 662
Результаты опроса про внедрение Schema-Guided Reasoning в компаниях

Всего был заполнен 21 опросник (ссылка). Вот самые частые вопросы:

(1) Как повысить стабильность и точность динамического роутинга интентов в разговорных графах с помощью SGR?
(2) Как надежно извлекать структурированные данные из больших и сложных PDF-файлов на локальных или open-source моделях?
(3) Как оценивать качество текстовых ответов, сгенерированных при помощи SGR, особенно если результат субъективен или носит описательный характер?
(4) В чём практическая разница, преимущества и недостатки подходов Structured Output vs Tool Calling?
(5) Какие подходы позволяют управлять и валидировать мультиязычные реализации SGR-схем?
(6) Как упростить сложные SGR-схемы, чтобы снизить задержку ответа в real-time агентах?
(7) Какие методологии и практики существуют для интеграции и тестирования решений на основе SGR в текущие рабочие процессы компаний?

Сразу скажу, что точных ответов на большую часть вопросов - у меня вот прямо сейчас нет - тема новая, а мы только начинаем нащупывать работающие подходы (пара мыслей есть - их озвучим).

Но это не значит, что ответы нельзя будет найти всем вместе, замерить, систематизировать и задокументировать.

Идея такая. Все же помнят, как в истории про спасение проекта мы разделили команды на две противоборствующие силы - Eval vs SGR? Это важно. т.к. разрабатывать что-то и одновременно контроллировать качество - сложно. Вот и сейчас, многие пилят агентные решения на базе SGR (особенно - SGR Deep Research вокруг @neuraldeep), а вот дотошно бенчмаркать и сравнивать обычно не хватает времени или ground truth.

В ближайшие дни я возвращаюсь к работе над инфраструктурой Enterprise RAG Challenge v3. И вот в нее я хочу встроить бенчмарки/evals/стратегические карты ошибок, которые позволят любому написать своего агента и протестировать его способности, сравнив с другими. Вот тут и можно будет сравнить Function Calls vs Structured Output, разные маленькие локальные модели или просто скорость ответов разных архитектур.

API будет доступна публично по мере готовности, а после соревнования - весь код будет выложен в OpenSource. Статистика и отчеты тоже публичные, как и всегда в ERC.

Ну что, поищем ответы на эти вопросы вместе?

Ваш, @llm_under_hood 🤗
👍49🔥3415🤝7



tgoop.com/llm_under_hood/662
Create:
Last Update:

Результаты опроса про внедрение Schema-Guided Reasoning в компаниях

Всего был заполнен 21 опросник (ссылка). Вот самые частые вопросы:

(1) Как повысить стабильность и точность динамического роутинга интентов в разговорных графах с помощью SGR?
(2) Как надежно извлекать структурированные данные из больших и сложных PDF-файлов на локальных или open-source моделях?
(3) Как оценивать качество текстовых ответов, сгенерированных при помощи SGR, особенно если результат субъективен или носит описательный характер?
(4) В чём практическая разница, преимущества и недостатки подходов Structured Output vs Tool Calling?
(5) Какие подходы позволяют управлять и валидировать мультиязычные реализации SGR-схем?
(6) Как упростить сложные SGR-схемы, чтобы снизить задержку ответа в real-time агентах?
(7) Какие методологии и практики существуют для интеграции и тестирования решений на основе SGR в текущие рабочие процессы компаний?

Сразу скажу, что точных ответов на большую часть вопросов - у меня вот прямо сейчас нет - тема новая, а мы только начинаем нащупывать работающие подходы (пара мыслей есть - их озвучим).

Но это не значит, что ответы нельзя будет найти всем вместе, замерить, систематизировать и задокументировать.

Идея такая. Все же помнят, как в истории про спасение проекта мы разделили команды на две противоборствующие силы - Eval vs SGR? Это важно. т.к. разрабатывать что-то и одновременно контроллировать качество - сложно. Вот и сейчас, многие пилят агентные решения на базе SGR (особенно - SGR Deep Research вокруг @neuraldeep), а вот дотошно бенчмаркать и сравнивать обычно не хватает времени или ground truth.

В ближайшие дни я возвращаюсь к работе над инфраструктурой Enterprise RAG Challenge v3. И вот в нее я хочу встроить бенчмарки/evals/стратегические карты ошибок, которые позволят любому написать своего агента и протестировать его способности, сравнив с другими. Вот тут и можно будет сравнить Function Calls vs Structured Output, разные маленькие локальные модели или просто скорость ответов разных архитектур.

API будет доступна публично по мере готовности, а после соревнования - весь код будет выложен в OpenSource. Статистика и отчеты тоже публичные, как и всегда в ERC.

Ну что, поищем ответы на эти вопросы вместе?

Ваш, @llm_under_hood 🤗

BY LLM под капотом




Share with your friend now:
tgoop.com/llm_under_hood/662

View MORE
Open in Telegram


Telegram News

Date: |

To edit your name or bio, click the Menu icon and select “Manage Channel.” Add the logo from your device. Adjust the visible area of your image. Congratulations! Now your Telegram channel has a face Click “Save”.! The group also hosted discussions on committing arson, Judge Hui said, including setting roadblocks on fire, hurling petrol bombs at police stations and teaching people to make such weapons. The conversation linked to arson went on for two to three months, Hui said. Over 33,000 people sent out over 1,000 doxxing messages in the group. Although the administrators tried to delete all of the messages, the posting speed was far too much for them to keep up. Administrators
from us


Telegram LLM под капотом
FROM American