tgoop.com/neuraldeep/1373
Create:
Last Update:
Last Update:
Structured Output = Stream?
Все знаю что если использовать API к LLM например openai библиотеку
При разработке LLM приложений можно использовать SSE стриминг выставим флаг stream=True
и ловить ответ по чанкам тогда можно передавать ответ пользователю в реальном времени как печатная машинка
Но если мы используем SO (structured output) то возможность получить в реальном времени чанки для отображения пропадает
Есть решение использовать extra body и передать туда схему в метод client.chat.completions.create
на vLLM можно наблюдать стриминг схемы в реальном времени
# Extra body parameters with schema
extra_body = {
"repetition_penalty": 1,
"guided_json": json.dumps(DOCUMENT_SCHEMA),
"guided_decoding_backend": "xgrammar"
}
На мой взгляд для UI опыта можно сделать что-то интересное на базе CoT+SO (доставать рассуждения сразу и показывать пользователю например)
Как пример выводить у не рассуждающей модели поле reasoning демонстрируя рассуждения по заданному шаблону
BY Neural Deep
Share with your friend now:
tgoop.com/neuraldeep/1373