Neural Kovalskii@neuraldeep P.1373

Structured Output = Stream?

Все знаю что если использовать API к LLM например openai библиотеку при разработке LLM приложений можно использовать SSE стриминг выставим флаг stream=True и ловить ответ по чанкам тогда можно передавать ответ пользователю в реальном времени как печатная машинка

Но если мы используем SO (structured output) то возможность получить в реальном времени чанки для отображения пропадает

Есть решение использовать extra body и передать туда схему в метод client.chat.completions.create на vLLM можно наблюдать стриминг схемы в реальном времени

    # Extra body parameters with schema
    extra_body = {
        "repetition_penalty": 1,
        "guided_json": json.dumps(DOCUMENT_SCHEMA),
        "guided_decoding_backend": "xgrammar"
    }

На мой взгляд для UI опыта можно сделать что-то интересное на базе CoT+SO (доставать рассуждения сразу и показывать пользователю например)
Как пример выводить у не рассуждающей модели поле reasoning демонстрируя рассуждения по заданному шаблону

🔥21👍84

www.tgoop.com/neuraldeep/1373

1.76K viewsedited Apr 6 at 12:26

tgoop.com/neuraldeep/1373

Create: 2025-04-06
Last Update: 2025-10-16 10:24:43

    # Extra body parameters with schema
    extra_body = {
        "repetition_penalty": 1,
        "guided_json": json.dumps(DOCUMENT_SCHEMA),
        "guided_decoding_backend": "xgrammar"
    }

BY Neural Kovalskii

Share with your friend now:
tgoop.com/neuraldeep/1373

Telegram News

Structured Output = Stream?