tgoop.com/PythonPortal/4526
Last Update:
Всё, что нужно для трассировки LLM-приложений это Python-декоратор (open-source).
Большинство метрик для LLM оценивают приложение как чёрный ящик от начала до конца.
Но LLM-приложения требуют оценки и трассировки на уровне компонентов, ведь ошибка может быть где угодно: в ретривере, вызове инструмента или самом LLM.
С помощью deepeval это делается всего в 3 строки кода:
– Используй декоратор @observe
, чтобы трассировать отдельные компоненты (инструменты, ретриверы, генераторы)
– Привязывай метрики к каждому из компонентов
– Получай визуальный разбор — что работает, а что ломается
И всё. Переписывать существующий код не нужно.
Пример есть выше для RAG-приложения.
Deepeval — полностью open-source, уже 8500+ звёзд на GitHub. Можно легко задеплоить у себя. Все данные останутся под твоим контролем.