INSIDE_AI_TECH Telegram 56
Как оценивать качество ответов LLM: подходы и практики

Когда мы запускаем модель в прод, важно понимать, насколько хорошо она отвечает, где ошибается и как улучшить её работу.

Существует несколько подходов к оценке качества ответов модели:

1. Ручная экспертная оценка.
Ответы проверяют эксперты (либо доменные специалисты, либо команда QA) на тестовом датасете запросов. Высокая человеческая точность, можно учитывать контекст задачи. Но дорого, медленно и плохо масштабируется.

2. LLM-as-a-Judge
Оценку ответа делает та же или другая LLM. Быстрый и масштабируемый подход. Но возможны систематические смещения (bias), нужно выборочно валидировать результаты вручную. Примеры фреймворков: RAGAS, Deepeval.

3. Автоматические метрики
Метод сравнения ответа модели с эталонным («ground truth») с помощью алгоритмов. Быстро, объективно, но не отражает «человеческое» восприятие, нужны размеченные датасеты. Примеры метрик: BLEU, ROUGE.

4. Оценка в боевых условиях
Сбор метрик после запуска в продукт. Реальные данные, отражает влияние на бизнес. Но сложно изолировать влияние LLM от других факторов. Метрики: доля исправленных или повторных запросов, CTR и конверсия (если LLM влияет на UX), пользовательские рейтинги (лайк/дизлайк).

Мы рекомендуем комбинировать оценки и использовать следующий пайплайн:

1) Получить обратную связь пользователей в продакшне
Собираем репрезентативный набор запросов: частые кейсы, критические кейсы, граничные условия.

2) Отправить выборку на LLM-as-a-Judge.
Прогоняем тестовый набор и сохраняем все ответы с метаданными. Используем готовые метрики DeepEval и кастомные для оценки каждого ответа. Храним результаты запусков в Langfuse.

3) Отдать на оценку экспертам подозрительные кейсы.
Они подтвердят или скорректируют оценку, найдут случаи, где модель системно ошибается.

4) Проанализировать ошибки и итеративно улучшать модель
Выделяем группы возможных проблем. С начала исправляем критические и массовые ошибки. Затем повторяем запуск на том же датасете для сравнения с прошлой версией.

#александр_опрышко #llm
🔥10👍62



tgoop.com/inside_ai_tech/56
Create:
Last Update:

Как оценивать качество ответов LLM: подходы и практики

Когда мы запускаем модель в прод, важно понимать, насколько хорошо она отвечает, где ошибается и как улучшить её работу.

Существует несколько подходов к оценке качества ответов модели:

1. Ручная экспертная оценка.
Ответы проверяют эксперты (либо доменные специалисты, либо команда QA) на тестовом датасете запросов. Высокая человеческая точность, можно учитывать контекст задачи. Но дорого, медленно и плохо масштабируется.

2. LLM-as-a-Judge
Оценку ответа делает та же или другая LLM. Быстрый и масштабируемый подход. Но возможны систематические смещения (bias), нужно выборочно валидировать результаты вручную. Примеры фреймворков: RAGAS, Deepeval.

3. Автоматические метрики
Метод сравнения ответа модели с эталонным («ground truth») с помощью алгоритмов. Быстро, объективно, но не отражает «человеческое» восприятие, нужны размеченные датасеты. Примеры метрик: BLEU, ROUGE.

4. Оценка в боевых условиях
Сбор метрик после запуска в продукт. Реальные данные, отражает влияние на бизнес. Но сложно изолировать влияние LLM от других факторов. Метрики: доля исправленных или повторных запросов, CTR и конверсия (если LLM влияет на UX), пользовательские рейтинги (лайк/дизлайк).

Мы рекомендуем комбинировать оценки и использовать следующий пайплайн:

1) Получить обратную связь пользователей в продакшне
Собираем репрезентативный набор запросов: частые кейсы, критические кейсы, граничные условия.

2) Отправить выборку на LLM-as-a-Judge.
Прогоняем тестовый набор и сохраняем все ответы с метаданными. Используем готовые метрики DeepEval и кастомные для оценки каждого ответа. Храним результаты запусков в Langfuse.

3) Отдать на оценку экспертам подозрительные кейсы.
Они подтвердят или скорректируют оценку, найдут случаи, где модель системно ошибается.

4) Проанализировать ошибки и итеративно улучшать модель
Выделяем группы возможных проблем. С начала исправляем критические и массовые ошибки. Затем повторяем запуск на том же датасете для сравнения с прошлой версией.

#александр_опрышко #llm

BY Внутри AI | Кейсы ИИ Агентов в бизнесе


Share with your friend now:
tgoop.com/inside_ai_tech/56

View MORE
Open in Telegram


Telegram News

Date: |

It’s easy to create a Telegram channel via desktop app or mobile app (for Android and iOS): Channel login must contain 5-32 characters SUCK Channel Telegram Deputy District Judge Peter Hui sentenced computer technician Ng Man-ho on Thursday, a month after the 27-year-old, who ran a Telegram group called SUCK Channel, was found guilty of seven charges of conspiring to incite others to commit illegal acts during the 2019 extradition bill protests and subsequent months. Hui said the time period and nature of some offences “overlapped” and thus their prison terms could be served concurrently. The judge ordered Ng to be jailed for a total of six years and six months.
from us


Telegram Внутри AI | Кейсы ИИ Агентов в бизнесе
FROM American