Telegram Web
Forwarded from Не Скорсезе
Кион сделал ИИ-модель оценки («скоринга», как они говорят) сценариев, которые приходят в компанию. Говорят, раньше приходило 500 сценариев в год, каждый надо было читать 10 часов, в итоге, выходило 16 сериалов и 5 фильмов.

В картинках: как они к этому подошли + какие рекомендации выдала их модель по реально вышедшим популярным проектам разных платформ (красным – отказать, зеленым – дать добро).

#новыйсезон2025
👎1👀1
Представьте: вы на собеседовании в Perplexity на роль ML-инженера, и интервьюер задаёт вопрос:

«Ваша RAG-система начала "галлюцинировать" в продакшене. Как вы проверите, что сломалось — retriever или generator?»


Многие кандидаты наверное скажут: «проверить точность» или «запустить больше тестов». Возможно, так и получится найти проблему, но можно пойти чуть иначе.

RAG-системы дают сбой на разных этапах, и для каждого нужны свои метрики. Общая «точность» часто не отвечает на самый важный вопрос — "А где же именно кроется ошибка?"

Ключевая идея:
Качество RAG = Производительность Retriever'а × Производительность Generator'а

Метрики Retrieval (Достали ли мы правильный контекст?)
- Contextual Relevancy: Какой процент полученных чанков действительно релевантен?
- Contextual Recall: Достали ли мы всю необходимую информацию?
- Contextual Precision: Ранжируются ли релевантные чанки выше нерелевантных?

Метрики Generation (Правильно ли LLM использовала контекст?)
- Faithfulness: Насколько вывод соответствует предоставленным фактам?
- Answer Relevancy: Отвечает ли ответ на заданный вопрос?
- Кастомные метрики: Следует ли ответ нужному формату или стилю?

Диагностическая структура:
1️⃣ Высокий Faithfulness + Низкий Relevancy → Проблема в Retrieval
2️⃣ Низкий Faithfulness + Высокий Relevancy → Проблема в Generation
3️⃣ Обе метрики низкие → Сломан весь пайплайн
4️⃣ Обе метрики высокие → Ищите edge-кейсы

Метрика, которая ловит большинство продакшен-проблем: Contextual Recall.
Ваш retriever может находить «релевантный» контент, но упускать критически важные детали. Идеальная точность при нулевой полноте = уверенные, но неправильные ответы. Именно поэтому RAG-системы так уверенно «галлюцинируют».

Но интервьюер может продолжить вас спрашивать:
«У вашего RAG'а точность 85%. А какой accuracy у контекста? Каков score достоверности? Вы меряете end-to-end или на уровне компонентов?»

Если ваши метрики расплывчаты, интервьюер скорее всего решит, что вы не понимаете, как работают RAG-системы в продакшене.

Подход к оценке, который отличает джунов от сеньоров:

Джун: Тестирует всё end-to-end и надеется, что сработает.
Сеньор: Внедряет метрики на уровне компонентов, автоматизированную оценку в CI/CD и мониторинг в продакшене.

Суровая реальность продакшена:
Идеальный retrieval + слабые промты = галлюцинации
Идеальная LLM + плохие чанки = нерелевантные ответы
Хороший retrieval + хорошая генерация + отсутствие мониторинга = неминуемый провал

Совет:
Упомяните оценку по методу LLM-as-a-judge.
«Я бы использовал GPT-4 для оценки faithfulness, сравнивая сгенерированные ответы с полученным контекстом, а затем отслеживал распределение скоров over time, чтобы поймать дрейф.»

Это покажет, что вы в курсе современных методов оценки.

Вопрос, который завершает интервью:
«Как бы вы реализовали такую оценку в продакшене?»


Возможный ответ:
- Автоматизированные оценки компонентов в CI/CD
- Мониторинг в реальном времени с оповещениями
- Асинхронная батч-оценка продакшен-трафика

Понимание причин сбоев RAG > заучивание архитектур трансформеров.
Please open Telegram to view this post
VIEW IN TELEGRAM
6👎4👍1
#conference

Вчера налутал книжек на AI RnD дне Сберовском. Каждая книжка за лучший вопрос из зала (видимо, я умею задавать хорошие вопросы).

Вообще я считаю хороший вопрос уважением к спикеру. Если тебе интересен доклад, то интересный вопрос проявляет внимание к теме доклада и показывает, что ты не просто слышишь, но слушаешь. Ну и всегда хочется что-то из деталей выяснить у рассказчика, это я люблю.

Конечно, всегда есть кулуары. Но не всегда получается поймать спикера, да и не всегда есть время, ибо графики мероприятий обычно весьма плотненькие.

А завтра можно будет позадавать вопросы уже мне и коллегам на AI Conf. Если будете не ней - забегайте на наши доклады и секцию копайлотов в разработке.
❤‍🔥8
Forwarded from Клуб CDO (PostoplanBot)
Коллеги из Evidently AI собрали впечатляющий ресурс: “ML and LLM system design — 650 case studies”. Это структурированная база реальных кейсов от 100+ компаний о том, как применяют ML и LLM в продакшене: какие метрики используют, как проектируют системы, оценивают качество и безопасность, и запускают в масштаб. Удобно фильтровать по индустриям и типам задач (рекомендательные системы, поиск/ранжирование, fraud‑детекция, CV, NLP, Generative AI, RAG и др.).

https://www.evidentlyai.com/ml-system-design
👀6
#llm

Начал понемногу ковыряться с теорией по агентским системам и тому, как оно все работает. Потому периодически буду сюда вкидывать что-то из материалов.

Начнем с простого.

Какие есть типы агентов?

Простой рефлекторный агент.
Самый простой агент, который использует нынешнее состояние среды. Просто делают действие на основе раздражителя. У них нет памяти и модели мира, потому они удобны только в случае стабильной наблюдаемой среды.
Пример: Робот-пылесос, который поворачивается при ударе.

Рефлекторный агент на одном модели.
Такой агент хранит информацию о состоянии среды за период и основывает свои действия на сохраненной информации. И, по сути, строит очень-очень простую модель мира.
Пример: Робот-пылесос, который запоминает свой маршрут и окружение, потому может обходить часть препятствий.

Агент, ориентирующийся на цель.
Агент, который оценивает действия по тому, насколько они приближают к цели. Такой тип агентов обычно использует алгоритмы поиска или планирования, чтобы анализировать последовательности шагов и выбирать оптимальные, учитывая будущие последствия.
Пример: Навигационная система, рассчитывающая лучший маршрут.

Утилитарный агент.
Этот тип агентов выбирает действия так, чтобы максимизировать "полезность" — общую ценность исхода по заданной функции. Он оценивает варианты, прогнозирует последствия и учитывает компромиссы, а не просто достигает цели. Фактически, похож на агента с ориентацией на цель, но тут разница в методах достижения. Если одному важно лишь достигнуть цель, то второму еще важно учесть и затраты на ее достижение.
Пример: Чат-бот для продаж, приоритизирующий лиды по вероятности конверсии.

Обючающийся агент.
Это агент, который учится на обратной связи из окружащей среды. Он состит из 4 элеметов: модуль действия, модуль обучения (который как раз корректирует действия), модуль-критик (для оценок) и генератор новых действий (в оригинале это "генератор проблем", но смысл в том, чтобы придумывать новые действия для оценки как раз).
Пример: Внезапно, рексис движок (впрочем, это если у него есть оценщик, он дообучается на наших данных и прикручена часть с эксплорейшеном, тогда все будет подходить).

Мультиагентная система.
Система из нескольких взаимодействующих агентов, которые сотрудничают или конкурируют для достижения цели. Каждый агент независим, и имеет собственные возможности и инструменты. Агенты общаются напрямую или через изменения в среде, решая задачи, слишком сложные для одного агента.
Пример: Набор агентов для написания и редактирования кода. Один ищет уязвимости, второй пишет код, третий делает ревью и пишет описание PR (но можно выдумать еще варианты).
👨‍💻3👍1
#advice

Хозяйке на заметку — не просить LLM отформатировать в корректный LaTeX твой список ссылок по твоим материалам, иначе есть риск того, что она реальную статью в источниках переделает во что-то похожее, но бредовое (автора поменяет, название подкрутит и все такое).

Ну, тут только классика подходит: "И опыт, сын ошибок трудных". В следующий раз буду сам список руками вносить (правда, это не значит, что я сам не накосячу точно так же, мое внимание обычно на это не срабатывает, я и сам могу не то имя поставить в статье).

Ну или просто копипастить LaTeX куски с сайтов со статьями, чтобы не было косяков.

P.S. Я давно LaTeX не крутил, заржавели навыки. Ну и дико лень самому было все красиво выписывать...
4
2025/10/09 03:28:45
Back to Top
HTML Embed Code: