Telegram Web
В этот раз уже не спикер, но ведущий. Приходите посмотреть топовые доклады в летний кинотеатр, пока лето не кончилось ;)
Forwarded from DevRel Playbook
Привет! Проверим, что нового в ML?

27 августа в 19:00 подтягиваемся в Парк Горького на площадку «Сфера X5»!

X5 Tech | AI всегда в курсе передовых технологий, и ICML 2025 в Ванкувере не стала исключением. Там представили работы лучших специалистов в области машинного обучения.
Мы собрали экспертов, чтобы разобраться, что из этого реально круто и как это можно использовать в бизнесе.

Ведущие:

Артём Ерохин, ведущий инженер нейронных сетей в X5 Tech | AI
Дарья Андреева, старший инженер нейронных сетей в X5 Tech | AI

Эксперты:

🖤 Максим Павлов, руководитель управления продуктивизации ИИ в X5 Tech | AI

🎓 Петр Лукьянченко, Head of AI in Mathematical Finance Laboratory, HSE

🏦 Даниил Гаврилов, руководитель Research-команды AI-Центра Т-Банка

❤️ Александра Мурзина, руководитель AI-проектов в AI Marvel, Яндекс

Что будем делать:

🍿
Есть попкорн - обсуждать доклады

🎧Слушать умных людей и задавать умные вопросы, используя свой неискусственный интеллект

🪩Общаться и шутить с реальными людьми


Регистрироваться тут!
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1🤣1
Forwarded from Data Secrets
Очень понравилась свежая статья "Be like a Goldfish, Don't Memorize!": исследователи из университета Мэриленда предлагают аналог дропаута для токенов

Проблема рассматривается следующая. LLM часто запоминают части тренировочного датасета и могут воспроизводить их дословно. И это приводит к ряду очень неприятных последствий: сюда все иски за авторские права, утечки конфиденциальных данных и лицензированного кода и прочее.

В общем, загвоздка достаточно значимая, и решать ее пытаются в основном через unlearning после обучения или Differential Privacy. И то и другое приводит к понижению точности и в целом не очень надежно работает.

Здесь авторы предлагают более фундаментальный подход. Интуиция: модель не сможет воспроизвести дословно последовательность, если часть токенов никогда не участвовала в вычислении ошибки.

А значит, мы можем случайным образом исключать часть токенов из лосс-функции на обратном проходе. Это и не очень сильно портит метрики, потому что общие закономерности языка модель все-равно выучивает, и на 100% исключает возможность дословного повторения текстов.

Формально процесс обучения остается ровно таким же, меняется только лосс. В него добавляется коэффициент G_i, который равен единице, если токен учитывается в бэкпропе, и нулю – если нет. Формулу шутливо назвали Goldfish Loss: по аналогии с рыбкой, которая тут же забывает то, что увидела секунду назад.

В итоге если при стандартном лоссе процент точных повторений выученных текстов – примерно 85%, то на Goldfish Loss – 0. И по качеству просаживается не сильно, нужно просто либо чуть больше данных, либо чуть больше шагов. Плюс, применять на всем датасете не обязательно, можно использовать только для чувствительных данных.

Изящно, скажите?

arxiv.org/pdf/2406.10209
❤‍🔥4🔥3
#cinema

Сходили в пятницу на "Exit 8" в кино посмотреть (смотрели с субтитрами на японском).

Мне понравилось. Но тут, конечно, на любителя. Как триллер (и даже скорее хоррор) работает неплохо. Но внутри есть дополнительные смыслы (впрочем, весьма явные, хотя есть и немного более глубокие, но тут может просто СПГС взыграл у меня), которые могут показаться не к месту.

Вайб фильма (и элементы сюжета) напомнили "1408" (который мне как раз очень нравится). Ну и отсылка к Кубрику клевая (впрочем, может еще один СПГС).

А еще интересно вместе с героями "искать отличия" (сорян, небольшой спойлер, но понять сложновато без контекста).

Если подводить итог - то это не absolute cinema, но и не совсем скука. Я бы оценил на 7.5/10, но как я сказал, есть моменты "на любителя".

P.S. На фото топовый персонаж фильма. Такого в метро увидишь - уйдешь с дополнительным кирпичом в штанах.
🔥3
По тому, что там написано на слайдах, выглядит, что просто сценарий скармивали LLM-ке с каким-то не особо сложным промтом поверх. Вот примерно такие же комментарии дают LLM, если не особо заморачиваясь с промптом давать им почитать что-то из рассказов или сценариев (проверено на себе).

Ну ок, ИИ засчитан (наверное)...
Forwarded from Не Скорсезе
Кион сделал ИИ-модель оценки («скоринга», как они говорят) сценариев, которые приходят в компанию. Говорят, раньше приходило 500 сценариев в год, каждый надо было читать 10 часов, в итоге, выходило 16 сериалов и 5 фильмов.

В картинках: как они к этому подошли + какие рекомендации выдала их модель по реально вышедшим популярным проектам разных платформ (красным – отказать, зеленым – дать добро).

#новыйсезон2025
👎1👀1
Представьте: вы на собеседовании в Perplexity на роль ML-инженера, и интервьюер задаёт вопрос:

«Ваша RAG-система начала "галлюцинировать" в продакшене. Как вы проверите, что сломалось — retriever или generator?»


Многие кандидаты наверное скажут: «проверить точность» или «запустить больше тестов». Возможно, так и получится найти проблему, но можно пойти чуть иначе.

RAG-системы дают сбой на разных этапах, и для каждого нужны свои метрики. Общая «точность» часто не отвечает на самый важный вопрос — "А где же именно кроется ошибка?"

Ключевая идея:
Качество RAG = Производительность Retriever'а × Производительность Generator'а

Метрики Retrieval (Достали ли мы правильный контекст?)
- Contextual Relevancy: Какой процент полученных чанков действительно релевантен?
- Contextual Recall: Достали ли мы всю необходимую информацию?
- Contextual Precision: Ранжируются ли релевантные чанки выше нерелевантных?

Метрики Generation (Правильно ли LLM использовала контекст?)
- Faithfulness: Насколько вывод соответствует предоставленным фактам?
- Answer Relevancy: Отвечает ли ответ на заданный вопрос?
- Кастомные метрики: Следует ли ответ нужному формату или стилю?

Диагностическая структура:
1️⃣ Высокий Faithfulness + Низкий Relevancy → Проблема в Retrieval
2️⃣ Низкий Faithfulness + Высокий Relevancy → Проблема в Generation
3️⃣ Обе метрики низкие → Сломан весь пайплайн
4️⃣ Обе метрики высокие → Ищите edge-кейсы

Метрика, которая ловит большинство продакшен-проблем: Contextual Recall.
Ваш retriever может находить «релевантный» контент, но упускать критически важные детали. Идеальная точность при нулевой полноте = уверенные, но неправильные ответы. Именно поэтому RAG-системы так уверенно «галлюцинируют».

Но интервьюер может продолжить вас спрашивать:
«У вашего RAG'а точность 85%. А какой accuracy у контекста? Каков score достоверности? Вы меряете end-to-end или на уровне компонентов?»

Если ваши метрики расплывчаты, интервьюер скорее всего решит, что вы не понимаете, как работают RAG-системы в продакшене.

Подход к оценке, который отличает джунов от сеньоров:

Джун: Тестирует всё end-to-end и надеется, что сработает.
Сеньор: Внедряет метрики на уровне компонентов, автоматизированную оценку в CI/CD и мониторинг в продакшене.

Суровая реальность продакшена:
Идеальный retrieval + слабые промты = галлюцинации
Идеальная LLM + плохие чанки = нерелевантные ответы
Хороший retrieval + хорошая генерация + отсутствие мониторинга = неминуемый провал

Совет:
Упомяните оценку по методу LLM-as-a-judge.
«Я бы использовал GPT-4 для оценки faithfulness, сравнивая сгенерированные ответы с полученным контекстом, а затем отслеживал распределение скоров over time, чтобы поймать дрейф.»

Это покажет, что вы в курсе современных методов оценки.

Вопрос, который завершает интервью:
«Как бы вы реализовали такую оценку в продакшене?»


Возможный ответ:
- Автоматизированные оценки компонентов в CI/CD
- Мониторинг в реальном времени с оповещениями
- Асинхронная батч-оценка продакшен-трафика

Понимание причин сбоев RAG > заучивание архитектур трансформеров.
Please open Telegram to view this post
VIEW IN TELEGRAM
5👎4👍1
#conference

Вчера налутал книжек на AI RnD дне Сберовском. Каждая книжка за лучший вопрос из зала (видимо, я умею задавать хорошие вопросы).

Вообще я считаю хороший вопрос уважением к спикеру. Если тебе интересен доклад, то интересный вопрос проявляет внимание к теме доклада и показывает, что ты не просто слышишь, но слушаешь. Ну и всегда хочется что-то из деталей выяснить у рассказчика, это я люблю.

Конечно, всегда есть кулуары. Но не всегда получается поймать спикера, да и не всегда есть время, ибо графики мероприятий обычно весьма плотненькие.

А завтра можно будет позадавать вопросы уже мне и коллегам на AI Conf. Если будете не ней - забегайте на наши доклады и секцию копайлотов в разработке.
❤‍🔥8
Forwarded from Клуб CDO (PostoplanBot)
Коллеги из Evidently AI собрали впечатляющий ресурс: “ML and LLM system design — 650 case studies”. Это структурированная база реальных кейсов от 100+ компаний о том, как применяют ML и LLM в продакшене: какие метрики используют, как проектируют системы, оценивают качество и безопасность, и запускают в масштаб. Удобно фильтровать по индустриям и типам задач (рекомендательные системы, поиск/ранжирование, fraud‑детекция, CV, NLP, Generative AI, RAG и др.).

https://www.evidentlyai.com/ml-system-design
👀6
2025/12/11 22:25:38
Back to Top
HTML Embed Code: