Какую метрику качества из перечисленных лучше использовать в задачах классификации с несбалансированными классами?
Anonymous Quiz
7%
Accuracy
6%
Precision
9%
Recall
78%
F1-score
Что означает термин "градиентный спуск"?
Anonymous Quiz
4%
Алгоритм для оценки точности модели
89%
Метод оптимизации функции потерь
5%
Процесс выбора гиперпараметров
2%
Механизм разбиения данных на кластеры
📌 Когда ИИ «слышит» не то: как Grok от Илона Маска обвинил звезду NBA в вандализме
Продолжаем публиковать кейсы провалов искусственного интеллекта — примеры, где технологии дали сбой даже в крупнейших проектах. Сегодня расскажем о Grok, чат-боте от xAI Илона Маска, который в 2024 году оказался в центре громкого скандала.
🏀 В апреле 2024 года Grok ложно обвинил Клэя Томпсона, известного баскетболиста, в том, что он якобы кидал кирпичи в окна домов в Сакраменто. На самом деле Томпсон «бросал кирпичи» — в переносном смысле. В баскетболе “Throwing bricks” означает грубые промахи по кольцу. В последней игре за Golden State Warriors он действительно провел один из худших матчей в карьере, что и породило волну таких комментариев в соцсетях.
Grok, «поглотив» эту информацию из постов на X (бывший Twitter), буквально интерпретировал сленг, превратив метафору в фейковое обвинение в уголовном преступлении.
🧠 Хотя у Grok есть дисклеймер «может ошибаться, перепроверяйте ответы», ситуация поднимает серьёзные вопросы:
🔵 Кто несёт ответственность за подобные ошибки?
🔵 Должен ли ИИ понимать контекст и культурные особенности языка?
🔵 Как защитить репутацию людей от ложных обвинений со стороны ИИ?
💬 Даже один неправильный вывод ИИ может привести к массовым последствиям — особенно если речь идёт о публичных людях.
Продолжаем публиковать кейсы провалов искусственного интеллекта — примеры, где технологии дали сбой даже в крупнейших проектах. Сегодня расскажем о Grok, чат-боте от xAI Илона Маска, который в 2024 году оказался в центре громкого скандала.
🏀 В апреле 2024 года Grok ложно обвинил Клэя Томпсона, известного баскетболиста, в том, что он якобы кидал кирпичи в окна домов в Сакраменто. На самом деле Томпсон «бросал кирпичи» — в переносном смысле. В баскетболе “Throwing bricks” означает грубые промахи по кольцу. В последней игре за Golden State Warriors он действительно провел один из худших матчей в карьере, что и породило волну таких комментариев в соцсетях.
Grok, «поглотив» эту информацию из постов на X (бывший Twitter), буквально интерпретировал сленг, превратив метафору в фейковое обвинение в уголовном преступлении.
🧠 Хотя у Grok есть дисклеймер «может ошибаться, перепроверяйте ответы», ситуация поднимает серьёзные вопросы:
💬 Даже один неправильный вывод ИИ может привести к массовым последствиям — особенно если речь идёт о публичных людях.
Please open Telegram to view this post
VIEW IN TELEGRAM
Netflix — лидер в мире стриминга, и его рекомендательная система сыграла огромную роль в этом успехе. В своем блоге компания поделилась опытом объединения нескольких отдельных моделей машинного обучения для поиска и рекомендаций в одну многозадачную модель, которая решает несколько проблем одновременно. 🧠
💡 Почему это важно? Традиционно системы рекомендаций создают отдельные модели для различных задач, например: рекомендации на основе пользователя (user-to-item), похожие товары (item-to-item), поиск (query-to-item), и категоризация (category-to-item). Но такой подход приводит к значительным затратам на управление и поддержку множества моделей. Netflix пошёл другим путём и объединил все эти модели в одну.
📊Как это работает?
• Снижение объёма кода и ресурсов: Меньше моделей означает меньше работы по поддержке.
• Быстрое внедрение изменений: Обновления и улучшения распространяются быстрее на всю систему.
• Упрощение масштабирования: Легче масштабировать единую модель, чем множество независимых моделей.
⚙️ Как обеспечивается производительность? Netflix использует специализированные среды для различных типов задач. Например, для обработки данных с высокой задержкой используется инфраструктура, оптимизирующая время отклика. Модели развернуты через гибкий API, что позволяет интегрировать их с различными сервисами и быстро адаптировать систему под разные условия.
🔄 Итог: Объединение ML моделей для рекомендаций контента в Netflix стало не только техническим улучшением, но и стратегическим шагом к оптимизации затрат и улучшению пользовательского опыта. Такой подход позволяет Netflix быстрее реагировать на изменения и задачи, сокращая сложности и затраты.
🔄 Вопрос к вам: Как вы думаете, можно ли применить этот подход в других отраслях для улучшения систем?
📚 Хотите разобраться, как работают рекомендательные системы? Мы подготовили демо-курс "ML в бизнесе" на платформе Stepik, который состоит из 6 лекций на тему рекомендательных систем. Присоединяйтесь и расширяйте свои знания!
Please open Telegram to view this post
VIEW IN TELEGRAM
Сегодня — квиз в нашем канале! ✨
Квиз поможет вам освежить знания и, возможно, узнать что-то новое.
Не упустите шанс проверить себя! 📚
Квиз поможет вам освежить знания и, возможно, узнать что-то новое.
Не упустите шанс проверить себя! 📚
Please open Telegram to view this post
VIEW IN TELEGRAM
Как вам идея создать изображение в стиле Studio Ghibli с помощью ChatGPT? Благодаря новому инструменту генерации изображений, всего за час ChatGPT смог привлечь 1 миллион новых пользователей! Об этом сообщил Сэм Альтман, CEO OpenAI. Для сравнения, при запуске ChatGPT потребовалось 5 дней, чтобы достичь этого показателя.🔥
Недавний тренд в соцсетях — имитация работ японской анимационной студии Ghibli с помощью ИИ — доказал, на что способен этот инструмент.
🎨 Голос Гибли: Миядзаки, соучредитель Studio Ghibli, выразил своё недовольство, назвав ИИ-генерацию искусством "оскорблением жизни". Для него искусство — это результат усилий и ручной работы, а не алгоритмов. "Если вам нравится создавать странные вещи — пожалуйста, но я бы никогда не использовал эту технологию в своём творчестве", — заявил он.
🚀 Тем не менее, технологии продолжают развиваться, и мы не можем не отметить, какой потенциал они открывают для творчества!
Как вам такие изображения, созданные ИИ? Прикрепляем фотографию наших экспертов в стиле Ghibli — а вы сможете угадать, кто на картинке?👀
Please open Telegram to view this post
VIEW IN TELEGRAM
🔍 Что такое регуляризация и зачем она нужна в моделях машинного обучения?
Регуляризация — это техника в машинном обучении, которая помогает предотвратить переобучение модели. Переобучение (или overfitting) происходит, когда модель слишком сильно подстраивается под тренировочные данные, включая случайные отклонения и шум. В результате модель становится слишком "специальной" для этих данных и плохо справляется с новыми, незнакомыми примерами. Регуляризация упрощает модель и помогает модели оставаться более общей и адаптируемой, улучшая её способность работать с новыми данными.
🤔 Как это работает?
Регуляризация вводит дополнительные ограничения в процесс обучения, которые уменьшают свободу модели, заставляя её быть более устойчивой и менее чувствительной к мелким изменениям в данных. Это достигается за счет добавления штрафа за слишком большие коэффициенты в модели.
Основные виды регуляризации:
🔵 L1 регуляризация (Lasso): Добавляет к функции потерь сумму абсолютных значений коэффициентов модели. Это способствует тому, что некоторые коэффициенты становятся равными нулю, что в итоге приводит к сжатию модели и выделению наиболее важных признаков.
🔵 L2 регуляризация (Ridge): Добавляет сумму квадратов коэффициентов к функции потерь. Это помогает уменьшить величину коэффициентов, не обнуляя их, что делает модель более гладкой и предотвращает излишнюю чувствительность.
🔵 Elastic Net: Это комбинация L1 и L2 регуляризаций, которая использует преимущества обоих методов и помогает при работе с сильно коррелированными признаками.
〰️ 〰️ 〰️ 〰️ 〰️ 〰️ 〰️ 〰️ 〰️ 〰️
👀 Спойлер: В пятницу стартует новая серия постов, где мы будем разбирать популярные вопросы с собеседований. В первом посте вопросы на тему регуляризации 🤫
Регуляризация — это техника в машинном обучении, которая помогает предотвратить переобучение модели. Переобучение (или overfitting) происходит, когда модель слишком сильно подстраивается под тренировочные данные, включая случайные отклонения и шум. В результате модель становится слишком "специальной" для этих данных и плохо справляется с новыми, незнакомыми примерами. Регуляризация упрощает модель и помогает модели оставаться более общей и адаптируемой, улучшая её способность работать с новыми данными.
🤔 Как это работает?
Регуляризация вводит дополнительные ограничения в процесс обучения, которые уменьшают свободу модели, заставляя её быть более устойчивой и менее чувствительной к мелким изменениям в данных. Это достигается за счет добавления штрафа за слишком большие коэффициенты в модели.
Основные виды регуляризации:
👀 Спойлер: В пятницу стартует новая серия постов, где мы будем разбирать популярные вопросы с собеседований. В первом посте вопросы на тему регуляризации 🤫
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Вопросы с собеседований
Собеседования по ML-теории, математической статистике, Python и Big Data проводятся на всех уровнях вакансий на ML позиции. Данный этап является ключевым для Junior специалистов.
🔎 Мы подготовили несколько вопросов, которые могут встретиться на интервью! Наши ответы на них мы опубликуем в отдельном посте в понедельник.
А сейчас ждём ваших ответов в комментариях!
📌 Вопросы:
1️⃣ Как можно бороться с переобучением? Назовите основные способы.
2️⃣ Чем L1-регуляризация отличается от L2-регуляризации? В каких случаях их применять?
#собеседование
Собеседования по ML-теории, математической статистике, Python и Big Data проводятся на всех уровнях вакансий на ML позиции. Данный этап является ключевым для Junior специалистов.
🔎 Мы подготовили несколько вопросов, которые могут встретиться на интервью! Наши ответы на них мы опубликуем в отдельном посте в понедельник.
А сейчас ждём ваших ответов в комментариях!
📌 Вопросы:
1️⃣ Как можно бороться с переобучением? Назовите основные способы.
2️⃣ Чем L1-регуляризация отличается от L2-регуляризации? В каких случаях их применять?
#собеседование
🔥 Ответы на вопросы с собеседований
1️⃣ Как можно бороться с переобучением? Назови основные способы.
2️⃣ Чем L1-регуляризация отличается от L2-регуляризации? В каких случаях их применять?
〰️ 〰️ 〰️ 〰️ 〰️ 〰️ 〰️ 〰️ 〰️ 〰️
Автор: Александр Дубейковский, специалист по ML, ex-Yandex
#собеседование
1️⃣ Как можно бороться с переобучением? Назови основные способы.
1) Для линейных моделей - L1 и L2.
2) Для деревьев - pre-/post-prunning.
3) Для knn - выбор кол-ва соседей, выбор функции расчёта расстояния.
4) Для всех моделей - различные уменьшения сложности модели, например через отбор признаков, уменьшение слоёв или нейронов в нейросетях / Data augmantation / Dropout / проведение кросс-валидации / Early stopping
2️⃣ Чем L1-регуляризация отличается от L2-регуляризации? В каких случаях их применять?
1) L1-регуляризация (Lasso) добавляет штраф пропорциональный абсолютным значениям весов модели. Может занулить веса у неинформативных признаков, потому применяется для их отбора.
2) L2-регуляризация (Ridge) добавляет штраф пропорциональный квадратам весов модели. Значимо уменьшает величину весов. Применяется, когда признаки коррелированы, и важно, чтобы модель учитывала их, но без сильного преувеличения их важности.
Автор: Александр Дубейковский, специалист по ML, ex-Yandex
#собеседование
Please open Telegram to view this post
VIEW IN TELEGRAM
Когда ты дата-сайентист в 2025 году... и тебе нужно успеть справиться с всем! 😅
Решили разбавить наш канал чем-то лёгким и забавным:) В комментариях делитесь своим мнением, что самое сложное в профессии, и как справляетесь с многозадачностью?
Также можете поделиться своим любимым мемом про DS/ML🙂
Решили разбавить наш канал чем-то лёгким и забавным:) В комментариях делитесь своим мнением, что самое сложное в профессии, и как справляетесь с многозадачностью?
Также можете поделиться своим любимым мемом про DS/ML
Please open Telegram to view this post
VIEW IN TELEGRAM
🔍 Как Duolingo с помощью ИИ меняет подход к обучению языкам
Duolingo, когда-то просто приложение для изучения языков, теперь превращается в настоящий ИИ-гигант, который меняет подходы к обучению благодаря внедрению машинного обучения и искусственного интеллекта.
📈 Как Duolingo применяет ИИ?
Space Repetition System: Первая ИИ-система Duolingo, которая помогает предсказать, сколько времени потребуется, чтобы запомнить слово, и автоматически подбирает задачи в зависимости от вашего прогресса.
BirdBrain: Эта система уже знает, когда вам стоит предложить более сложное задание или снизить сложность, даже до того, как вы начнёте его выполнять!
Smart Tips: В реальном времени ИИ анализирует ваши ошибки и предлагает персонализированные подсказки, чтобы помочь вам быстрее освоить материал.
Персонажи с AI-поддержкой для практики разговорного языка: В Duolingo недавно появилась новая функция, основанная на LLM. Пользователи могут общаться с персонажем в формате, напоминающем FaceTime. Этот инструмент позволяет проводить естественные диалоги, моделируя разговорную практику в комфортной обстановке, адаптированной к уровню знаний пользователя.
🧠 Но есть и другой, неожиданный момент... В 2024 году компания уволила 10% своих контрактных сотрудников, переместив фокус на использование ИИ для создания и распространения контента. Подобные шаги показывают, как сильно Duolingo ориентируется на технологии и оптимизацию процессов с помощью ИИ.
🚀 Интересно, как ИИ изменит обучение в других сферах? Поделитесь своим мнением в комментариях! 👇
Duolingo, когда-то просто приложение для изучения языков, теперь превращается в настоящий ИИ-гигант, который меняет подходы к обучению благодаря внедрению машинного обучения и искусственного интеллекта.
📈 Как Duolingo применяет ИИ?
Space Repetition System: Первая ИИ-система Duolingo, которая помогает предсказать, сколько времени потребуется, чтобы запомнить слово, и автоматически подбирает задачи в зависимости от вашего прогресса.
BirdBrain: Эта система уже знает, когда вам стоит предложить более сложное задание или снизить сложность, даже до того, как вы начнёте его выполнять!
Smart Tips: В реальном времени ИИ анализирует ваши ошибки и предлагает персонализированные подсказки, чтобы помочь вам быстрее освоить материал.
Персонажи с AI-поддержкой для практики разговорного языка: В Duolingo недавно появилась новая функция, основанная на LLM. Пользователи могут общаться с персонажем в формате, напоминающем FaceTime. Этот инструмент позволяет проводить естественные диалоги, моделируя разговорную практику в комфортной обстановке, адаптированной к уровню знаний пользователя.
🧠 Но есть и другой, неожиданный момент... В 2024 году компания уволила 10% своих контрактных сотрудников, переместив фокус на использование ИИ для создания и распространения контента. Подобные шаги показывают, как сильно Duolingo ориентируется на технологии и оптимизацию процессов с помощью ИИ.
🚀 Интересно, как ИИ изменит обучение в других сферах? Поделитесь своим мнением в комментариях! 👇
🤖 🔮 Как ИИ изменит мир к 2027 году?
Будущее искусственного интеллекта уже не кажется таким далеким, как мы думали. Искусственный интеллект спасет нас или приведет к нашему краху? Будет ли развитие ИИ спасением или угрозой? — Эти вопросы ставит перед собой новый отчет AI 2027, созданный исследовательским проектом AI Futures Project.
👤 Кто стоит за этим проектом?
Дэниэль Кокотайло, исполнительный директор AI Futures Project, бывший сотрудник OpenAI. Он решился представить свою версию того, что будет с ИИ в будущем. В 2021 году Дэниэль Кокотайло попытался предсказать будущее ИИ, и многие из его прогнозов уже сбылись.
Отчет AI 2027, который основан на существующих исследованиях и экспертных оценках, дает нам картину того, что может случиться, если ИИ продолжит развиваться такими темпами.
Важные моменты из отчета:
🚀 Конец 2025 года: ИИ станет настолько мощным, что системы будут способны адаптироваться к новым задачам и работать на автопилоте. Это откроет новые возможности, но и создаст риски, связанные с потерей контроля.
🌍 Конец 2026 года: Китай начнет использовать ИИ-агентов для ускорения развития и проникновения на международные рынки. Это приведет к глобальной гонке за лидерство в области ИИ, где каждая страна будет бороться за технологическое превосходство.
💼 2027 год: Массовая автоматизация труда и увольнения — последствия ИИ для рабочего рынка. Рост экономики будет неравномерным: если одни страны и компании будут процветать, то другие окажутся на обочине.
⚠️ Конец 2027 года: В конце концов, мир столкнется с угрозой или примет решение замедлить развитие ИИ и усилить контроль за безопасностью. Это будет момент истины — когда человечество должно будет решить, как двигаться дальше.
🤔 Как вы считаете, насколько реалистичен прогноз, представленный в отчете AI 2027? Возможно ли, что ИИ действительно достигнет такого уровня развития уже в ближайшие несколько лет? И стоит ли нам беспокоиться?
Будущее искусственного интеллекта уже не кажется таким далеким, как мы думали. Искусственный интеллект спасет нас или приведет к нашему краху? Будет ли развитие ИИ спасением или угрозой? — Эти вопросы ставит перед собой новый отчет AI 2027, созданный исследовательским проектом AI Futures Project.
👤 Кто стоит за этим проектом?
Дэниэль Кокотайло, исполнительный директор AI Futures Project, бывший сотрудник OpenAI. Он решился представить свою версию того, что будет с ИИ в будущем. В 2021 году Дэниэль Кокотайло попытался предсказать будущее ИИ, и многие из его прогнозов уже сбылись.
Отчет AI 2027, который основан на существующих исследованиях и экспертных оценках, дает нам картину того, что может случиться, если ИИ продолжит развиваться такими темпами.
Важные моменты из отчета:
🚀 Конец 2025 года: ИИ станет настолько мощным, что системы будут способны адаптироваться к новым задачам и работать на автопилоте. Это откроет новые возможности, но и создаст риски, связанные с потерей контроля.
🌍 Конец 2026 года: Китай начнет использовать ИИ-агентов для ускорения развития и проникновения на международные рынки. Это приведет к глобальной гонке за лидерство в области ИИ, где каждая страна будет бороться за технологическое превосходство.
💼 2027 год: Массовая автоматизация труда и увольнения — последствия ИИ для рабочего рынка. Рост экономики будет неравномерным: если одни страны и компании будут процветать, то другие окажутся на обочине.
⚠️ Конец 2027 года: В конце концов, мир столкнется с угрозой или примет решение замедлить развитие ИИ и усилить контроль за безопасностью. Это будет момент истины — когда человечество должно будет решить, как двигаться дальше.
🤔 Как вы считаете, насколько реалистичен прогноз, представленный в отчете AI 2027? Возможно ли, что ИИ действительно достигнет такого уровня развития уже в ближайшие несколько лет? И стоит ли нам беспокоиться?
💬 Внимание, опрос!
В последние месяцы вопросы о том, как ИИ будет влиять на профессии в области машинного обучения и анализа данных, становятся всё более актуальными.
Мы решили узнать ваше мнение! Поделитесь, как вы считаете — заменит ли ИИ специалистов в этих областях в ближайшие годы?
Давайте разберемся, что думает большинство! 🧐
В последние месяцы вопросы о том, как ИИ будет влиять на профессии в области машинного обучения и анализа данных, становятся всё более актуальными.
Мы решили узнать ваше мнение! Поделитесь, как вы считаете — заменит ли ИИ специалистов в этих областях в ближайшие годы?
Давайте разберемся, что думает большинство! 🧐
Заменит ли ИИ в ближайшие 5 лет дата сайентистов и ML-инженеров?
Anonymous Poll
10%
Да, полностью заменит
35%
Нет, люди всегда будут нужны
55%
Частично, задачи будут делиться
🔥 Задачи с собеседований
Собеседование на ML-специалиста часто включает не только вопросы по алгоритмам и теории, но и глубокое понимание Python. А знание тонкостей языка может решить исход интервью!
Сегодня предлагаем вам разобрать задачи с реальных интервью. Наши ответы опубликуем в понедельник, а пока — проверьте себя и оставьте свои ответы в комментариях!
📌 Вопросы:
1️⃣ В чём различие операторов “==” и “is” в Python? Что вернёт следующий код?
2️⃣ Дополнительная задача повышенной сложности по знанию Python - что вернёт этот код и почему?
#собеседование
Собеседование на ML-специалиста часто включает не только вопросы по алгоритмам и теории, но и глубокое понимание Python. А знание тонкостей языка может решить исход интервью!
Сегодня предлагаем вам разобрать задачи с реальных интервью. Наши ответы опубликуем в понедельник, а пока — проверьте себя и оставьте свои ответы в комментариях!
📌 Вопросы:
list_A = [1, 2, 3]
list_B = [1, 2, 3]
sample_A = None
sample_B = None
print(list_A == list_B)
print(list_A is list_B)
print(sample_A == sample_B)
print(sample_A is sample_B)
A = 13
B = 13
print(A == B)
print(A is B)
#собеседование
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Ответы на задачи с собеседований
1️⃣ В чём различие операторов
2️⃣ Что вернёт код
〰️ 〰️ 〰️ 〰️ 〰️ 〰️ 〰️ 〰️ 〰️ 〰️
Автор: Александр Дубейковский, специалист по ML, ex-Yandex
#собеседование
==
и is
в Python? + Ответ на кодОтвет: True False True True
Оператор == сравнивает значения объектов, а оператор is проверяет, ссылаются ли переменные на один и тот же объект в памяти. Так как в Python None - это синглтон-объект, то есть в Python существует лишь один единственный None, то сколько бы мы не создавали переменных с этим значением, они все будут ссылаться на один объект в памяти, потому код "sample_A is sample_B" вернёт True
A = 13 B = 13 print(A == B) print (A is B)
, почему?
Ответ: True True
Потому что Python всегда хранит целые числа от -5 до 256 в памяти. Создавая объект с такими значениями вы будете ссылаться на уже выделенное место в памяти для данного значения. Потому в нашем примере A is B вернёт True. Если А и B оба будут равны 257, то A is B вернёт False. Это было сделано в Python для оптимизации работы языка, чтобы не выделять память на очень часто используемые значения при работе кода.
Автор: Александр Дубейковский, специалист по ML, ex-Yandex
#собеседование
Please open Telegram to view this post
VIEW IN TELEGRAM
29–30 мая в Москве пройдет Aha!25 — одна из крупнейших технических конференций года для специалистов в области машинного обучения, аналитики и product-менеджмента!
Что вас ждет:
🟢 Более 1200 участников — коллег, партнеров и потенциальных работодателей
🟢 16 тематических потоков и 80+ докладов
🟢 Выступления топ-экспертов из ведущих компаний: Яндекс, Авито, OZON, Альфа-Банк, Т-Банк и другие
🟢 Выступления представителей научного сообщества из ИТМО, РЭШ, Центрального университета.
🟢 Разбор реальных бизнес-кейсов и панельные дискуссии
Темы конференции:
🔵 Интеграция LLM, ML и AI в цифровые сервисы
🔵 Современные подходы к A/B-тестированию
🔵 Оцифровка пользовательского опыта
🔵 Машинное обучение в управлении продуктом
🔵 Математическое мышление и поведенческая экономика
В мероприятии примет участие и команда MLinside: наш основатель Виктор Кантор выступит с докладом о задачах, за которые готовы и будут платить на рынке AI.
Билеты можно приобрести на официальном сайте конференции. При использовании промокода MLINSIDE — скидка 20% на все виды билетов!
Что вас ждет:
Темы конференции:
В мероприятии примет участие и команда MLinside: наш основатель Виктор Кантор выступит с докладом о задачах, за которые готовы и будут платить на рынке AI.
Билеты можно приобрести на официальном сайте конференции. При использовании промокода MLINSIDE — скидка 20% на все виды билетов!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔁 Проблема Feedback loop в рекомендательных системах - Почему алгоритм может зациклиться и начать показывать тебе одно и то же?
Ты смотришь видос на YouTube → YouTube понял, что тебе понравилось → показывает похожие → ты снова смотришь → алгоритм думает что тебе это и надо показывать → И так по кругу.
🤖 Тем самым модель не может предложить что-то кардинально новое и усиливает уже существующие паттерны.
🎯 Какие бизнес-метрики страдают из-за feedback loop:
1️⃣ Diversity (падает разнообразие контента) → падает интерес → снижается вовлечённость. Конкретные метрики - content diversity score, entropy of recommended items
2️⃣ User Retention (падает удержание пользователей) → пользователи не делают повторных визитов. Конкретные метрики - day 7 / day 30 retention, churn rate, MAU/DAU
3️⃣ Cold Start Problem усиливается - новым пользователям и новым продуктам тяжело попасть в рекомендации, теряется прибыль. Конкретные метрики - % новых категорий/товаров показанных пользователям в первые X дней, время до первого показа нового товара
🧠 Что с этим делают в индустрии? Решения, применяемые в YouTube, TikTok и Netflix:
1️⃣ Exploration/Exploitation trade-off - периодически рекомендуют что-то случайное/редкое, чтобы собрать новую информацию.
2️⃣ Policy-based ML - обучение моделей на основе reinforcment learning, оптимизируем не просто на клик/не клик, а на получение “награды” пользователем, которая повлияет на долгосрочные метрики и спровоцирует желаемое поведение пользователей.
3️⃣ Re-ranking с diversity penalty - после получения топ-N кандидатов, применяется переранжировка, которая штрафует за однотипность (например, если все видео с одного канала).
Вопрос для читателей - 🔍 Как в оффлайне заметить feedback loop? Пишите ваш ответ в комментариях👇
〰️ 〰️ 〰️ 〰️ 〰️ 〰️ 〰️ 〰️ 〰️ 〰️
Автор: Александр Дубейковский, специалист по ML, ex-Yandex
Ты смотришь видос на YouTube → YouTube понял, что тебе понравилось → показывает похожие → ты снова смотришь → алгоритм думает что тебе это и надо показывать → И так по кругу.
🤖 Тем самым модель не может предложить что-то кардинально новое и усиливает уже существующие паттерны.
🎯 Какие бизнес-метрики страдают из-за feedback loop:
1️⃣ Diversity (падает разнообразие контента) → падает интерес → снижается вовлечённость. Конкретные метрики - content diversity score, entropy of recommended items
2️⃣ User Retention (падает удержание пользователей) → пользователи не делают повторных визитов. Конкретные метрики - day 7 / day 30 retention, churn rate, MAU/DAU
3️⃣ Cold Start Problem усиливается - новым пользователям и новым продуктам тяжело попасть в рекомендации, теряется прибыль. Конкретные метрики - % новых категорий/товаров показанных пользователям в первые X дней, время до первого показа нового товара
🧠 Что с этим делают в индустрии? Решения, применяемые в YouTube, TikTok и Netflix:
1️⃣ Exploration/Exploitation trade-off - периодически рекомендуют что-то случайное/редкое, чтобы собрать новую информацию.
2️⃣ Policy-based ML - обучение моделей на основе reinforcment learning, оптимизируем не просто на клик/не клик, а на получение “награды” пользователем, которая повлияет на долгосрочные метрики и спровоцирует желаемое поведение пользователей.
3️⃣ Re-ranking с diversity penalty - после получения топ-N кандидатов, применяется переранжировка, которая штрафует за однотипность (например, если все видео с одного канала).
Вопрос для читателей - 🔍 Как в оффлайне заметить feedback loop? Пишите ваш ответ в комментариях👇
Автор: Александр Дубейковский, специалист по ML, ex-Yandex
Please open Telegram to view this post
VIEW IN TELEGRAM
Задача рекомендаций занимает важное место как в YouTube, так в Яндекс.Музыке, на Wildberries, и даже в Яндекс.Такси. А решается она именно с помощью машинного обучения.
Рекомендательные системы являются одной из самых широких сфер применения ML. Как вы думаете - почему так? Ответы ждём в комментариях. 👇
Специфика бизнес-задачи - огромный объем данных о пользователях и контенте, множество критериев от лайков до геолокации, необходимость работать быстро в реальном времени.
Метрики качества - CTR (кликабельность), Watch Time, User Retention (возвращение пользователя), Engagement (вовлечённость - лайки, комменты и тд), Diversity (разнообразие рекомендаций).
Способы ML решений:
🔹Коллаборативная фильтрация — анализируют поведение похожих пользователей и рекомендуют, что понравилось им.Пример моделей: Matrix Factorization (ALS, SVD).
🔹Контентный анализ — изучают характеристики айтема (теги, заголовки, описание) и подбирают похожие. Пример моделей: TF-IDF, BERT, Мультимодальные модели.
🔹Более сложные - гибридные модели, модель обученные на последовательностях, модели с онлайн-обновлением.
Потенциальные сложности, которые нужно решить разработчику ML:
1️⃣ Холодный старт — как рекомендовать, если нет данных о новом пользователе или новом видео?
2️⃣ Обработка огромных данных в реальном времени — миллионы пользователей, миллионы видео и постоянные обновления.
3️⃣ Баланс между новизной и релевантностью — не показывать только популярное, но и давать шанс новым видео.
4️⃣ Избежание фильтров пузырей — чтобы не ограничивать пользователя только одним типом контента.
5️⃣ Этичные вопросы — не усиливать токсичный или вредный контент.
Автор: Александр Дубейковский, специалист по ML, ex-Yandex
Please open Telegram to view this post
VIEW IN TELEGRAM