Forwarded from Дата канальи — про «специалистов» в данных / ML / AI
Манагерский кейс
Как-то встречаю в курилке пару тех лидов и они дружно жалуются что не могут ничего делать руками – в их продукты командировали каналью-скрама и все время встречи отнимают. А сколько встреч в день в среднем? – ну две-три. Пинаю скрама чтобы обсчитала (и объясняю методологию – включать во время встречи еще полчаса после нее на то, чтобы врубиться что происходит) – бодро докладывает что встречи занимают только (!) 9-10% рабочего времени.
Примерный календарь слева
Пришлось проводить работу с PO, CPO, Scrum и прочими на тему что если между встречами час – то ничего закодить не успеешь и для человека, работающего головой а не только лишь ртом (то есть того кто учит модели и пишет код) такой календарь превращается в тот что справа.
И я таки тоже потратил полчаса чтобы объяснить как быть – до обеда дать людям спокойно кодить (0 встреч), после обеда – встречи. Или наоборот , главное чтобы минимум 4 часа подряд было на работу каждый день
Мораль: от перемены мест слагаемых сумма меняется еще как. И особенности психики человека игнорировать нельзя.
Как-то встречаю в курилке пару тех лидов и они дружно жалуются что не могут ничего делать руками – в их продукты командировали каналью-скрама и все время встречи отнимают. А сколько встреч в день в среднем? – ну две-три. Пинаю скрама чтобы обсчитала (и объясняю методологию – включать во время встречи еще полчаса после нее на то, чтобы врубиться что происходит) – бодро докладывает что встречи занимают только (!) 9-10% рабочего времени.
Примерный календарь слева
Пришлось проводить работу с PO, CPO, Scrum и прочими на тему что если между встречами час – то ничего закодить не успеешь и для человека, работающего головой а не только лишь ртом (то есть того кто учит модели и пишет код) такой календарь превращается в тот что справа.
И я таки тоже потратил полчаса чтобы объяснить как быть – до обеда дать людям спокойно кодить (0 встреч), после обеда – встречи. Или наоборот , главное чтобы минимум 4 часа подряд было на работу каждый день
Мораль: от перемены мест слагаемых сумма меняется еще как. И особенности психики человека игнорировать нельзя.
Ну что же, теперь есть легитимный повод красить все презентации в «согревающий коричневый оттенок»
Кстати, впервые с тем, чтобы презентации красили в цвет года Pantone и перерисовывали под современные дизайн-тренды (то неоновые цвета, то матовое стекло, то еще что-нибудь, каждый год новое) я встретился, когда ко мне в команду пришел сотрудник, ранее клепавший со своим отделом прототипы всяких AI штук в очень крупной компании. Когда KPI это количество успешно проведенных демонстраций и докладов председателю правления, форма порой становится важнее содержания, и подаче уделяется очень много внимания. Не могу сказать, что осуждаю - какой KPI, такое и исполнение.
Так что если у вас тоже есть KPI на количество успешных отсветов фейсом перед руководством - согревающий коричневый в этом году точно к вашим услугам.
Кстати, впервые с тем, чтобы презентации красили в цвет года Pantone и перерисовывали под современные дизайн-тренды (то неоновые цвета, то матовое стекло, то еще что-нибудь, каждый год новое) я встретился, когда ко мне в команду пришел сотрудник, ранее клепавший со своим отделом прототипы всяких AI штук в очень крупной компании. Когда KPI это количество успешно проведенных демонстраций и докладов председателю правления, форма порой становится важнее содержания, и подаче уделяется очень много внимания. Не могу сказать, что осуждаю - какой KPI, такое и исполнение.
Так что если у вас тоже есть KPI на количество успешных отсветов фейсом перед руководством - согревающий коричневый в этом году точно к вашим услугам.
‼️Интервью с руководителем Школы Анализа Данных Яндекса
🎤Опубликовали в YouTube канале интервью с Лешей Толстиковым. Много говорим об образовании, ШАДе и алгоритмах (нужны или не нужны, почему), ну и конечно же обсудили, как складывался карьерный трек самого Леши :)
🎤Опубликовали в YouTube канале интервью с Лешей Толстиковым. Много говорим об образовании, ШАДе и алгоритмах (нужны или не нужны, почему), ну и конечно же обсудили, как складывался карьерный трек самого Леши :)
YouTube
Интервью с Алексеем Толстиковым ШАД
Интервью с Алексеем Толстиковым, к.ф-м.н., руководитель Школы анализа данных, эксперт в олимпиадах по программированию.
Школа анализа данных – бесплатная двухгодичная программа Яндекса по подготовке специалистов по анализу данных, машинному обучению, инфраструктуре…
Школа анализа данных – бесплатная двухгодичная программа Яндекса по подготовке специалистов по анализу данных, машинному обучению, инфраструктуре…
Ну что же, в последнем квизе, конечно, правильный ответ был [3], но раз он не зашел аудитории, вот вам вопрос поинтереснее.
Предыстория: студент анализировал тексты классическими методами. В частности, строил признаковые описания на основе частот слов. После отображения выборки в пространство двух главных компонент студент получил такую замысловатую картинку. Глядя на нее, научрук сразу посоветовал не писать свои костыли, а пользоваться готовыми реализациями из библиотек, а также сразу сказал, где у студента ошибка.
Вопрос: где у студента была ошибка?
Вопрос "со звездочкой": как может объясняться резкий перепад в графике рядом с 1200 по горизонтальной оси?
Пишите ваши версии в комментариях :)
Предыстория: студент анализировал тексты классическими методами. В частности, строил признаковые описания на основе частот слов. После отображения выборки в пространство двух главных компонент студент получил такую замысловатую картинку. Глядя на нее, научрук сразу посоветовал не писать свои костыли, а пользоваться готовыми реализациями из библиотек, а также сразу сказал, где у студента ошибка.
Вопрос: где у студента была ошибка?
Вопрос "со звездочкой": как может объясняться резкий перепад в графике рядом с 1200 по горизонтальной оси?
Пишите ваши версии в комментариях :)
Итак, ответ на вопросы успешно найден в комментариях. Т.к. на картинке датасет выстроился почти в непрерывную кривую, разность между координатами соседних текстов оказалась всегда маленькой. Это значит, что и в исходных признаках при переходе от текста к тексту признаки изменялись лишь чуть-чуть.
Очевидный способ достижения этого результата - забыть обнулять счетчики частот слов, что и сделал студент, о чем и догадался научрук. Пассаж про изучение библиотек был, конечно же, о том, что в sklearn есть готовые текстовые векторизации, которые можно взять из коробки и не накосячить таким образом. Тот факт, что студент забыл обнулять счетчики, проверяется легко: достаточно посмотреть на матрицу признаков, ведь к последнему тексту нулей уже, конечно же, не осталось.
Почему же возникали разрывы? Из-за плохой предобработки текстов были тексты с большим количеством всяких спецсимволов и слов, которые давали очень большой прирост к криво выделенным токенам. В частности, картина из предыдущего поста - это еще после фильтрации части таких спецтекстов. Без фильтрации получалась та, которую вы видите в прикрепленных к посту
Очевидный способ достижения этого результата - забыть обнулять счетчики частот слов, что и сделал студент, о чем и догадался научрук. Пассаж про изучение библиотек был, конечно же, о том, что в sklearn есть готовые текстовые векторизации, которые можно взять из коробки и не накосячить таким образом. Тот факт, что студент забыл обнулять счетчики, проверяется легко: достаточно посмотреть на матрицу признаков, ведь к последнему тексту нулей уже, конечно же, не осталось.
Почему же возникали разрывы? Из-за плохой предобработки текстов были тексты с большим количеством всяких спецсимволов и слов, которые давали очень большой прирост к криво выделенным токенам. В частности, картина из предыдущего поста - это еще после фильтрации части таких спецтекстов. Без фильтрации получалась та, которую вы видите в прикрепленных к посту
Ну как, такие вопросы интереснее, чем квизы с гаданием ответа?
Anonymous Poll
77%
Да
3%
Нет
3%
Раньше можно было хотя бы загуглить...
27%
Очень интересно, но ничего непонятно
2%
Слишком легко, дайте что-то посложнее
Крик души про оценку качества рекламы по попаданию в пол-возраст
Иногда Data Scientist’ы в тг не боятся писать лютую базу. А тут даже не база, а целый генштаб.
Тоже горит с этого наяривания на пол-возраст вместо прямого прогнозирования отклика и замера его качества. А уж оценка попадания по панелистам или по Яндекс.Метрике по принципу «если даже такую простую задачу плохо решите, то куда вам до response моделей» - просто полыхание всего, что плохо сидит))
Иногда Data Scientist’ы в тг не боятся писать лютую базу. А тут даже не база, а целый генштаб.
Тоже горит с этого наяривания на пол-возраст вместо прямого прогнозирования отклика и замера его качества. А уж оценка попадания по панелистам или по Яндекс.Метрике по принципу «если даже такую простую задачу плохо решите, то куда вам до response моделей» - просто полыхание всего, что плохо сидит))
Telegram
Дата канальи — про «специалистов» в данных / ML / AI
Всегда бесило что когда речь заходит о фичах клиента, манагеры произносят аллилуйя — «пол-возраст». Им вторят канальи-аналитики, которые про «составим портрет клиента продукта» Еще бы расу добавили - и получился бы трельяж — сексизм, эйджизм, расизм.
Тем…
Тем…
В четверг проводим вебинар перед запуском курса ML в бизнесе. В курсе разбираем с Никитой топ 7 задач по экономическому эффекту от ML для бизнеса
Forwarded from MLinside - школа ML
🗓 Дата: 19 декабря (четверг)
⏰ Время: 20:00 по МСК
🎤 Спикер: Никита Зелинский — Chief Data Scientist компании МТС, кандидат физико-математических наук с 14-летним коммерческим опытом в DS и ML.
Что будет на вебинаре?
🔹Презентация нашего курса «ML в бизнесе». Этот вебинар — вводная часть курса, в котором мы глубже и детальнее разберем ключевые темы и научим внедрять ML в реальные задачи бизнеса;
🔹Рассмотрим схемы валидации;
🔹Разберем практические кейсы.
👉 Регистрируйтесь здесь
🌟 Будем рады видеть вас на вебинаре!
Please open Telegram to view this post
VIEW IN TELEGRAM
Матричное дифференцирование
😱 В ML периодически возникает потребность взять производную от матричного выражения, как правило имеющую вид «производная вектора по вектору». Если вас всегда ломало разобраться с матричным дифференцированием, а строгое формальное изложение матричных производных через дифференциалы вводило в уныние, я недавно записал видео с простым объяснением, как это работает.
🎭 В ролике есть определенная драматургия: будет момент, где мы с вами сами начнем придумывать матричную производную так, чтобы она в частном случае превращалась в уже привычный нам градиент. И оттуда станет ясно, почему матричная производная именно такая, а не, например, транспонированная.
🤓 Всем, кто хочет шарить за ML чуть глубже, чем «ну я тут что-то обучил и в докер завернул, а как работает не мое дело» - рекомендую к просмотру. Жить без матричных производных можно, но компактно оперировать формулами очень удобно.
🤓 Всем, кто хочет шарить за ML чуть глубже, чем «ну я тут что-то обучил и в докер завернул, а как работает не мое дело» - рекомендую к просмотру. Жить без матричных производных можно, но компактно оперировать формулами очень удобно.
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Матричная производная: жесть или обычный инструмент ML | Виктор Кантор
Предзапись на 3 поток курса "База ML": https://forms.yandex.ru/u/6822f81984227c4ce223e507/
https://clck.ru/3FX9aZ - демо-курс "База ML"
https://clck.ru/3M4s4D - курс "База ML"
https://clck.ru/3FX9bA - курс "ML в бизнесе" - старт 15 января 2025!
https://www.tgoop.com/ml_inside…
https://clck.ru/3FX9aZ - демо-курс "База ML"
https://clck.ru/3M4s4D - курс "База ML"
https://clck.ru/3FX9bA - курс "ML в бизнесе" - старт 15 января 2025!
https://www.tgoop.com/ml_inside…
ML в бизнесе
Машинное обучение - это моя жизнь. Буквально полжизни я занимаюсь ML. И мои отношения с ним менялись и развивались со временем:
👨🎓15 лет назад я разбирался как работают алгоритмы и как из них собирать что-то реально работающее.
👨🔬10 назад я вникал в то, как постановка задачи влияет на полезность решения, ведь то, как вы выбираете таргет и измеряете качество, намного важнее, чем бустинг вы используете для модели или бустинг :)
👨🏫Тогда же я уже понял, что один в поле не воин и собирать эффективные команды, развивать их и управлять ими дает сильно больший импакт чем все задачи решать самому.
👨💼Лет пять назад на этом пути я дошел до управления Data Science, а затем и всей data функцией в качестве топ-менеджера в большой группе компаний, и получил самый мощный буст к кругозору в бизнесовом ML, какой только бывает
И после нескольких очень меня прокачавших лет работы топом случился кризис смыслов: работать я могу в любой компании, но влиять только на нее мне стало недостаточно. Решение не заставило себя долго ждать, потому что зрело уже много лет. Я собрал топ задач, решаемых в бизнесе с помощью ML, покрасил их грубо в черное и белое - где экономика расходится, где сходится, а где эффект не стоит того, чтобы пытаться. И прямо по этому списку составил вместе с Никитой Зелинским курс из прикладных задач, которые регулярно возникают везде: в телекоме, финтехе, ритейле, e-commerce, райдтехе, классическом айти с многопользовательскими приложениями и много где еще. Зачем? Чтобы теперь замашинлернить не одну компанию, не один холдинг, а все, до чего дотягивается солнце на рассвете - ну помните, как в "Короле льве" :))
ЧТО БЫЛО ДАЛЬШЕ:
🧠 Мы обкатали этот курс на студентах двух топовых вузов России - МФТИ и НИУ ВШЭ
🏟Мы взяли полгода на его доработку и адаптацию к более широкому кругу слушателей
🎉Мы подготовили курс к запуску в моей онлайн-школе MLinside
Завтра мы с Никитой ведем вебинар перед стартом курса. Еще не поздно зарегистрироваться и попасть на первый поток. В этом случае вы первым:
1️⃣Научитесь решать не только свою задачу, с которой сидите последний год/два/три на работе
2️⃣Станете востребованным ML специалистом в любой компании: если не все, то больше половины изученных на курсе задач будет в ней применимо
3️⃣Получите буквально за несколько месяцев выжимку того опыта, который мы с Никитой собирали по крупицам в больших экосистемах больше десяти лет
‼️Присоединяйтесь к нам, будет круто :)
Машинное обучение - это моя жизнь. Буквально полжизни я занимаюсь ML. И мои отношения с ним менялись и развивались со временем:
👨🎓15 лет назад я разбирался как работают алгоритмы и как из них собирать что-то реально работающее.
👨🔬10 назад я вникал в то, как постановка задачи влияет на полезность решения, ведь то, как вы выбираете таргет и измеряете качество, намного важнее, чем бустинг вы используете для модели или бустинг :)
👨🏫Тогда же я уже понял, что один в поле не воин и собирать эффективные команды, развивать их и управлять ими дает сильно больший импакт чем все задачи решать самому.
👨💼Лет пять назад на этом пути я дошел до управления Data Science, а затем и всей data функцией в качестве топ-менеджера в большой группе компаний, и получил самый мощный буст к кругозору в бизнесовом ML, какой только бывает
И после нескольких очень меня прокачавших лет работы топом случился кризис смыслов: работать я могу в любой компании, но влиять только на нее мне стало недостаточно. Решение не заставило себя долго ждать, потому что зрело уже много лет. Я собрал топ задач, решаемых в бизнесе с помощью ML, покрасил их грубо в черное и белое - где экономика расходится, где сходится, а где эффект не стоит того, чтобы пытаться. И прямо по этому списку составил вместе с Никитой Зелинским курс из прикладных задач, которые регулярно возникают везде: в телекоме, финтехе, ритейле, e-commerce, райдтехе, классическом айти с многопользовательскими приложениями и много где еще. Зачем? Чтобы теперь замашинлернить не одну компанию, не один холдинг, а все, до чего дотягивается солнце на рассвете - ну помните, как в "Короле льве" :))
ЧТО БЫЛО ДАЛЬШЕ:
🏟Мы взяли полгода на его доработку и адаптацию к более широкому кругу слушателей
🎉Мы подготовили курс к запуску в моей онлайн-школе MLinside
Завтра мы с Никитой ведем вебинар перед стартом курса. Еще не поздно зарегистрироваться и попасть на первый поток. В этом случае вы первым:
1️⃣Научитесь решать не только свою задачу, с которой сидите последний год/два/три на работе
2️⃣Станете востребованным ML специалистом в любой компании: если не все, то больше половины изученных на курсе задач будет в ней применимо
3️⃣Получите буквально за несколько месяцев выжимку того опыта, который мы с Никитой собирали по крупицам в больших экосистемах больше десяти лет
‼️Присоединяйтесь к нам, будет круто :)
Please open Telegram to view this post
VIEW IN TELEGRAM
https://www.tgoop.com/datarascals/11
Предпраздничное настроение само собой подводит к загадыванию желаний. Например, после чтения поста по ссылке, у меня возникло такое:
🎄 🥂 Пусть в новом году будет больше руководителей, которым можно прислать подобный скрипт, вместо долгого нудного объяснения, почему сравнивать распределения только по среднему и «на глазок» это дичь :)
Хотя, конечно, я верю в светлое будущее, когда представители всех ролей в индустрии будут просто это знать и понимать
Предпраздничное настроение само собой подводит к загадыванию желаний. Например, после чтения поста по ссылке, у меня возникло такое:
Хотя, конечно, я верю в светлое будущее, когда представители всех ролей в индустрии будут просто это знать и понимать
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Дата канальи — про «специалистов» в данных / ML / AI
Видел в одном канале канальи-манагера пафосные рассуждения, что любого сотрудника можно оценить по масштабу последствий от ошибочно принятого этим сотрудником решения. Как обычно отвечу кейсом.
Так сложилось, что я работал в структурах где цена ошибки высока…
Так сложилось, что я работал в структурах где цена ошибки высока…
#с_level
PowerPoint-зазеркалье
Если меня спросят, от чего у меня больше всего горело на C-level, так это от двух вещей: комитетов и презенташек. Про комитеты я напишу отдельный пост, а вот по презенташкам слегка пройдусь сейчас.
Не подумайте, я не считаю Power Point злом во плоти. На мой взгляд, несмотря на громкие амазонские эксперименты, слайды могут неплохо помогать людям донести свои мысли быстро и четко, если у человека правда есть какая-то внятно сформулированная цель коммуникации, а слайды подготовлены тоже качественно. И горит у меня не от того, что люди часто рисуют слайды неинформативными или наоборот перегруженными, с этим тоже можно жить. И исправлять эту ситуацию несложно.
Горит у меня вот от чего: в куче компаний топ-менеджмент периодически собирается на всякие совещания и стратсессии, на которых показывает друг-другу домашние заготовки (в виде нарисованных их сотрудниками слайдов) под видом того, что нарисованное на этих слайдах и есть то, что реально происходит и будет происходить в бизнесе. На этих слайдах обязательно рисуются какие-то амбиции, планы, грандиозные замыслы, золотые горы, к которым только руку протяни и вот до конца контракта докладчика будет все подготовлено и прямо на следующий год как долбанет вверх выручка, ух как заживем! А рядом с моим домом тем временем ездят роботы-курьеры, которые на улицах Москвы еще пять лет назад показались бы фантастикой. И я точно знаю, что эти роботы ездят не потому, что кто-то нарисовал слайды в Power Point.
Ощущение, что все эти наши шабаши со слайдами - это путь куда-то не туда, грызло меня с самого начала. С другой стороны, числа с результатами и планами показать друг-другу надо, и идею/мечту (у кого что) донести надо, и обсудить тоже надо. Так что выглядит как необходимое зло. Но есть два логичных способа попытаться это зло чуточку уменьшить:
1) Числа по текущей ситуации в бизнесе надо показывать не посредством написания руками чисел на слайде, а в дашбордах на основе регулярно валидируемых данных
2) Если можно про что-то не рассказать, а показать - показывать. Лучше одно демо, чем 10 срежессированных видосов или 100 объяснений, как классно оно работает.
Отдельная проблема с последним это как сделать демо, если ваш результат это например улучшение эффекта от рекомендаций на 10%. Вообще рассказывать про инкрементальные улучшения в существующих ML штуках очень больно: все эти проценты ничего не значат для тех, кто не разбирается, а тем, кто разбирается, достаточно таблички с результатами и ответов на несколько вопросов. Но никакими эффектными демо тут и не пахнет. Даже наоборот - эффектные демо дадут те вещи, которые вряд ли сильно повлияют на метрики. Вот и получается, что вроде боролись со злом в лице слайдов, а создали новое зло - мотивацию делать штуки для красивого демо, а не для большего эффекта.
В итоге я пришел к принятию, что вся эта история про зазеркалье презентаций и мир, существующий на слайдах - не про слайды и Power Point. Она про культуру нашего общения, взаимодействия и оценки результатов. Если у нас в крови мерять все, что меряется, это одна история. Если мы с детства любим красивые сказки и эмоциональные рассказы - это другая. Первое нужно, чтобы не улететь совсем в облака, а второе на самом деле тоже нужно - чтобы продолжать мечтать и сохранять мотивацию идти дальше. Плохо, когда остается только что-то одно.
Ну а Power Point это просто инструмент: что запрещай его, что не запрещай - сказочники останутся сказочниками, а любители все измерить продолжат смотреть на числа.
А как вы думаете, что нужно делать, чтобы планы и стратегии, нарисованные в слайдах, имели какую-то связь с реальным миром? И нужно ли вообще, или наоборот пусть лучше нормальные люди работают, афантазеры фантазируют визионеры визионируют?
PowerPoint-зазеркалье
Если меня спросят, от чего у меня больше всего горело на C-level, так это от двух вещей: комитетов и презенташек. Про комитеты я напишу отдельный пост, а вот по презенташкам слегка пройдусь сейчас.
Не подумайте, я не считаю Power Point злом во плоти. На мой взгляд, несмотря на громкие амазонские эксперименты, слайды могут неплохо помогать людям донести свои мысли быстро и четко, если у человека правда есть какая-то внятно сформулированная цель коммуникации, а слайды подготовлены тоже качественно. И горит у меня не от того, что люди часто рисуют слайды неинформативными или наоборот перегруженными, с этим тоже можно жить. И исправлять эту ситуацию несложно.
Горит у меня вот от чего: в куче компаний топ-менеджмент периодически собирается на всякие совещания и стратсессии, на которых показывает друг-другу домашние заготовки (в виде нарисованных их сотрудниками слайдов) под видом того, что нарисованное на этих слайдах и есть то, что реально происходит и будет происходить в бизнесе. На этих слайдах обязательно рисуются какие-то амбиции, планы, грандиозные замыслы, золотые горы, к которым только руку протяни и вот до конца контракта докладчика будет все подготовлено и прямо на следующий год как долбанет вверх выручка, ух как заживем! А рядом с моим домом тем временем ездят роботы-курьеры, которые на улицах Москвы еще пять лет назад показались бы фантастикой. И я точно знаю, что эти роботы ездят не потому, что кто-то нарисовал слайды в Power Point.
Ощущение, что все эти наши шабаши со слайдами - это путь куда-то не туда, грызло меня с самого начала. С другой стороны, числа с результатами и планами показать друг-другу надо, и идею/мечту (у кого что) донести надо, и обсудить тоже надо. Так что выглядит как необходимое зло. Но есть два логичных способа попытаться это зло чуточку уменьшить:
1) Числа по текущей ситуации в бизнесе надо показывать не посредством написания руками чисел на слайде, а в дашбордах на основе регулярно валидируемых данных
2) Если можно про что-то не рассказать, а показать - показывать. Лучше одно демо, чем 10 срежессированных видосов или 100 объяснений, как классно оно работает.
Отдельная проблема с последним это как сделать демо, если ваш результат это например улучшение эффекта от рекомендаций на 10%. Вообще рассказывать про инкрементальные улучшения в существующих ML штуках очень больно: все эти проценты ничего не значат для тех, кто не разбирается, а тем, кто разбирается, достаточно таблички с результатами и ответов на несколько вопросов. Но никакими эффектными демо тут и не пахнет. Даже наоборот - эффектные демо дадут те вещи, которые вряд ли сильно повлияют на метрики. Вот и получается, что вроде боролись со злом в лице слайдов, а создали новое зло - мотивацию делать штуки для красивого демо, а не для большего эффекта.
В итоге я пришел к принятию, что вся эта история про зазеркалье презентаций и мир, существующий на слайдах - не про слайды и Power Point. Она про культуру нашего общения, взаимодействия и оценки результатов. Если у нас в крови мерять все, что меряется, это одна история. Если мы с детства любим красивые сказки и эмоциональные рассказы - это другая. Первое нужно, чтобы не улететь совсем в облака, а второе на самом деле тоже нужно - чтобы продолжать мечтать и сохранять мотивацию идти дальше. Плохо, когда остается только что-то одно.
Ну а Power Point это просто инструмент: что запрещай его, что не запрещай - сказочники останутся сказочниками, а любители все измерить продолжат смотреть на числа.
А как вы думаете, что нужно делать, чтобы планы и стратегии, нарисованные в слайдах, имели какую-то связь с реальным миром? И нужно ли вообще, или наоборот пусть лучше нормальные люди работают, а
Мы так однажды с Никитой (автором поста ниже) поспорили, как считать в рекомендациях precision@k, когда кандидатов меньше k. Никита топил за реализацию в катбусте, потому что читал исходники, а я топил за деление на k, потому что привык, что по графикам precision@k и recall@k можно базово прикинуть адекватное вашему случаю количество рекомендаций в блоке или найти проблему типа нехватки кандидатов: если в какой-то момент precision@k начинает сильно падать просто потому что вместо 5 рекомендаций у вас повально 2, это проще заметить.
В итоге, изучив другие источники, Никита, с нотками досады признал правильным мой вариант, хотя логика в катбустовой реализации конечно тоже понятна - не штрафовать, если лучше уже нельзя было отранжировать. И если честно, я бы не был здесь так категоричен в вопросе «как правильно». Смотря чего вы хотите: включать измерение качества кандидатов в метрику или нет. Но главное, что так мы с Никитой узнали, что нам есть о чем поговорить, кроме слайдов в Power Point, и это было прекрасно :)))
В итоге, изучив другие источники, Никита, с нотками досады признал правильным мой вариант, хотя логика в катбустовой реализации конечно тоже понятна - не штрафовать, если лучше уже нельзя было отранжировать. И если честно, я бы не был здесь так категоричен в вопросе «как правильно». Смотря чего вы хотите: включать измерение качества кандидатов в метрику или нет. Но главное, что так мы с Никитой узнали, что нам есть о чем поговорить, кроме слайдов в Power Point, и это было прекрасно :)))
Forwarded from Дата канальи — про «специалистов» в данных / ML / AI
Все же здесь DS и знают базовые метрики?
Precision?
Precision@k?
А ничего вы не знаете, канальи! 🙈
Прошло пару лет как коллеги со светлой стороны Сбера выпустили свою замечательную статью на NIPS, примечательную такой картинкой
Про то как в разных recsys либах метрики считаются по-разному 😱
Но хотя бы precision@k вроде одинаково? Или нет? 🤔
Рассмотрим угловой кейс – на что делить, когда кандидатов сгенерилось меньше k? 🤓
Правильный ответ здесь– делить на k !!!!
Институт NIST– National Institute for Standards and Technology распространяет код как считать правильно 🥳
На для catboost закон не писан – он делит на число кандидатов 🤬😡🥵
Будьте внимательны! Или перепроверяйте за пакетами или считайте сами!
Precision?
Precision@k?
А ничего вы не знаете, канальи! 🙈
Прошло пару лет как коллеги со светлой стороны Сбера выпустили свою замечательную статью на NIPS, примечательную такой картинкой
Про то как в разных recsys либах метрики считаются по-разному 😱
Но хотя бы precision@k вроде одинаково? Или нет? 🤔
Рассмотрим угловой кейс – на что делить, когда кандидатов сгенерилось меньше k? 🤓
Правильный ответ здесь– делить на k !!!!
Институт NIST– National Institute for Standards and Technology распространяет код как считать правильно 🥳
На для catboost закон не писан – он делит на число кандидатов 🤬😡🥵
Будьте внимательны! Или перепроверяйте за пакетами или считайте сами!
Что человеку хейт - то сетке кликбейт
С перспективами все большего применения генеративного ИИ для написания текста и рисования картинок для рассылок (что уже итак часто происходит) возникает очевидный риск того, что кликбейт нас всех захлестнет.
На одной стратсесии крупного холдинга, где мне посчастливилось выступать, ведущий выдал замечательный по своей понятности для широкой публики тезис: «у ML моделек нет совести». Не вдаваясь в подробности прививания моделям моральных ограничений и в прочий AI alignment, имелось ввиду то, что для оптимизации лосса все средства хороши, если дают результат.
Для примера посмотрите на рассылку Литрес в аттаче. Её конечно наверняка делал человек, но она 100% достаточно высококонверсионная: ведь сама идея того, что бедного Драйзера из-под земли достали, чтобы написать новую книгу, нет-нет да и заставит посмотреть письмо. Безотносительно того, что понятно, что имели ввиду маркетологи из Литрес, сетки будут использовать такие «крючки» еще более агрессивно.
С другой стороны, может и хорошо? Интересный спам это интереснее, чем неинтересный, как вы считаете? 😁
С перспективами все большего применения генеративного ИИ для написания текста и рисования картинок для рассылок (что уже итак часто происходит) возникает очевидный риск того, что кликбейт нас всех захлестнет.
На одной стратсесии крупного холдинга, где мне посчастливилось выступать, ведущий выдал замечательный по своей понятности для широкой публики тезис: «у ML моделек нет совести». Не вдаваясь в подробности прививания моделям моральных ограничений и в прочий AI alignment, имелось ввиду то, что для оптимизации лосса все средства хороши, если дают результат.
Для примера посмотрите на рассылку Литрес в аттаче. Её конечно наверняка делал человек, но она 100% достаточно высококонверсионная: ведь сама идея того, что бедного Драйзера из-под земли достали, чтобы написать новую книгу, нет-нет да и заставит посмотреть письмо. Безотносительно того, что понятно, что имели ввиду маркетологи из Литрес, сетки будут использовать такие «крючки» еще более агрессивно.
С другой стороны, может и хорошо? Интересный спам это интереснее, чем неинтересный, как вы считаете? 😁
Всех с наступившим 🎄🥂 Надеюсь, празднования у всех прошли хорошо и еще продолжаются :)
Я никогда не подводил итоги года публично (по крайней мере этого не помню), да и в целом не очень люблю читать чужие. Не знаю почему, может потому что слишком приторно, может от зависти. Но в этом году мне захотелось попробовать. Если понравится - вам хана, буду повторять каждый год, придется отписываться. Так что у читателей есть шанс насовать мне ценного фидбека в комментах и предотвратить непоправимое.
В прошедшем году я:
1) Успешно доработал свой срок в топ-менеджменте (да, там все по срокам, которые идет вестинг акций, расскажу как это обычно устроено в будущих постах), получил продление контракта, но решил попробовать в предпринимательство, вдохновившись примерами Толи Карпова, Димы Волошина и Леши Драля (у каждого своя школа в своем формате и каждый по-своему преуспел в этом деле). Благо после работы в топах предпринимательствовать немного спокойнее. Ну, пока деньги не кончатся)
2) Открыл наконец-то свою школу ML после 14 лет преподавания в вузах, компаниях и на курсере, запустил первый поток первого курса, telegram- и youtube-каналы школы
3) Вылечил отца от рака. Ну, разумеется, до определенной степени (пока не загадываем, но очаг удален, лучевая пройдена, пока показатели тьфу-тьфу хорошие). И, конечно же, не я лично вылечил, тут спасибо большое профессионализму врачей Медси, с меня были сугубо организационные моменты. Но отец уже прожил на 5 лет дольше деда с той же болезнью и, дай Бог, еще поживет :) И это, конечно, самое радостное событие года.
В этом году я надеюсь, что мне не придется никому помогать с лечением от страшных болезней, ну а если придется, то все снова получится. Ну и надеюсь, что я не сгорю от хейта в комментах и дотащу в этом году школу до 10+ классных курсов и еще нескольких крутых проектов и обучений в компаниях :) Все же за что взялся - хочется довести до ума, чего и вам всем желаю во всех дорогих для вашего сердца начинаниях 🤝
С Новым годом ❤️☃️
Я никогда не подводил итоги года публично (по крайней мере этого не помню), да и в целом не очень люблю читать чужие. Не знаю почему, может потому что слишком приторно, может от зависти. Но в этом году мне захотелось попробовать. Если понравится - вам хана, буду повторять каждый год, придется отписываться. Так что у читателей есть шанс насовать мне ценного фидбека в комментах и предотвратить непоправимое.
В прошедшем году я:
1) Успешно доработал свой срок в топ-менеджменте (да, там все по срокам, которые идет вестинг акций, расскажу как это обычно устроено в будущих постах), получил продление контракта, но решил попробовать в предпринимательство, вдохновившись примерами Толи Карпова, Димы Волошина и Леши Драля (у каждого своя школа в своем формате и каждый по-своему преуспел в этом деле). Благо после работы в топах предпринимательствовать немного спокойнее. Ну, пока деньги не кончатся)
2) Открыл наконец-то свою школу ML после 14 лет преподавания в вузах, компаниях и на курсере, запустил первый поток первого курса, telegram- и youtube-каналы школы
3) Вылечил отца от рака. Ну, разумеется, до определенной степени (пока не загадываем, но очаг удален, лучевая пройдена, пока показатели тьфу-тьфу хорошие). И, конечно же, не я лично вылечил, тут спасибо большое профессионализму врачей Медси, с меня были сугубо организационные моменты. Но отец уже прожил на 5 лет дольше деда с той же болезнью и, дай Бог, еще поживет :) И это, конечно, самое радостное событие года.
В этом году я надеюсь, что мне не придется никому помогать с лечением от страшных болезней, ну а если придется, то все снова получится. Ну и надеюсь, что я не сгорю от хейта в комментах и дотащу в этом году школу до 10+ классных курсов и еще нескольких крутых проектов и обучений в компаниях :) Все же за что взялся - хочется довести до ума, чего и вам всем желаю во всех дорогих для вашего сердца начинаниях 🤝
С Новым годом ❤️☃️