Data notes

Про всякие транформаторы в Sklearn

Поговорили про то, как элегантно обернуть в pipeline любую пользовательскую функцию, как подправить встроенный транформатор, зацепили мега-полезные QuantileTransformer и TransformedTargetRegressor, а на сладкое рассказали про то, как в одну строку визуализировать конвейер.

😻

#python

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

68 views21:36

Data notes

Pretty often during tech interviews for a DS positions you can hear a question "Which ML models can extrapolate?" After checking this note about linear trees you can answer, that trees can extrapolate as well now.

KakkoKari （仮）

Linear trees in LightGBM: how to use

This was originally written as a “Hello world” kind of program aimed at giving my team at the DataLab some help getting started with less noisy variants of GBDTs.

🔥1

70 views01:39

Data notes

Forwarded from Aspiring Data Science (Anatoly Alekseev)

#conformal #mapie #crepes #timeseries

Конформализированная квантильная регрессия - как тебе такое, Илон Маск?!
Для временных рядов важный вопрос заключается в выборе калибрационного множества.

https://www.youtube.com/watch?v=--WcrDRtrYk

YouTube

Inge van den Ende-Leveraging conformal prediction for calibrated probabilistic time series forecasts

With the increasing amount of volatile renewable energy sources, it becomes more and more challenging to keep the electrical grid in balance. Probabilistic energy price forecasts can help to create this balance. But how do we obtain well-calibrated forecasts?…

61 views20:07

Data notes

Forwarded from addmeto (Grigory Bakunov)

NYT подает в суд на OpenAI и Microsoft за нарушение авторских прав, утверждая, что миллионы статей их газеты были использованы для обучения ИИ. И я уверен, что конечно использовались. Если не статьи целиком, то как минимум цитаты в других изданиях.

https://www.nytimes.com/2023/12/27/business/media/new-york-times-open-ai-microsoft-lawsuit.html

NY Times

The Times Sues OpenAI and Microsoft Over A.I. Use of Copyrighted Work (Published 2023)

Millions of articles from The New York Times were used to train chatbots that now compete with it, the lawsuit said.

66 views12:20

Data notes

https://book.thedatascienceinterviewproject.com/

Thedatascienceinterviewproject

About | THE DATA SCIENCE INTERVIEW BOOK

This page tells you what our vision and intention for this book is and how you can help in making it better.

128 views02:48

Data notes

Маняна-транкиле или IT-рекрутмент по-Аргентински.

Часть 1: Маленькие галеры - наше всё

Поскольку довелось провести весь 2023 год в Аргентине будучи при этом дважды лейоффнутым, то вел поиски работы в DS/MLE в том числе и здесь. Начать наверное нужно с того, как вообще здесь устроен рынок труда на мой взгляд (на знание абсолютной истины, разумеется, не претендую).

Продуктовых компаний практически нет, есть редкие исключения вроде Mercado Libre и некоторых других, конкурс туда колоссальный, например в том же Меркадо на Линкедина на мидловую позицию DS было больше 1000 заявок (Линкедин тогда еще отображал их реальное количество, а не просто 100+ как сейчас). Есть несколько бигтехов, неожиданно большое офисное здание IBM и небольшой офис Гугла в самом центре, но релевантных вакансий там я не обнаружил. Есть FMCG, например J&J, и неожиданно много консалтинга: Accenture, PWC, Deloitte, EY и что тоже неожиданно, у всех у них немало постоянно открытых DS позиций.

Но подавляющая часть вакансий это конечно же галеры, продающие человекочасы в США и немного в Канаду. Причем большинство из них маленькие и не международные как, например, EPAM. Однако в стране это самые высокооплачиваемые позиции в индустрии, да и там достаточно знать только английский, в то время как в локальных компаниях обязателен испанский.
Одна из основных причин проста - многие международные компании в стране отсутствуют из-за огромных налогов для официального трудоустройства в штат, ну и 9 дефолтов только в 21 веке, мягко говоря, не очень привлекают международные компании открывать здесь представительства. Так что выбор для англоговорящего получается не очень разнообразный.

👍1

73 viewsedited 00:52

Data notes

Часть 2: Опаздывающие рекрутеры и формализм на собеседованиях.

Сам делал несколько холодных откликов в галеры и Accenture, из них ответ пришел только из последней. Предложили созвониться, я ответил, что по-испански не говорю, на что менеджер ответил, что пойдет уточнить, можно ли на позиции работать только с английским. И пропал. Через пару недель пишет уже другой менеджер и тоже безвозвратно ушел уточнять насчет английского. Из галер ноль ответов. Однако достаточно много сообщений приходило из Линкедина (и продолжает приходить сейчас, что, кстати, сигнализирует, что рынок все еще подает признаки жизни и не умер окончательно, что радует).
Веселье начинается с того, что больше половины рекрутеров либо опаздывают минут на 15, либо просто забывают про встречу, вспоминая на следующий день, что вот мол у нас должен быть звонок, но я вот забыл про него, извини, дружище, давай в другое время назначим. Один товарищ переносил созвон 4 раза(!) и клялся, что он вот-вот улучшит свои процессы и больше так не будет. Когда он не пришел в 4 раз, и я сказал, что вакансия мне больше не интересна, он разозлился, мол, как же так, мы же договаривались? Большинство скринов выглядят довольно глупо: спрашивают, сколько лет опыта в такой-то и такой-то технологии и ноль вопросов про сделанные проекты, желаемую ЗП. Одна дама, которая, кстати, тоже не пришла на созвон и сейчас в процессе назначения нового времени (вот думаю, может мне тоже не придти хоть раз для справедливости:) ), хотела меня сразу режектнуть, якобы минимальный уровень английского для работы - С1 и называла его то “very fluent”, то “very advanced”, при это пишет мое имя из 4 букв (Alex) с ошибками и частенько с маленькой буквы, “уважение” к собеседнику проявляла изо всех сил:).

Дальше, поскольку галеры не хотят кого попало показывать клиентам, а сами тех собес провести не могут, то его проводят сторонние конторки. Например, когда один из скринингов я все же прошел успешно, меня отправили решать литкод под видео запись, которую потом просматривал то ли сам клиент, то ли тот же аутсорсер, тоже было весело: все задачи решил (по кр мере, я и интервьюер были оба удовлетворены результатом), а потом пришел отказ с пометкой “negative feedback”, мол дальше ты, дружок, не проходишь. Попросил по-человечески пояснить, а что именно было не так? (Запрос фидбека со стороны кандидата - абсолютно нормальный этап всех собеседований). Прислали скрин какой-то своей системы с моим именем, названием задач и оценка результата “moderate”. Я пишу, вы уж определитесь со своим мнением, “moderate” или “negative” на что в переписку вклинилась дамочка со стороны клиента и ответила мне, что мы в этих типах ваших фидбеков не разбираемся, сказали проваливай, и точка.
А так 90% скринингов не проходил и никакого ответа не было вообще. Потом от ребят узнал, что, например, в Мексике, где похожий рынок труда, тоже такая история, и дело в том, что галерные рекрутеры очень формально подходят к требованиям заказчика по знанию и опыту с инструментарием. Например, сказано, опыт с Python не менее 5 лет, а если у тебя “только” 4.5 года, и при этом PhD, 3 х Kaggle GM и много чего еще, то ты не пройдешь хоть тресни. Поэтому скрининг и сводится просто к тому, чтобы ты перечислил года опыта с нужными клиенту тулзами и пофиг, как именно ты ими пользовался. При случае проверю эту гипотезу лично, если получится совсем уж нагло не врать.

Я уже не говорю про то, что много спама нерелевантными вакансиями, хотя это проблема есть во многих других странах.

👍1

73 views00:53

Data notes

Часть 3: Местный менталитет решает

Проблема непрофессионализма в Аргентине стоит не только в IT, но и во многих других отраслях и сферах жизни. Достаточно просто посмотреть, а лучше попользоваться местными товарами легкой промышленности, такого трэша я не видел нигде. Подумаешь, мебель или одежда кривая/косая/разваливается через неделю? Ничего страшного, почини сам и будет норм. Сделано тяп-ляп, но ведь сделано же? Люди вообще не понимают, что такого, что ты просто забыл прийти на встречу или опоздал на пару часов? Здесь это нормально, никто никуда не торопится, все на расслабоне. Так что все вышеописанное почти наверняка - одно из следствий местного менталитета и образа жизни, который даже русским, славящимся своим раздолбайством в мире, не понять. Хотя бы врачи, к которым я тут обращался, пока не были замечены в подобном, за что им спасибо.

86 views00:53

Data notes

https://alimbekov.com/%d0%ba%d0%b0%d0%ba-%d1%81%d1%82%d0%b0%d1%82%d1%8c-machine-learning-engineer/

Персональный блог Рената Алимбекова - Data Science, ML и Analytics Engineering

Как стать Machine Learning Engineer Технологии и навыки

Как стать Machine Learning Engineer. Технологии, востребованность, инструменты и навыки.

72 views14:52

Data notes

Forwarded from Data Secrets

Плейлист с отличными лекциями по статистике

2^8 видео, структурированных по темам, опытные лекторы и понятные презентации. Есть основы статистики, AB-тесты, проверки гипотез, статистика в питоне и многое другое. Есть даже введение в линал: матрицы, квадратичные формы. Кладезь!

P.S. За рекомендацию спасибо нашему чату

😻

#advice

Please open Telegram to view this post

VIEW IN TELEGRAM

71 views23:19

Data notes

Forwarded from Ilya Gusev

Компиляция нескольких постов про то, что читать про ML/NLP/LLM:

Обучающие материалы 🗒
- https://habr.com/ru/articles/774844/
- https://lena-voita.github.io/nlp_course.html
- https://web.stanford.edu/~jurafsky/slp3/ed3book.pdf
- https://www.youtube.com/watch?v=rmVRLeJRkl4&list=PLoROMvodv4rMFqRtEuo6SGjY4XbRIVRd4
- https://huggingface.co/docs/transformers/perf_train_gpu_one

Блоги 🍿
- https://huggingface.co/blog/
- https://blog.eleuther.ai/
- https://lilianweng.github.io/
- https://oobabooga.github.io/blog/
- https://kipp.ly/
- https://mlu-explain.github.io/
- https://yaofu.notion.site/Yao-Fu-s-Blog-b536c3d6912149a395931f1e871370db

Прикладные курсы 👴
- https://github.com/yandexdataschool/nlp_course
- https://github.com/DanAnastasyev/DeepNLP-Course
(Я давно не проходил вообще никакие курсы, если есть что-то новое и хорошее - пишите!)

Каналы 🚫
- https://www.tgoop.com/gonzo_ML
- https://www.tgoop.com/izolenta_mebiusa
- https://www.tgoop.com/tech_priestess
- https://www.tgoop.com/rybolos_channel
- https://www.tgoop.com/j_links
- https://www.tgoop.com/lovedeathtransformers
- https://www.tgoop.com/seeallochnaya
- https://www.tgoop.com/doomgrad
- https://www.tgoop.com/nadlskom
- https://www.tgoop.com/dlinnlp
(Забыл добавить вас? Напишите в личку, список составлялся по тем каналам, что я сам читаю)

Чаты 😁
- https://www.tgoop.com/betterdatacommunity
- https://www.tgoop.com/natural_language_processing
- https://www.tgoop.com/LLM_RNN_RWKV
- https://www.tgoop.com/ldt_chat

Основные статьи 😘
- Word2Vec: Mikolov et al., Efficient Estimation of Word Representations in Vector Space https://arxiv.org/pdf/1301.3781.pdf
- FastText: Bojanowski et al., Enriching Word Vectors with Subword Information https://arxiv.org/pdf/1607.04606.pdf
- Attention: Bahdanau et al., Neural Machine Translation by Jointly Learning to Align and Translate https://arxiv.org/abs/1409.0473
- Transformers: Vaswani et al., Attention Is All You Need https://arxiv.org/abs/1706.03762
- BERT: Devlin et al., BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding https://arxiv.org/abs/1810.0480
- GPT-2, Radford et al., Language Models are Unsupervised Multitask Learners https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf
- GPT-3, Brown et al, Language Models are Few-Shot Learners https://arxiv.org/abs/2005.14165
- LaBSE, Feng et al., Language-agnostic BERT Sentence Embedding https://arxiv.org/abs/2007.01852
- CLIP, Radford et al., Learning Transferable Visual Models From Natural Language Supervision https://arxiv.org/abs/2103.00020
- RoPE, Su et al., RoFormer: Enhanced Transformer with Rotary Position Embedding https://arxiv.org/abs/2104.09864
- LoRA, Hu et al., LoRA: Low-Rank Adaptation of Large Language Models https://arxiv.org/abs/2106.09685
- InstructGPT, Ouyang et al., Training language models to follow instructions with human feedback https://arxiv.org/abs/2203.02155
- Scaling laws, Hoffmann et al., Training Compute-Optimal Large Language Models https://arxiv.org/abs/2203.15556
- FlashAttention, Dao et al., FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness https://arxiv.org/abs/2205.14135
- NLLB, NLLB team, No Language Left Behind: Scaling Human-Centered Machine Translation https://arxiv.org/abs/2207.04672
- Q8, Dettmers et al., LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale https://arxiv.org/abs/2208.07339
- Self-instruct, Wang et al., Self-Instruct: Aligning Language Models with Self-Generated Instructions https://arxiv.org/abs/2212.10560
- Alpaca, Taori et al., Alpaca: A Strong, Replicable Instruction-Following Model https://crfm.stanford.edu/2023/03/13/alpaca.html
- LLaMA, Touvron, et al., LLaMA: Open and Efficient Foundation Language Models https://arxiv.org/abs/2302.13971

Please open Telegram to view this post

VIEW IN TELEGRAM

🙏1

86 views13:59

Data notes

Руководство по поиску работы в сфере DS (да, теперь приходится искать ее самому, а не как раньше, увы..) от автора канала Борис опять. Пока сам не смотрел, но уверен, что будет полезно

84 viewsedited 02:39

Data notes

Планрую применить в рабочих проектах простую утилиту для отбора и генерации признаков, которая может быть интегрирована в sklearn.Pipeline.
У автора также есть простые и короткие, но полезные курсы на Udemy по отбору признаков (посмотрел за один вечер, успел применить упоминаемый там подход для устранения коррелирующих признаков) и по генерации признаков для МЛ с применением этой утилиты

GitHub

GitHub - feature-engine/feature-engine-examples

Contribute to feature-engine/feature-engine-examples development by creating an account on GitHub.

83 views01:53

Data notes

Forwarded from New Yorko Times (Yury Kashnitsky)

ML-упражнения NeetCode
#links_with_intro #ml #interviews

Светлая наша голова NeetCode (автор вот этого роудмэпа по литкоду и ютуб-канала NeetCode) выложил практические упражнения по ML - от градиентного спуска через основы PyTorch и до GPT с нуля и разговоров с ней.

76 views00:53

Data notes

Позвали пособесить двух ребят на позиции DS в нигерийский банк. Да, там у них это тоже есть :) Открываю резюме первого, написано все довольно неплохо, заявлено 6 лет релевантного опыта (почти как у меня), линкедин профиль пафосный с кучей контактов и активностей, много разного на гитхабе (правда, код не посмотрел, а зря, как потом выяснилось) думаю, интересно будет поговорить. На деле оказалось, что из 6 лет опыта там только 2-3, про проекты рассказать подробнее, чем описано в резюме, не смог , а когда стали спрашивать по технике что-то вроде "как строится ROC кривая и какой смысл у площади под ней) парень не стесняясь включенной камеры стал вбивать вопросы в гугл/чатЖПТ и зачитывать ответы...задачку на кодинг решил не давать. Ну ладно, разные люди бывают, подумал я и подключился к звонку со следующим кандидатом. Но чуда не случилсоь и второй коллега вел себя абсолютно аналогично.

Спрашиваю нанимающего менеджера, как так, на что они расчитывают, ну допустим ты как-то незаметно считерил и получил оффер, а как потом работать?) На что он ответил, что уже три года они ищут внутренних кандидатов по требованию руководства (сейчас там в основном внешники из других стран на аналогичных позициях работают), но наняли только одного адекватного человека, все остальные ведут себя примерно так как описано выше:)

Современные технологии позволяют пройти собеседование по видео практически не имея опыта (тут можно пофантазировать, как именно, допустим чел не печатает, а у ему просто кто-то диктует ответ во второй наушник и т.д.) и получить оффер. У индусов вот целая индустрия есть, где за вас сделают все этапы от сочинения несуществующего опыта до прохождения интервью за вас. Особенно это стало актуально сейчас во время возросшей конкуренции. Похоже, что background checking становится одним из наиболее критических этапов найма.

😁1😱1

148 views15:32

Data notes

Прочел Credit Risk Scorecards: Developing and Implementing Intelligent Credit Scoring. Несмотря на почтенный возраст (книга вышла в 2005 году), оказалась невероятно полезной для погружения в кредитный скоринг. Поскольку сам сейчас работаю над задачами, связанными со скорингом, в очередной раз убеждаюсь, что основа успеха data based products - это понимание специфики индустрии, и только потом технологии. Для себя узнал много неочевидных фишек, которые специфичны именно для скоринга, которые скорее всего будут упущены, если проектом заниматься без знания этой специфики даже будучи технологическим ниндзя. Этот тренд уже очевиден при поиске работы: приоритет отдается кандидатам с опытом именно в конкретной индустрии, а не тем, у кого в разделе Stack в резюме перечислено больше всего хитроумных названий и аббревиатур.

👍2

142 views20:00

Data notes

Сегодня на hr скрининге в довольно известную компанию, у которой в описании вакансии стоит плашка, что мы "employer of equal opportunities", спросили, а нет ли у меня какого-то другого паспорта, кроме РФ. Затем то же самое про семью. Затем нет ли родственников с гражданством страны, куда предполагается релокация. Прелестно.

😁1🤔1

70 views21:14

Data notes

Forwarded from Aspiring Data Science (Anatoly Alekseev)

#featureengineering #featureselection #diogenes

Хорошие новости!

Как уже поняли читатели моего блога, в библиотеке отбора признаков Диоген появился также и модуль инженерии/конструирования новых признаков, но не бездумного, как в autofeat, а направленного, на основании теоретико-информационных метрик (в основном, взаимной информации MI комбинаций факторов с таргетом).

Основной мотивацией была попытка выделить рациональное зерно из набивших оскомину унылых рекомендаций и бубнежа вида "также иногда помогает логарифмирование, экспоненциирование, извлечение корней, попарное перемножение или деление исходных факторов". Эти рекомендации регулярно встречаются в курсах по FE и презентациях кэгглеров, но непонятно, как к этому вообще подступаться, кроме разве что каких-то случайных выпадов. Ну вот есть у меня 10k оригинальных признаков, мне взаимные отношения или произведения у каких именно из 50M пар проверять?

А так как метод MRMR в Диогене как раз и определяет достаточно хорошее в смысле предиктивности и уникальности подмножество признаков, некоторая проверка комбинаций становится уже реальной. Ещё больше пространство поиска сужает эвристика, что MI от "хорошей" на предмет тесной нелинейной связи пары признаков должна быть выше суммы индивидуальных MI факторов пары.

Это уже позволяет брать любые известные классы функций и для пары признаков a,b пытаться подбирать (в рамках бюджета) F3(F1(a),F2(b)) дающие максимальную MI с таргетом. В некоторых простых случаях этот метод срабатывает на ура, результаты я показывал выше. Но, если истинная зависимость сильно искажает вход ДО передачи в нелинейную функцию, метод становится практически бессилен и связь не обнаруживается.

Алексей @introspec предложил очень классную идею: почему бы не заменить подбор функций, сходимость которого дело скорее удачи, подбором коэффициентов ортогональных многочленов (например, Эрмитовых), теоретически умеющих аппроксимировать любую функциональную зависимость на отрезке? Взяв степень пониже, и коэффициенты поближе к 0, можно обеспечить своего рода регуляризацию.

Я попробовал пару дней тому заменить случайный поиск в пространстве функций на почти настолько же случайный поиск в пространстве коэффициентов Эрмитовых полиномов, но поставил вариацию на паузу из-за того, что не находились достаточно хорошие решения.

Теперь, собственно, к новостям )
Потестил свой модуль с разными исходными зависимостями, немного прояснил чувствительность и границы применимости метода. Пофиксил баги.

И... Заменил случайный перебор Эрмитовых полиномов на направленную оптимизацию с помощью Optuna )
Решения явно стали находиться получше за разумное время, иногда по качеству не уступают "нативным", когда зависимость известна. Нужно больше тестов. И, самое главное, предстоит выяснить, дают ли такие необычные преобразования реальные преимущества в ML метриках, или же ведут к оверфиту.

75 views14:42

Data notes

Forwarded from Artem Ryblov’s Data Science Weekly

Designing Machine Learning Systems by Chip Huyen

Machine learning systems are both complex and unique. Complex because they consist of many different components and involve many different stakeholders. Unique because they're data dependent, with data varying wildly from one use case to the next. In this book, you'll learn a holistic approach to designing ML systems that are reliable, scalable, maintainable, and adaptive to changing environments and business requirements.

Author Chip Huyen, co-founder of Claypot AI, considers each design decision--such as how to process and create training data, which features to use, how often to retrain models, and what to monitor--in the context of how it can help your system as a whole achieve its objectives. The iterative framework in this book uses actual case studies backed by ample references.

This book will help you tackle scenarios such as:
- Engineering data and choosing the right metrics to solve a business problem
- Automating the process for continually developing, evaluating, deploying, and updating models
- Developing a monitoring system to quickly detect and address issues your models might encounter in production
- Architecting an ML platform that serves across use cases
- Developing responsible ML systems

Link: https://www.oreilly.com/library/view/designing-machine-learning/9781098107956/

Navigational hashtags: #armknowledgesharing #armbooks
General hashtags: #machinelearningsystemdesign #systemdesign #machinelearning #ml #designingmachinelearningsystems

@data_science_weekly

76 views10:26

2025/10/20 07:43:09
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>