tgoop.com/ai_tablet/34
Last Update:
Набросал книжки/курсы, которые помогут стать хорошим DS
База
1. Классическое машинное обучение (табличные данные)
• Изучить можно по книге "Python Machine Learning by Sebastian Raschka". Читать можно все, кроме 13-й главы, которая устарела
• Специализация "Машинное обучение и анализ данных" от МФТИ и Яндекса
• Внутри 6 курсов (база по ml первые три курса, очень хороший курс по статистике 4й, 5-6 практика можно пропускать)
• Открытые решения / соревнования на Kaggle. Учат метрикам и валидации, и конечно строить звездолеты
• Лекции с датафеста https://www.youtube.com/channel/UCeq6ZIlvC9SVsfhfKnSvM9w и особенно ml training https://www.youtube.com/playlist?list=PLTlO6nV_TaGD21r6xPHhV1k7QfVuug3BB (тк это база старые доклады могут быть даже полезнее)
Практика/документация
• Углубиться в бустинги (надо хорошо понимать как и когда их применять, тк это основа в табличных задачах)
• Документация: https://catboost.ai/ https://xgboost.readthedocs.io/en https://lightgbm.readthedocs.io/en
2. Introducing MLOps (издательство O'Reilly)
• 200 страниц о том, как управлять моделями машинного обучения, чтобы они хорошо работали ("DevOps" для моделей).
3. Хайповый System design книжка Designing Machine Learning Systems (O'Reilly)
• О правильном построении моделей с точки зрения выбора метрик, поддерживаемости и масштабируемости
4. Развитие аналитических навыков – последнее в базе, но первое по важности
• Книга «Девенпорт, аналитика как конкурентное преимущество»
• Разобраться с SQL и Pandas – для работы с данными
5. Курс по рекомендательным системам Recsys: https://m.youtube.com/watch?v=igwNb7dBlms и https://www.youtube.com/playlist?list=PLX6toIl17nZENhNNUTrwR3Pxb8nCSKZsV (основное - 5 лекций, остальное - прикладные кейсы)
6. АБ-тестирование:
• https://vkteam.medium.com/practitioners-guide-to-statistical-tests-ed2d580ef04f (гайд от VK)
• https://practicum.yandex.ru/statistics-basic/ (бесплатный курс от Яндекса, вначале максимально примитивно)
• Книга Trustworthy Online Controlled Experiments
7. NLP – путь тут длинный. Нужно разобраться в tf-idf -> Word2vec и fasttext -> lstm -> трансформеры -> berts -> gpt -> LLM (+lora). Помогут один из следующих курсов
• Курс от ШАДа по NLP https://github.com/yandexdataschool/nlp_course
• Хорошо зарекомендовавший https://lena-voita.github.io/nlp_course.html
• База до трансформеров включительно от Abby, хоть и немного устаревший https://github.com/DanAnastasyev/DeepNLP-Course
• Здесь и далее очень круто погружают различные публикации с обзорными статьями. Наприме A Comprehensive Overview of Large Language Models https://arxiv.org/pdf/2307.06435
8. CV. Deep Learning with PyTorch база по DL. Практическая книга по компьютерному зрению (как построить первые модели для классификации, сегментации). А дальше уже самостоятельно изучать темы. Важные блоки:
• image classification
• segmentation
• GAN
• object detection
• instant segmentation
• pose estimation
• diffusion models
• multimodal models
• Vision Transformer
• +обзорные статьи
PS Если есть что добавить пишите в комментарии)
BY AI.Insaf
Share with your friend now:
tgoop.com/ai_tablet/34