tgoop.com/asisakov_channel/556
Last Update:
Примеры пет-проектов
Помните, я писал, что начале пути в резюме для нас важно иметь хорошие проекты, потому что естественно опыта работы скорей всего нет (это ведь начало пути)
Я тут подумал, и накидал несколько идей для проектов:
Данные: Flight Delay Data
Бейзлайн: Линейная регрессия
Что делаем:
- Грузим и готовим данные, также обрабатываем пропущенные значения.
- Генерация признаков: делаем много логичных признаков
- Отбор признаков: оставляем место только для самых важных признаков (время года, погодные условия, категории авиакомпаний).
- Разбиение данных на train / OOS (out-of-sample) / OOT (out-of-time).
- Обучаем базовую модельку.
Улучшение:
- Использование деревянных моделей: Random Forest Regressor или любой бустинг, имя которого нам нравится.
- Можно потыкать в фичи, отражающие временные зависимости с применением скользящих средних и лагов.
Скиллы, которые можно прокачать: Прогнозирование временных рядов, Feature Engineering, работа с табличными данными.
Данные: IMDb Reviews
Бейзлайн: Naive Bayes
Что делаем:
- Загрузка и очистка данных: токенизация текста, удаление стоп-слов.
- Преобразуем текста в векторы или численные признаки: TF-IDF, word2vec.
- Тут достаточно взять один трейн и одну валидацию.
- Обучение наивного Байеса
- Можно попробовать поработать над интерпретацией результатов.
Улучшение:
- Применяем RNN, LSTM или GRU просто посмотреть, что будет.
- И только потом переходим к трансформерам типа BERT.
Скиллы, которые можно прокачать: NLP, обработка текста, классификация, интерпретация моделей.
Данные: Credit Card Fraud Detection
Бейзлайн: Дерево решений, ну или тупо kNN
Что делаем:
- Грузии и обрабатываем пропущенные значения (для этой задачи особо важно рассмотреть разные виды), нормализация.
- Работаем с признаками - здесь надо поискать корреляции и собирать пары признаков.
- Разбиваем по возможности на train / OOS / OOT.
- Обучаем наши простенькие модельки.
- Пробуем полученные зависимости и флаги прокинуть в признаки.
Улучшение:
- Использование методов кластеризации (допустим, DBSCAN).
- Применение ансамблей (Isolation Forest, Local Outlier Factor). Если берете градиентный бустинг, то надо тюнить!
Скиллы, которые можно прокачать: Поиск аномалий, работа с несбалансированными данными.
Данные: MovieLens Dataset
Бейзлайн: Коллаборативная фильтрация (Matrix Factorization)
Что делаем:
- Классически обрабатываем табличные данные.
- Строим item-user matrix.
- По возможности засовываем туда SVD (singular value decomposition).
Улучшение:
- Переход к методам ALS (Alternating Least Squares).
- Берем весь скоуп рекомендательных моделей, про которые вы слышали и делаем фит-предикт
Скиллы, которые можно прокачать: Рекомендательные системы, матричное разложение, нейросетевые методы.
Данные: Тупо CIFAR-10 Dataset ну или любой другой с кагглов
Бейзлайн: Любая (желательно самописная) CNN сеточка
Что делаем:
- Загрузка и нормализация изображений.
- Построение базового CNN с несколькими сверточными и pooling слоями.
- Разбиение данных на тренировку и валидацию.
- Обучаем модели с использованием Cross Entropy Loss.
Улучшение:
- Использование более сложных моделей типа ResNet. Также берем все, что знаем и наваливаем побольше эпох
- Применение Transfer Learning с использованием предобученных моделей (VGG, Inception).
Скиллы, которые можно прокачать: Обработка изображений, сверточные нейронные сети, Transfer Learning.
Вообще все зависит от вашего воображения. Делайте огромные EDA, пробуйте крутить гиперпараметры, искать ошибки в предсказаниях и интерпретации. Делайте крутые визуализации! В общем, просто кайфуйте - вы можете прокачать любой скилл, главное, чтобы было желание и время
Заметьте, ни в одном из проектов я не упомянул LLM! Но это не значит, что с ними нельзя повозиться. Вон тем более Мистраль сделали бесплатный API. Так что крутость наших проектов зависит только от нас
#ml #petproject #interview