asisakov@asisakov_channel P.556

1️⃣

Предсказание числа задержанных авиарейсов

Данные: Flight Delay Data
Бейзлайн: Линейная регрессия
Что делаем:
- Грузим и готовим данные, также обрабатываем пропущенные значения.
- Генерация признаков: делаем много логичных признаков
- Отбор признаков: оставляем место только для самых важных признаков (время года, погодные условия, категории авиакомпаний).
- Разбиение данных на train / OOS (out-of-sample) / OOT (out-of-time).
- Обучаем базовую модельку.
Улучшение:
- Использование деревянных моделей: Random Forest Regressor или любой бустинг, имя которого нам нравится.
- Можно потыкать в фичи, отражающие временные зависимости с применением скользящих средних и лагов.
Скиллы, которые можно прокачать: Прогнозирование временных рядов, Feature Engineering, работа с табличными данными.

2️⃣

Анализ тональности отзывов

Данные: IMDb Reviews
Бейзлайн: Naive Bayes
Что делаем:
- Загрузка и очистка данных: токенизация текста, удаление стоп-слов.
- Преобразуем текста в векторы или численные признаки: TF-IDF, word2vec.
- Тут достаточно взять один трейн и одну валидацию.
- Обучение наивного Байеса
- Можно попробовать поработать над интерпретацией результатов.
Улучшение:
- Применяем RNN, LSTM или GRU просто посмотреть, что будет.
- И только потом переходим к трансформерам типа BERT.

Скиллы, которые можно прокачать: NLP, обработка текста, классификация, интерпретация моделей.

3️⃣

Поиск аномалий в данных кредитных карт

Данные: Credit Card Fraud Detection
Бейзлайн: Дерево решений, ну или тупо kNN
Что делаем:
- Грузии и обрабатываем пропущенные значения (для этой задачи особо важно рассмотреть разные виды), нормализация.
- Работаем с признаками - здесь надо поискать корреляции и собирать пары признаков.
- Разбиваем по возможности на train / OOS / OOT.
- Обучаем наши простенькие модельки.
- Пробуем полученные зависимости и флаги прокинуть в признаки.
Улучшение:
- Использование методов кластеризации (допустим, DBSCAN).
- Применение ансамблей (Isolation Forest, Local Outlier Factor). Если берете градиентный бустинг, то надо тюнить!
Скиллы, которые можно прокачать: Поиск аномалий, работа с несбалансированными данными.

4️⃣

Рекомендательная система

Данные: MovieLens Dataset

Бейзлайн: Коллаборативная фильтрация (Matrix Factorization)

Что делаем:
- Классически обрабатываем табличные данные.
- Строим item-user matrix.
- По возможности засовываем туда SVD (singular value decomposition).

Улучшение:
- Переход к методам ALS (Alternating Least Squares).
- Берем весь скоуп рекомендательных моделей, про которые вы слышали и делаем фит-предикт
Скиллы, которые можно прокачать: Рекомендательные системы, матричное разложение, нейросетевые методы.

5️⃣

Распознавание объектов на изображениях

Данные: Тупо CIFAR-10 Dataset ну или любой другой с кагглов
Бейзлайн: Любая (желательно самописная) CNN сеточка
Что делаем:
- Загрузка и нормализация изображений.
- Построение базового CNN с несколькими сверточными и pooling слоями.
- Разбиение данных на тренировку и валидацию.
- Обучаем модели с использованием Cross Entropy Loss.
Улучшение:
- Использование более сложных моделей типа ResNet. Также берем все, что знаем и наваливаем побольше эпох
- Применение Transfer Learning с использованием предобученных моделей (VGG, Inception).
Скиллы, которые можно прокачать: Обработка изображений, сверточные нейронные сети, Transfer Learning.

Вообще все зависит от вашего воображения. Делайте огромные EDA, пробуйте крутить гиперпараметры, искать ошибки в предсказаниях и интерпретации. Делайте крутые визуализации! В общем, просто кайфуйте - вы можете прокачать любой скилл, главное, чтобы было желание и время 👻

Заметьте, ни в одном из проектов я не упомянул LLM! Но это не значит, что с ними нельзя повозиться. Вон тем более Мистраль сделали бесплатный API. Так что крутость наших проектов зависит только от нас 💪

#ml #petproject #interview

Please open Telegram to view this post

VIEW IN TELEGRAM

asisakov

РЕЗЮМЕ
Часть 2

Начало выше ⬆️

4. Проекты

Здесь есть некоторое пересечение с тем, что было описано уже в рабочих проектах. Это скорее подходит для проектов, которые вы делали в свободное время. Например, у вас есть классный пет-проект, который помогает…

✍15👍6🔥5👀1

www.tgoop.com/asisakov_channel/556

1.08K viewsedited Sep 23, 2024 at 15:41

tgoop.com/asisakov_channel/556

Create: 2024-09-23
Last Update: 2025-09-20 17:00:31

Примеры пет-проектов

Помните, я писал, что начале пути в резюме для нас важно иметь хорошие проекты, потому что естественно опыта работы скорей всего нет (это ведь начало пути)

Я тут подумал, и накидал несколько идей для проектов:

1️⃣Предсказание числа задержанных авиарейсов

Данные: Flight Delay Data
Бейзлайн: Линейная регрессия
Что делаем:
- Грузим и готовим данные, также обрабатываем пропущенные значения.
- Генерация признаков: делаем много логичных признаков
- Отбор признаков: оставляем место только для самых важных признаков (время года, погодные условия, категории авиакомпаний).
- Разбиение данных на train / OOS (out-of-sample) / OOT (out-of-time).
- Обучаем базовую модельку.
Улучшение:
- Использование деревянных моделей: Random Forest Regressor или любой бустинг, имя которого нам нравится.
- Можно потыкать в фичи, отражающие временные зависимости с применением скользящих средних и лагов.
Скиллы, которые можно прокачать: Прогнозирование временных рядов, Feature Engineering, работа с табличными данными.

2️⃣Анализ тональности отзывов

Данные: IMDb Reviews
Бейзлайн: Naive Bayes
Что делаем:
- Загрузка и очистка данных: токенизация текста, удаление стоп-слов.
- Преобразуем текста в векторы или численные признаки: TF-IDF, word2vec.
- Тут достаточно взять один трейн и одну валидацию.
- Обучение наивного Байеса
- Можно попробовать поработать над интерпретацией результатов.
Улучшение:
- Применяем RNN, LSTM или GRU просто посмотреть, что будет.
- И только потом переходим к трансформерам типа BERT.

Скиллы, которые можно прокачать: NLP, обработка текста, классификация, интерпретация моделей.

3️⃣Поиск аномалий в данных кредитных карт

Данные: Credit Card Fraud Detection
Бейзлайн: Дерево решений, ну или тупо kNN
Что делаем:
- Грузии и обрабатываем пропущенные значения (для этой задачи особо важно рассмотреть разные виды), нормализация.
- Работаем с признаками - здесь надо поискать корреляции и собирать пары признаков.
- Разбиваем по возможности на train / OOS / OOT.
- Обучаем наши простенькие модельки.
- Пробуем полученные зависимости и флаги прокинуть в признаки.
Улучшение:
- Использование методов кластеризации (допустим, DBSCAN).
- Применение ансамблей (Isolation Forest, Local Outlier Factor). Если берете градиентный бустинг, то надо тюнить!
Скиллы, которые можно прокачать: Поиск аномалий, работа с несбалансированными данными.

4️⃣Рекомендательная система

Данные: MovieLens Dataset

Бейзлайн: Коллаборативная фильтрация (Matrix Factorization)

Что делаем:
- Классически обрабатываем табличные данные.
- Строим item-user matrix.
- По возможности засовываем туда SVD (singular value decomposition).

Улучшение:
- Переход к методам ALS (Alternating Least Squares).
- Берем весь скоуп рекомендательных моделей, про которые вы слышали и делаем фит-предикт
Скиллы, которые можно прокачать: Рекомендательные системы, матричное разложение, нейросетевые методы.

5️⃣Распознавание объектов на изображениях

Данные: Тупо CIFAR-10 Dataset ну или любой другой с кагглов
Бейзлайн: Любая (желательно самописная) CNN сеточка
Что делаем:
- Загрузка и нормализация изображений.
- Построение базового CNN с несколькими сверточными и pooling слоями.
- Разбиение данных на тренировку и валидацию.
- Обучаем модели с использованием Cross Entropy Loss.
Улучшение:
- Использование более сложных моделей типа ResNet. Также берем все, что знаем и наваливаем побольше эпох
- Применение Transfer Learning с использованием предобученных моделей (VGG, Inception).
Скиллы, которые можно прокачать: Обработка изображений, сверточные нейронные сети, Transfer Learning.

Вообще все зависит от вашего воображения. Делайте огромные EDA, пробуйте крутить гиперпараметры, искать ошибки в предсказаниях и интерпретации. Делайте крутые визуализации! В общем, просто кайфуйте - вы можете прокачать любой скилл, главное, чтобы было желание и время 👻

Заметьте, ни в одном из проектов я не упомянул LLM! Но это не значит, что с ними нельзя повозиться. Вон тем более Мистраль сделали бесплатный API. Так что крутость наших проектов зависит только от нас 💪

#ml #petproject #interview

Telegram News

Примеры пет-проектов