ASISAKOV_CHANNEL Telegram 556
Примеры пет-проектов

Помните, я писал, что начале пути в резюме для нас важно иметь хорошие проекты, потому что естественно опыта работы скорей всего нет (это ведь начало пути)

Я тут подумал, и накидал несколько идей для проектов:

1️⃣Предсказание числа задержанных авиарейсов

Данные: Flight Delay Data
Бейзлайн: Линейная регрессия
Что делаем:
- Грузим и готовим данные, также обрабатываем пропущенные значения.
- Генерация признаков: делаем много логичных признаков
- Отбор признаков: оставляем место только для самых важных признаков (время года, погодные условия, категории авиакомпаний).
- Разбиение данных на train / OOS (out-of-sample) / OOT (out-of-time).
- Обучаем базовую модельку.
Улучшение:
- Использование деревянных моделей: Random Forest Regressor или любой бустинг, имя которого нам нравится.
- Можно потыкать в фичи, отражающие временные зависимости с применением скользящих средних и лагов.
Скиллы, которые можно прокачать: Прогнозирование временных рядов, Feature Engineering, работа с табличными данными.

2️⃣Анализ тональности отзывов

Данные: IMDb Reviews
Бейзлайн: Naive Bayes
Что делаем:
- Загрузка и очистка данных: токенизация текста, удаление стоп-слов.
- Преобразуем текста в векторы или численные признаки: TF-IDF, word2vec.
- Тут достаточно взять один трейн и одну валидацию.
- Обучение наивного Байеса
- Можно попробовать поработать над интерпретацией результатов.
Улучшение:
- Применяем RNN, LSTM или GRU просто посмотреть, что будет.
- И только потом переходим к трансформерам типа BERT.

Скиллы, которые можно прокачать: NLP, обработка текста, классификация, интерпретация моделей.

3️⃣Поиск аномалий в данных кредитных карт

Данные: Credit Card Fraud Detection
Бейзлайн: Дерево решений, ну или тупо kNN
Что делаем:
- Грузии и обрабатываем пропущенные значения (для этой задачи особо важно рассмотреть разные виды), нормализация.
- Работаем с признаками - здесь надо поискать корреляции и собирать пары признаков.
- Разбиваем по возможности на train / OOS / OOT.
- Обучаем наши простенькие модельки.
- Пробуем полученные зависимости и флаги прокинуть в признаки.
Улучшение:
- Использование методов кластеризации (допустим, DBSCAN).
- Применение ансамблей (Isolation Forest, Local Outlier Factor). Если берете градиентный бустинг, то надо тюнить!
Скиллы, которые можно прокачать: Поиск аномалий, работа с несбалансированными данными.

4️⃣Рекомендательная система

Данные: MovieLens Dataset

Бейзлайн: Коллаборативная фильтрация (Matrix Factorization)

Что делаем:
- Классически обрабатываем табличные данные.
- Строим item-user matrix.
- По возможности засовываем туда SVD (singular value decomposition).

Улучшение:
- Переход к методам ALS (Alternating Least Squares).
- Берем весь скоуп рекомендательных моделей, про которые вы слышали и делаем фит-предикт
Скиллы, которые можно прокачать: Рекомендательные системы, матричное разложение, нейросетевые методы.

5️⃣Распознавание объектов на изображениях

Данные: Тупо CIFAR-10 Dataset ну или любой другой с кагглов
Бейзлайн: Любая (желательно самописная) CNN сеточка
Что делаем:
- Загрузка и нормализация изображений.
- Построение базового CNN с несколькими сверточными и pooling слоями.
- Разбиение данных на тренировку и валидацию.
- Обучаем модели с использованием Cross Entropy Loss.
Улучшение:
- Использование более сложных моделей типа ResNet. Также берем все, что знаем и наваливаем побольше эпох
- Применение Transfer Learning с использованием предобученных моделей (VGG, Inception).
Скиллы, которые можно прокачать: Обработка изображений, сверточные нейронные сети, Transfer Learning.

Вообще все зависит от вашего воображения. Делайте огромные EDA, пробуйте крутить гиперпараметры, искать ошибки в предсказаниях и интерпретации. Делайте крутые визуализации! В общем, просто кайфуйте - вы можете прокачать любой скилл, главное, чтобы было желание и время 👻

Заметьте, ни в одном из проектов я не упомянул LLM! Но это не значит, что с ними нельзя повозиться. Вон тем более Мистраль сделали бесплатный API. Так что крутость наших проектов зависит только от нас 💪

#ml #petproject #interview
Please open Telegram to view this post
VIEW IN TELEGRAM
15👍6🔥5👀1



tgoop.com/asisakov_channel/556
Create:
Last Update:

Примеры пет-проектов

Помните, я писал, что начале пути в резюме для нас важно иметь хорошие проекты, потому что естественно опыта работы скорей всего нет (это ведь начало пути)

Я тут подумал, и накидал несколько идей для проектов:

1️⃣Предсказание числа задержанных авиарейсов

Данные: Flight Delay Data
Бейзлайн: Линейная регрессия
Что делаем:
- Грузим и готовим данные, также обрабатываем пропущенные значения.
- Генерация признаков: делаем много логичных признаков
- Отбор признаков: оставляем место только для самых важных признаков (время года, погодные условия, категории авиакомпаний).
- Разбиение данных на train / OOS (out-of-sample) / OOT (out-of-time).
- Обучаем базовую модельку.
Улучшение:
- Использование деревянных моделей: Random Forest Regressor или любой бустинг, имя которого нам нравится.
- Можно потыкать в фичи, отражающие временные зависимости с применением скользящих средних и лагов.
Скиллы, которые можно прокачать: Прогнозирование временных рядов, Feature Engineering, работа с табличными данными.

2️⃣Анализ тональности отзывов

Данные: IMDb Reviews
Бейзлайн: Naive Bayes
Что делаем:
- Загрузка и очистка данных: токенизация текста, удаление стоп-слов.
- Преобразуем текста в векторы или численные признаки: TF-IDF, word2vec.
- Тут достаточно взять один трейн и одну валидацию.
- Обучение наивного Байеса
- Можно попробовать поработать над интерпретацией результатов.
Улучшение:
- Применяем RNN, LSTM или GRU просто посмотреть, что будет.
- И только потом переходим к трансформерам типа BERT.

Скиллы, которые можно прокачать: NLP, обработка текста, классификация, интерпретация моделей.

3️⃣Поиск аномалий в данных кредитных карт

Данные: Credit Card Fraud Detection
Бейзлайн: Дерево решений, ну или тупо kNN
Что делаем:
- Грузии и обрабатываем пропущенные значения (для этой задачи особо важно рассмотреть разные виды), нормализация.
- Работаем с признаками - здесь надо поискать корреляции и собирать пары признаков.
- Разбиваем по возможности на train / OOS / OOT.
- Обучаем наши простенькие модельки.
- Пробуем полученные зависимости и флаги прокинуть в признаки.
Улучшение:
- Использование методов кластеризации (допустим, DBSCAN).
- Применение ансамблей (Isolation Forest, Local Outlier Factor). Если берете градиентный бустинг, то надо тюнить!
Скиллы, которые можно прокачать: Поиск аномалий, работа с несбалансированными данными.

4️⃣Рекомендательная система

Данные: MovieLens Dataset

Бейзлайн: Коллаборативная фильтрация (Matrix Factorization)

Что делаем:
- Классически обрабатываем табличные данные.
- Строим item-user matrix.
- По возможности засовываем туда SVD (singular value decomposition).

Улучшение:
- Переход к методам ALS (Alternating Least Squares).
- Берем весь скоуп рекомендательных моделей, про которые вы слышали и делаем фит-предикт
Скиллы, которые можно прокачать: Рекомендательные системы, матричное разложение, нейросетевые методы.

5️⃣Распознавание объектов на изображениях

Данные: Тупо CIFAR-10 Dataset ну или любой другой с кагглов
Бейзлайн: Любая (желательно самописная) CNN сеточка
Что делаем:
- Загрузка и нормализация изображений.
- Построение базового CNN с несколькими сверточными и pooling слоями.
- Разбиение данных на тренировку и валидацию.
- Обучаем модели с использованием Cross Entropy Loss.
Улучшение:
- Использование более сложных моделей типа ResNet. Также берем все, что знаем и наваливаем побольше эпох
- Применение Transfer Learning с использованием предобученных моделей (VGG, Inception).
Скиллы, которые можно прокачать: Обработка изображений, сверточные нейронные сети, Transfer Learning.

Вообще все зависит от вашего воображения. Делайте огромные EDA, пробуйте крутить гиперпараметры, искать ошибки в предсказаниях и интерпретации. Делайте крутые визуализации! В общем, просто кайфуйте - вы можете прокачать любой скилл, главное, чтобы было желание и время 👻

Заметьте, ни в одном из проектов я не упомянул LLM! Но это не значит, что с ними нельзя повозиться. Вон тем более Мистраль сделали бесплатный API. Так что крутость наших проектов зависит только от нас 💪

#ml #petproject #interview

BY asisakov


Share with your friend now:
tgoop.com/asisakov_channel/556

View MORE
Open in Telegram


Telegram News

Date: |

According to media reports, the privacy watchdog was considering “blacklisting” some online platforms that have repeatedly posted doxxing information, with sources saying most messages were shared on Telegram. A Hong Kong protester with a petrol bomb. File photo: Dylan Hollingsworth/HKFP. The main design elements of your Telegram channel include a name, bio (brief description), and avatar. Your bio should be: Select “New Channel” As of Thursday, the SUCK Channel had 34,146 subscribers, with only one message dated August 28, 2020. It was an announcement stating that police had removed all posts on the channel because its content “contravenes the laws of Hong Kong.”
from us


Telegram asisakov
FROM American