tgoop.com/zadachi_ds/116
Last Update:
Что сказал слепой, войдя в бар?
Аналогично и я с вами здороваюсь, товарищи🕶
Сегодня речь пойдёт о направлениях команд в Big Tech
При подаче на стажировку по направлению ML стоит обратить внимание не только на размер зарплаты и хайповость отрасли, но и крайне желательно иметь представление о том, чем вы бы хотели заниматься в рамках своей работы в команде. Конечно, можно пойти на собеседование с сильной математической базой, прочитанным хэндбуком Яндекса и рассчитывать на оффер.
🕶CV
отдел занимается задачами компьютерного зрения:
например, фильтр лица в яндекс.картинках(лица детектируются: компьютер локализует изображение лица и классифицирует)
в вайлдбериз же проходит анализ фото товаров, применяя сегментацию(семантическая, например, отделяет объект от фона и накладывает на них маски+U-Net, SegNet: сами методы берутся, в основном, из open-source библеотеки OpenCV, рекомендую почитать про алгоритмы тут)
идёт разработка сервиса "поиска по фото"
ставятся задачи дообучения детекционных моделей: так, при наличии всего 100 изображений для классификации (например, видов цветов) качество модели будет низким -> для улучшения ситуации можно: добавить новые данные/ провести аугментацию — увеличить датасет, изменяя масштаб/отражая изображения или использовать предобученную модель и настроить её под задачу(transfer learning:/fine tuning)
по этому направлению сейчас очень хайпят self-driving cars, анализ изображений(с адаптированными свёрточными моделями)
🕶NLP
: natural language processing a.k.a работа с естественными языками
в СБЕР есть лаборатории, задача которых- оптимизации алгоритмов приминительно к роботам, проектирование архитектур систем(юзают векторные представления объектов на основе seq2seq, transformer:Bert, например), опыт git
Алиса яндекса: распознавание речи(тут про алису: теория и практика)
из задач ещё: анализ тональности речи(распознавание эмоций), машинный перевод, чат-боты/виртуальные ассисты, сжатие текста в формат резюме(TF-IDF)
🕶LLM
отдел: тут команды разрабатывают большие языковые модели
к слову, у яндексоидов- это разработки YandexGPT
Llama(научпоп интервью)
MTS WEB SERVICES проведением экспериментов с LLM, реализацией техник промптинга таких ка p-tuning, написанием простых сервисов streamlit и обвязок к моделям(PyTorch based is needed)
можно выделеть ещё разницу LLM и NLP
🕶рекомендательные системы
: в VK AI есть R&D рекомендательных систем, где одни из задач: формирование данных в нужном формате для обучения, разработка контентных моделей(генерация эмбеддингов и их дальнейшее использование для улучшения качества рекомендаций/модерации), ну и, например, тестирование алгоритмов рекомендаций(SOTA подходов)
модели для рекомендаций обучаемы через airflow и kuberflow, а мониториемы через mlflow(👈про упаковку и дистрибутив модели)
подборки в Яндекс.Маркете, Яндекс.Музыке
🕶Временные ряды
Ozon прогнозирует спрос, управлением запасами на складах, базируясь на отчётности в виде временных рядов(используют time series decomposition, модели ARIMA для разложения временных рядов на тренировку, сезонность, остатки)
🕶генеративные модели
различные виды задач с DL нейронками
GAN, VAEs(модели для генерации новых образцов из латентного пространства)
в яндексе группа нейросетевых технологий(реализует современные DL-фреймворки(PyTorch, Tensorflow)), автономного транспорта (генерация сенсоров(лидаров, например), практика методов Nerf и gaussian splatting) и многое другое
🕶RL
:
deep reinforcement
тут больше задачи комбинаторной оптимизации, Offline/Online RL в хэнбуке хорошо описан принцип>туть
у SBER это разработки в робототехнике(фор ex. создание создание программного стека для работы с различными подвижными платформами): имплементация Imitation Learning/Behaviour Cloning, формирование требований к симуляторам, разметка данных
в Dota2😍 это создание агентов(ботов)
@zadachi_ds
BY Задачи DS - Собеседования, Соревнования, ШАД

Share with your friend now:
tgoop.com/zadachi_ds/116