tgoop.com/dsproglib/6645
Create:
Last Update:
Last Update:
📬 «Кажется, я слишком рано начинаю кодить…» — история подписчика
«Работая в ML, начинаю понимать, что недостаточно времени уделяю именно дизайну задачи. Часто сразу перехожу к моделированию, а потом сталкиваюсь с проблемами: не продумано, как формировать обучающую и тестовую выборки, где брать фичи, какие модели подойдут, как организовать пайплайн, чтобы результат можно было внедрить. И всё приходится переделывать заново».
На самом деле, вы не одиноки. Такой подход — распространённая ловушка даже среди опытных специалистов. Почему так происходит?
На что стоит обратить внимание до начала разработки
— Есть ли временная структура? Тогда нельзя мешать строки случайно.
— Возможен ли data leakage?
— Хватает ли данных для всех классов или сегментов?
— По пользователям, по времени, по объектам?
— Отражает ли такое разбиение реальный сценарий в продакшене?
— Сколько времени можно тратить на инференс?
— Где будет работать модель — в облаке, на сервере или на клиентском устройстве?
— Будет ли переобучение и как часто?
— Кто будет интерпретировать результат?
— Не приведёт ли фокус на «среднюю метрику» к ошибкам в критичных случаях?
— Кто и как будет применять результат?
— Какие требования к explainability?
— Как встроить модель в существующий пайплайн?
Cоветы:
— цель,
— доступные источники данных,
— ограничения,
— целевую метрику,
— требования к внедрению.
📣 А как вы подходите к постановке ML-задач? Что обязательно продумываете перед началом?
Библиотека дата-сайентиста #междусобойчик