tgoop.com/dsproglib/6919
Last Update:
🏆 Плейбук Kaggle-грандмастеров: 7 проверенных техник моделирования для табличных данных
За годы участия в соревнованиях команда грандмастеров Kaggle выработала систему, которая стабильно выводит их в топ.
Неважно, миллионы строк или смещённые данные — эти 7 техник помогают быстро находить лучшие решения:
Проверяйте не только пропуски и корреляции:
— сравнивайте распределения train/test,
— ищите временные тренды.
GPU позволяет делать такие анализы на миллионах строк за секунды.
Создавайте несколько моделей — линейные, GBDT, нейросети — и сравнивайте их.
Так быстрее понять, какие архитектуры чувствуют данные лучше.
Генерируйте сотни и тысячи признаков.
Комбинируйте категории, делайте агрегации — с cuDF
всё работает в десятки раз быстрее.
Добавляйте модели по одной, сохраняйте только те комбинации, что реально улучшают метрику.
С GPU можно протестировать тысячи ансамблей за минуты.
Стройте метамодели, обучая их на предсказаниях базовых моделей.
Отлично работает, когда разные модели ловят разные закономерности.
Используйте лучшие модели, чтобы предсказать метки для неразмеченных данных, и дообучайтесь на них.
Больше данных — выше устойчивость.
С GPU можно пройти несколько циклов за часы, а не дни.
#буст