tgoop.com/lightautoml/13
Last Update:
#теория #трюки
В задачах машинного обучения часто мы наблюдаем картину насыщения модели данными: при 80-90% используемых данных из тренировочного датасета модель выходит на плато качества и дальше не растет.
Однако встречаются кейсы (и они не являются супер редким исключением из правил), когда качество модели все продолжает и продолжает расти по мере наращивания выборки, на которой модель учится, и даже при 100% насыщения не наступает. Но размеченных данных больше нет и остались только неразмеченные - в данной ситуации может помочь так называемая техника псевдолейблинга (pseudolabelling). О том, как с ней работать и какие существуют важные правила, которые стоит соблюдать для достижения результата, можно прочитать в моем посте на форуме Kaggle: https://www.kaggle.com/c/tabular-playground-series-apr-2021/discussion/231738
BY LightAutoML framework

Share with your friend now:
tgoop.com/lightautoml/13