partially unsupervised@partially

partially unsupervised

Узнал новый для себя концепт - multisource weak supervision. Точнее, красивое название в новинку, а сама идея старая: вместо качественной, но дорогой разметки руками нафигачим эвристик, которые сколько-то похожи на правду.

Эвристики и другие источники слабой разметки могут быть разными - lambda text: 'enlarge your' in text, какие-нибудь регэксы, результаты внешних моделей и так далее, отсюда и multisource. Потому после применения всех внешних supervision источников нужно сделать их сколько-то согласованными, для чего, оказывается, есть уже довольно много инструментов. Среди модных хипстерских замечен Snorkel (активно рекламируемый в курсe Стeнфорда), в опенсорсе есть свежак с NeurIPS 2021 (слайды на тему).

Вообще weak supervision - отлично работающий инструмент. Например, есть миллион фотографий, нужно удалить размытые. Самый простой способ: разметить эвристикой с лаплассианом, а потом на этой разметке обучить простой классификатор. Изначальная эвристика работает не очень хорошо сама по себе - например, размытая фотография клетчатой рубашки будет иметь высокую дисперсию лаплассиана, а неразмытая фотография стены - низкую. Но обученный классификатор сильно снизит этот уровень шума.

GitHub

GitHub - autonlab/weasel: Weakly Supervised End-to-End Learning (NeurIPS 2021)

Weakly Supervised End-to-End Learning (NeurIPS 2021) - autonlab/weasel

www.tgoop.com/partially_unsupervised/133

3.01K viewsDec 9, 2021 at 13:29