tgoop.com/partially_unsupervised/133
Last Update:
Узнал новый для себя концепт - multisource weak supervision. Точнее, красивое название в новинку, а сама идея старая: вместо качественной, но дорогой разметки руками нафигачим эвристик, которые сколько-то похожи на правду.
Эвристики и другие источники слабой разметки могут быть разными - lambda text: 'enlarge your' in text
, какие-нибудь регэксы, результаты внешних моделей и так далее, отсюда и multisource. Потому после применения всех внешних supervision источников нужно сделать их сколько-то согласованными, для чего, оказывается, есть уже довольно много инструментов. Среди модных хипстерских замечен Snorkel (активно рекламируемый в курсe Стeнфорда), в опенсорсе есть свежак с NeurIPS 2021 (слайды на тему).
Вообще weak supervision - отлично работающий инструмент. Например, есть миллион фотографий, нужно удалить размытые. Самый простой способ: разметить эвристикой с лаплассианом, а потом на этой разметке обучить простой классификатор. Изначальная эвристика работает не очень хорошо сама по себе - например, размытая фотография клетчатой рубашки будет иметь высокую дисперсию лаплассиана, а неразмытая фотография стены - низкую. Но обученный классификатор сильно снизит этот уровень шума.
BY partially unsupervised

Share with your friend now:
tgoop.com/partially_unsupervised/133