tgoop.com/building_singularity/60
Last Update:
Какой фидбек бывает
Немного дополню предыдущий пост про то, какой фидбек пользователей обычно бывает и какие могут возникнуть проблемы (в контексте дальнейшего его использования для улучшения моделей).
Явный фидбек: лайк на видео, например. Очень хороший сигнал. Но обычно оставляется небольшим числом пользователей и данных мало.
И если попытаться награждать пользователей за их лайки/дизлайки/реакции/etc, то это скорее всего ухудшит ситуацию: фидбека действительно станет больше, но его качество сильно упадет. Стимул получать бонусы сильнее желания оставлять осмысленный фидбек.
С явным фидбеком может быть ещё одна проблема: его может оставлять только специфическая группа пользователей. Таким образом, обучившись на этот фидбек, модель станет лучше для них, но для медианного пользователя всё ухудшится (прям диктатура меньшинства получатся).
Проблема нерепрезентативности и малого количества данных может решиться с неявным фидбеком. Это про поведение пользователя: досмотрел ли видео/дослушал ли песню/продолжил ли взаимодействие.
Но хоть такого фидбека и много, он сильно более шумный, чем явный. На пользователя и его поведение влияют сотни других факторов, не связанных с вашим преложением. Чтобы извлечь полезный сигнал для дообучения, нужно хорошо фильтровать такой неявный фидбек:
- User-based фильтрация: удалять фидбек странных/неопытных/неплатящих/etc пользователей
- Content-based фильтрация: удалять странный/нерелевантный/чрезмерный/etc фидбек
Впрочем и фильтрация может внести свои искажения :D
Поэтому надо быть аккуратным

