tgoop.com/kantor_ai/544
Last Update:
Про конформизм и машинное обучение
Давным-давно я уже будучи преподом делал с командой студентов сервис для автоматического аннотирования текстов. Трансформеров и LLM тогда и в проекте не было, задача аннотирования сводилась к тому, чтобы выделять ключевые предложения, чтения которых достаточно для понимания смысла текста, а лучшими известными подходами были TextRank и LexRank - эдакие аналоги PageRank, но не на сайтах, а на предложениях.
Так вот именно тогда мы усвоили один важный урок: как получить желаемый результат сравнения алгоритмов, если в оценке задействованы асессоры. Для разметки валидационной выборки мы сделали веб-страничку, где асессор должен был сам выбирать ключевые предложения из текста. Задача показалась нам непростой для решения «с чистого листа», поэтому в качестве варианта по умолчанию мы подсвечивали те предложения, которые выбрала бы наша реализация TextRank. Надо ли говорить, какой алгоритм победил в сравнении на этой выборке с большим отрывом?
К сожалению или к счастью, люди обычно довольно легко соглашаются на предложенный им вариант или меняют его не слишком сильно. В частности, поэтому полезнее самому говорить, что вы от них хотите, чем играть с людьми в угадайку и надеяться получить предложение мечты: на работе, в отношениях или договариваясь, как провести время с друзьями. Ну а если вам надо просто собрать выборку для оценки качества - постарайтесь ни к чему не подталкивать ваших асессоров :)
BY Kantor.AI
Share with your friend now:
tgoop.com/kantor_ai/544