Kantor.AI@kantor

Kantor.AI

Про конформизм и машинное обучение

Давным-давно я уже будучи преподом делал с командой студентов сервис для автоматического аннотирования текстов. Трансформеров и LLM тогда и в проекте не было, задача аннотирования сводилась к тому, чтобы выделять ключевые предложения, чтения которых достаточно для понимания смысла текста, а лучшими известными подходами были TextRank и LexRank - эдакие аналоги PageRank, но не на сайтах, а на предложениях.

Так вот именно тогда мы усвоили один важный урок: как получить желаемый результат сравнения алгоритмов, если в оценке задействованы асессоры. Для разметки валидационной выборки мы сделали веб-страничку, где асессор должен был сам выбирать ключевые предложения из текста. Задача показалась нам непростой для решения «с чистого листа», поэтому в качестве варианта по умолчанию мы подсвечивали те предложения, которые выбрала бы наша реализация TextRank. Надо ли говорить, какой алгоритм победил в сравнении на этой выборке с большим отрывом?

К сожалению или к счастью, люди обычно довольно легко соглашаются на предложенный им вариант или меняют его не слишком сильно. В частности, поэтому полезнее самому говорить, что вы от них хотите, чем играть с людьми в угадайку и надеяться получить предложение мечты: на работе, в отношениях или договариваясь, как провести время с друзьями. Ну а если вам надо просто собрать выборку для оценки качества - постарайтесь ни к чему не подталкивать ваших асессоров :)

1😁36👍10❤6🔥3

www.tgoop.com/kantor_ai/544

2.59K viewsOct 18 at 23:10

tgoop.com/kantor_ai/544

Create: 2025-10-18
Last Update: 2025-10-20 10:08:50

BY Kantor.AI

Share with your friend now:
tgoop.com/kantor_ai/544

Telegram News

Про конформизм и машинное обучение