tgoop.com/analytess/146
Last Update:
Про краудсорсинг для сбора и разметки данных (часть 2)
Процесс создания краудсорсингового проекта выглядит примерно так:
Задание должно быть «атомарным», например, отметить объекты на одной фотографии
Инструкция должна быть лаконичной, понятной и однозначной, интерфейс — удобным, по возможности содержать горячие клавиши (если мы говорим о разметке через платформы, такие как Яндекс.Задания, иногда достаточно excel-таблицы или гугл-формы);
Пользователи на платформе могут быть отобраны по фильтрам (знание языка, регион проживания, возраст, другие специальные знания) и/или пройти обучение и экзамен, либо мы сами находим выборку людей, которые будут размечать;
Тут есть разные подходы, которые могут комбинироваться — контрольные задания, перепроверка другими пользователями, выборочная проверка заказчиком. Зависит от требований и масштабов разметки;
Задания загружаются через интерфейс платформы или по API, разметки могут быть регулярными. Первое время следим за фидбеком, вносим правки в инструкцию. Если исполнителей мало, уместно отвечать на их вопросы лично;
В этот шаг я включаю всё сразу — подбор перекрытия (сколько исполнителей будут отвечать на один и тот же вопрос), способ выбора финального ответа (база — простой «голос большинства», посложнее — вероятностные модели, вычисляющие ответ с учетом качества разметки исполнителя).
Естественно, если у вас локальная/разовая разметка, часть пунктов можно упростить или пропустить. Но, например, в моей работе в Яндексе подразумевалось создание именно регулярных процессов сбора данных о качестве работы Поиска, поэтому все этапы выполнялись последовательно и были очень важны, в том числе подразумевались работающие без перебоев ETL/ELT-процессы для сбора, загрузки, выгрузки и агрегации данных, а также для работы с исполнителями (привлечение в проект, оценка качества, баны).
источник картинки: статья на Хабре, там также рассказываются подробности про различные подвиды этого метода
Концепция краудсорсинга для задач ML позволяет итеративно обучать модель, начиная с небольшого размеченного датасета. После каждого обучения примеры, в которых модель была не уверена, отправляются на разметку людьми, и ими дополняется датасет, и так далее до достижения необходимого уровня качества.
Плюсы такого подхода:
Возможные минусы:
Я надеюсь, что получилось внятно ввести вас в курс дела. Мне было очень интересно работать с краудсорсингом (создание таких проектов было основной задачей нашей команды в
Что думаете, сталкивались ли с такой разметкой данных в своих проектах?