Аналитесса-разработчица👩🏻‍💻💅🏻@analytess P.146

Аналитесса-разработчица👩🏻‍💻💅🏻

Про краудсорсинг для сбора и разметки данных (часть 2)📊

Процесс создания краудсорсингового проекта выглядит примерно так:

1⃣

Декомпозиция задачи
Задание должно быть «атомарным», например, отметить объекты на одной фотографии (иначе проклянёте все, когда будете пытаться агрегировать результаты и измерить качество);

2⃣

Составление инструкции и настройка интерфейса задания
Инструкция должна быть лаконичной, понятной и однозначной, интерфейс — удобным, по возможности содержать горячие клавиши (если мы говорим о разметке через платформы, такие как Яндекс.Задания, иногда достаточно excel-таблицы или гугл-формы);

3⃣

Отбор исполнителей
Пользователи на платформе могут быть отобраны по фильтрам (знание языка, регион проживания, возраст, другие специальные знания) и/или пройти обучение и экзамен, либо мы сами находим выборку людей, которые будут размечать;

4⃣

Контроль качества
Тут есть разные подходы, которые могут комбинироваться — контрольные задания, перепроверка другими пользователями, выборочная проверка заказчиком. Зависит от требований и масштабов разметки;

5⃣

Запуск разметки «в прод» и саппорт
Задания загружаются через интерфейс платформы или по API, разметки могут быть регулярными. Первое время следим за фидбеком, вносим правки в инструкцию. Если исполнителей мало, уместно отвечать на их вопросы лично;

6⃣

Агрегация результатов
В этот шаг я включаю всё сразу — подбор перекрытия (сколько исполнителей будут отвечать на один и тот же вопрос), способ выбора финального ответа (база — простой «голос большинства», посложнее — вероятностные модели, вычисляющие ответ с учетом качества разметки исполнителя).

Естественно, если у вас локальная/разовая разметка, часть пунктов можно упростить или пропустить. Но, например, в моей работе в Яндексе подразумевалось создание именно регулярных процессов сбора данных о качестве работы Поиска, поэтому все этапы выполнялись последовательно и были очень важны, в том числе подразумевались работающие без перебоев ETL/ELT-процессы для сбора, загрузки, выгрузки и агрегации данных, а также для работы с исполнителями (привлечение в проект, оценка качества, баны).

☯️

Human-in-the-loop — техника, которая заслуживает отдельного внимания.
источник картинки: статья на Хабре, там также рассказываются подробности про различные подвиды этого метода

Концепция краудсорсинга для задач ML позволяет итеративно обучать модель, начиная с небольшого размеченного датасета. После каждого обучения примеры, в которых модель была не уверена, отправляются на разметку людьми, и ими дополняется датасет, и так далее до достижения необходимого уровня качества.

Плюсы такого подхода:
➕ более быстрое обучение модели;
➕ обратная связь о том, как можно улучшить качество данных

Возможные минусы:
➖ не ко всем задачам можно применить в таком виде;
➖ такие же высокие требования к качеству инструкции и отбору исполнителей, чтобы данным можно было доверять, то есть сам пайплайн совсем не упрощается;
➖ всё-таки нужен изначальный датасет, от которого будем отталкиваться

Я надеюсь, что получилось внятно ввести вас в курс дела. Мне было очень интересно работать с краудсорсингом (создание таких проектов было основной задачей нашей команды в 📱), иногда было ощущение, что за этой методикой ну просто всё будущее, и так можно получить любые данные🤓 Сейчас я стараюсь не кидаться в крайности, но факт остаётся фактом — это очень полезная концепция для многих задач, и в Яндексе ей пользовались с большим успехом.
Что думаете, сталкивались ли с такой разметкой данных в своих проектах?⬇️

Please open Telegram to view this post

VIEW IN TELEGRAM

👍124🆒221

www.tgoop.com/analytess/146

1.64K viewsanna, Jan 3 at 08:23

tgoop.com/analytess/146

Create: 2025-01-03
Last Update: 2025-10-04 23:58:16

Про краудсорсинг для сбора и разметки данных (часть 2)📊

Процесс создания краудсорсингового проекта выглядит примерно так:

1⃣ Декомпозиция задачи
Задание должно быть «атомарным», например, отметить объекты на одной фотографии (иначе проклянёте все, когда будете пытаться агрегировать результаты и измерить качество);

2⃣ Составление инструкции и настройка интерфейса задания
Инструкция должна быть лаконичной, понятной и однозначной, интерфейс — удобным, по возможности содержать горячие клавиши (если мы говорим о разметке через платформы, такие как Яндекс.Задания, иногда достаточно excel-таблицы или гугл-формы);

3⃣ Отбор исполнителей
Пользователи на платформе могут быть отобраны по фильтрам (знание языка, регион проживания, возраст, другие специальные знания) и/или пройти обучение и экзамен, либо мы сами находим выборку людей, которые будут размечать;

4⃣ Контроль качества
Тут есть разные подходы, которые могут комбинироваться — контрольные задания, перепроверка другими пользователями, выборочная проверка заказчиком. Зависит от требований и масштабов разметки;

5⃣ Запуск разметки «в прод» и саппорт
Задания загружаются через интерфейс платформы или по API, разметки могут быть регулярными. Первое время следим за фидбеком, вносим правки в инструкцию. Если исполнителей мало, уместно отвечать на их вопросы лично;

6⃣ Агрегация результатов
В этот шаг я включаю всё сразу — подбор перекрытия (сколько исполнителей будут отвечать на один и тот же вопрос), способ выбора финального ответа (база — простой «голос большинства», посложнее — вероятностные модели, вычисляющие ответ с учетом качества разметки исполнителя).

Естественно, если у вас локальная/разовая разметка, часть пунктов можно упростить или пропустить. Но, например, в моей работе в Яндексе подразумевалось создание именно регулярных процессов сбора данных о качестве работы Поиска, поэтому все этапы выполнялись последовательно и были очень важны, в том числе подразумевались работающие без перебоев ETL/ELT-процессы для сбора, загрузки, выгрузки и агрегации данных, а также для работы с исполнителями (привлечение в проект, оценка качества, баны).

☯️ Human-in-the-loop — техника, которая заслуживает отдельного внимания.
источник картинки: статья на Хабре, там также рассказываются подробности про различные подвиды этого метода

Концепция краудсорсинга для задач ML позволяет итеративно обучать модель, начиная с небольшого размеченного датасета. После каждого обучения примеры, в которых модель была не уверена, отправляются на разметку людьми, и ими дополняется датасет, и так далее до достижения необходимого уровня качества.

Плюсы такого подхода:
➕ более быстрое обучение модели;
➕ обратная связь о том, как можно улучшить качество данных

Возможные минусы:
➖ не ко всем задачам можно применить в таком виде;
➖ такие же высокие требования к качеству инструкции и отбору исполнителей, чтобы данным можно было доверять, то есть сам пайплайн совсем не упрощается;
➖ всё-таки нужен изначальный датасет, от которого будем отталкиваться

Я надеюсь, что получилось внятно ввести вас в курс дела. Мне было очень интересно работать с краудсорсингом (создание таких проектов было основной задачей нашей команды в 📱), иногда было ощущение, что за этой методикой ну просто всё будущее, и так можно получить любые данные🤓 Сейчас я стараюсь не кидаться в крайности, но факт остаётся фактом — это очень полезная концепция для многих задач, и в Яндексе ей пользовались с большим успехом.
Что думаете, сталкивались ли с такой разметкой данных в своих проектах?⬇️

Telegram News

Про краудсорсинг для сбора и разметки данных (часть 2)📊