ANALYTESS Telegram 146
Про краудсорсинг для сбора и разметки данных (часть 2)📊

Процесс создания краудсорсингового проекта выглядит примерно так:

1⃣ Декомпозиция задачи
Задание должно быть «атомарным», например, отметить объекты на одной фотографии (иначе проклянёте все, когда будете пытаться агрегировать результаты и измерить качество);

2⃣ Составление инструкции и настройка интерфейса задания
Инструкция должна быть лаконичной, понятной и однозначной, интерфейс — удобным, по возможности содержать горячие клавиши (если мы говорим о разметке через платформы, такие как Яндекс.Задания, иногда достаточно excel-таблицы или гугл-формы);

3⃣ Отбор исполнителей
Пользователи на платформе могут быть отобраны по фильтрам (знание языка, регион проживания, возраст, другие специальные знания) и/или пройти обучение и экзамен, либо мы сами находим выборку людей, которые будут размечать;

4⃣ Контроль качества
Тут есть разные подходы, которые могут комбинироваться — контрольные задания, перепроверка другими пользователями, выборочная проверка заказчиком. Зависит от требований и масштабов разметки;

5⃣ Запуск разметки «в прод» и саппорт
Задания загружаются через интерфейс платформы или по API, разметки могут быть регулярными. Первое время следим за фидбеком, вносим правки в инструкцию. Если исполнителей мало, уместно отвечать на их вопросы лично;

6⃣ Агрегация результатов
В этот шаг я включаю всё сразу — подбор перекрытия (сколько исполнителей будут отвечать на один и тот же вопрос), способ выбора финального ответа (база — простой «голос большинства», посложнее — вероятностные модели, вычисляющие ответ с учетом качества разметки исполнителя).

Естественно, если у вас локальная/разовая разметка, часть пунктов можно упростить или пропустить. Но, например, в моей работе в Яндексе подразумевалось создание именно регулярных процессов сбора данных о качестве работы Поиска, поэтому все этапы выполнялись последовательно и были очень важны, в том числе подразумевались работающие без перебоев ETL/ELT-процессы для сбора, загрузки, выгрузки и агрегации данных, а также для работы с исполнителями (привлечение в проект, оценка качества, баны).

☯️ Human-in-the-loop — техника, которая заслуживает отдельного внимания.
источник картинки: статья на Хабре, там также рассказываются подробности про различные подвиды этого метода

Концепция краудсорсинга для задач ML позволяет итеративно обучать модель, начиная с небольшого размеченного датасета. После каждого обучения примеры, в которых модель была не уверена, отправляются на разметку людьми, и ими дополняется датасет, и так далее до достижения необходимого уровня качества.

Плюсы такого подхода:
более быстрое обучение модели;
обратная связь о том, как можно улучшить качество данных

Возможные минусы:
не ко всем задачам можно применить в таком виде;
такие же высокие требования к качеству инструкции и отбору исполнителей, чтобы данным можно было доверять, то есть сам пайплайн совсем не упрощается;
всё-таки нужен изначальный датасет, от которого будем отталкиваться

Я надеюсь, что получилось внятно ввести вас в курс дела. Мне было очень интересно работать с краудсорсингом (создание таких проектов было основной задачей нашей команды в 📱), иногда было ощущение, что за этой методикой ну просто всё будущее, и так можно получить любые данные🤓 Сейчас я стараюсь не кидаться в крайности, но факт остаётся фактом — это очень полезная концепция для многих задач, и в Яндексе ей пользовались с большим успехом.
Что думаете, сталкивались ли с такой разметкой данных в своих проектах?⬇️
Please open Telegram to view this post
VIEW IN TELEGRAM
👍124🆒221



tgoop.com/analytess/146
Create:
Last Update:

Про краудсорсинг для сбора и разметки данных (часть 2)📊

Процесс создания краудсорсингового проекта выглядит примерно так:

1⃣ Декомпозиция задачи
Задание должно быть «атомарным», например, отметить объекты на одной фотографии (иначе проклянёте все, когда будете пытаться агрегировать результаты и измерить качество);

2⃣ Составление инструкции и настройка интерфейса задания
Инструкция должна быть лаконичной, понятной и однозначной, интерфейс — удобным, по возможности содержать горячие клавиши (если мы говорим о разметке через платформы, такие как Яндекс.Задания, иногда достаточно excel-таблицы или гугл-формы);

3⃣ Отбор исполнителей
Пользователи на платформе могут быть отобраны по фильтрам (знание языка, регион проживания, возраст, другие специальные знания) и/или пройти обучение и экзамен, либо мы сами находим выборку людей, которые будут размечать;

4⃣ Контроль качества
Тут есть разные подходы, которые могут комбинироваться — контрольные задания, перепроверка другими пользователями, выборочная проверка заказчиком. Зависит от требований и масштабов разметки;

5⃣ Запуск разметки «в прод» и саппорт
Задания загружаются через интерфейс платформы или по API, разметки могут быть регулярными. Первое время следим за фидбеком, вносим правки в инструкцию. Если исполнителей мало, уместно отвечать на их вопросы лично;

6⃣ Агрегация результатов
В этот шаг я включаю всё сразу — подбор перекрытия (сколько исполнителей будут отвечать на один и тот же вопрос), способ выбора финального ответа (база — простой «голос большинства», посложнее — вероятностные модели, вычисляющие ответ с учетом качества разметки исполнителя).

Естественно, если у вас локальная/разовая разметка, часть пунктов можно упростить или пропустить. Но, например, в моей работе в Яндексе подразумевалось создание именно регулярных процессов сбора данных о качестве работы Поиска, поэтому все этапы выполнялись последовательно и были очень важны, в том числе подразумевались работающие без перебоев ETL/ELT-процессы для сбора, загрузки, выгрузки и агрегации данных, а также для работы с исполнителями (привлечение в проект, оценка качества, баны).

☯️ Human-in-the-loop — техника, которая заслуживает отдельного внимания.
источник картинки: статья на Хабре, там также рассказываются подробности про различные подвиды этого метода

Концепция краудсорсинга для задач ML позволяет итеративно обучать модель, начиная с небольшого размеченного датасета. После каждого обучения примеры, в которых модель была не уверена, отправляются на разметку людьми, и ими дополняется датасет, и так далее до достижения необходимого уровня качества.

Плюсы такого подхода:
более быстрое обучение модели;
обратная связь о том, как можно улучшить качество данных

Возможные минусы:
не ко всем задачам можно применить в таком виде;
такие же высокие требования к качеству инструкции и отбору исполнителей, чтобы данным можно было доверять, то есть сам пайплайн совсем не упрощается;
всё-таки нужен изначальный датасет, от которого будем отталкиваться

Я надеюсь, что получилось внятно ввести вас в курс дела. Мне было очень интересно работать с краудсорсингом (создание таких проектов было основной задачей нашей команды в 📱), иногда было ощущение, что за этой методикой ну просто всё будущее, и так можно получить любые данные🤓 Сейчас я стараюсь не кидаться в крайности, но факт остаётся фактом — это очень полезная концепция для многих задач, и в Яндексе ей пользовались с большим успехом.
Что думаете, сталкивались ли с такой разметкой данных в своих проектах?⬇️

BY Аналитесса-разработчица👩🏻‍💻💅🏻




Share with your friend now:
tgoop.com/analytess/146

View MORE
Open in Telegram


Telegram News

Date: |

It’s easy to create a Telegram channel via desktop app or mobile app (for Android and iOS): So far, more than a dozen different members have contributed to the group, posting voice notes of themselves screaming, yelling, groaning, and wailing in various pitches and rhythms. Hashtags are a fast way to find the correct information on social media. To put your content out there, be sure to add hashtags to each post. We have two intelligent tips to give you: With the “Bear Market Screaming Therapy Group,” we’ve now transcended language. Telegram offers a powerful toolset that allows businesses to create and manage channels, groups, and bots to broadcast messages, engage in conversations, and offer reliable customer support via bots.
from us


Telegram Аналитесса-разработчица👩🏻‍💻💅🏻
FROM American