Ivan Begtin@begtin P.5608

Ivan Begtin

Я тут на днях думал о том какие ML задачи возникают при работе с открытыми и с общедоступными данными и как они отличаются от внутрикорпоративных задач. У нас в Dateno таких задач немало и растёт, когда наш продукт станет побольше, обязательно сформируем ML команду под их решение. Но и сейчас многие из них в работе.

Итак:
- Идентификация условий использования данных. Датасеты и API часто сопровождают информацией об условиях использования и не всегда стандартизировано. Тексты могут быть короткими, может быть аббревиатурой одной из лицензий CC, а может быть ссылка на внешний ресурс. Эту задачу не обязательно решать через ML, например, в рамках Dateno я публиковал код cdi-licensemapper где нет ML, а только вручную собранные правила для сопоставления текстов и ссылок лицензий по словарю в режиме сравнения 1к1. Но ML тут применимо и может охватить гораздо больше датасетов и описаний API.
- Идентификации тематики данных. Отличается от идентификации тематики текста, данные могут быть структурированы, данные могут почти не содержать текста, метаданные могут почти не содержать детальных описаний, но почти всегда есть информация о первоисточнике. Когда первоисточник сам обладает тематикой (которую тоже надо идентифицировать вручную или автоматически), то иногда её можно сразу транслировать на датасет. Типа если у нас каталог данных по биоинформатике, логично что все датасеты по биоинформатике тоже. Но, много случаев, когда в крупнейших каталогах данных данные по разным темам. Это и портал данных США, и европейский портал данных и ещё много какие другие. Поэтому задача тут двойная, создать классификатор тем и автоматически по нему идентифицировать. В идеале решить сложную задачу, создать автоматически расширяемых классификатор тем и уметь привязывать к нему датасеты. Частично эта задача в Dateno решается через простые правила и простые справочники тем в коде cdi-topicmapper, но, опять же, пока без ML
- Понимание данных. Это не одна задача, а группа ML задач дающих ответ на вопросы: "А что там внутри датасета? А что это за формат данных? А что с ним можно делать?". Соответственно к таким практическим задачам можно отнести:
- идентификация формата файла. Это то что частично умеет делать Google Magika Эта задача много где актуальна и востребована, не только в отношении датасетов.
- идентификация структуры данных и простых типов данных. Большая часть современных инструментов умеют понимать когда получают на вход строки, числа, даты и тд., но вариативность типов гораздо больше и что важнее это понимание структуры файла. Например, стат показатель можно описать в режиме двух колонок, значение и год, а можно вытянуть в одну строку и каждому году дать отдельную колонку. И так и так встречается часто, в профессиональных статистических продуктах, чаще даже сложнее. Основные шаблоны структур файлов подаются типизации, но нет продуктов умеющих такое делать.
- идентификация семантических типов данных задача актуальная для всего что касается автоматического анализа баз данных, идентификации персональных данных, задач EDA (Exploratory Data Analysis) и ещё много чего другого. Я лично какое-то время назад писал специальную библиотеку и утилиту metacrafter которая много что умеет идентифицировать, но там есть над чем работать, в первую очередь по автообнаружению неизвестных типов и по снижению числа ошибочной классификации. Тут точно нужно много ML
- Автоматизированная обработка данных. Напрямую связана с задачами понимания данных и относится к тому какие автоматические операции над датасетом можно предпринять для изменений и преобразований. Можно разделить на несколько подзадач:
- автоматизация очистки данных. Идентифицируем структурные аномалии и аномалии значений, определяем способы их устранения, определяем можно ли действовать автоматически или требуется участие оператора. Много где уже об этом думают, постепенно будут появляться продукты помогающие в таких задачах на типовых данных. Примеров коммерческих продуктов очень много, с открытым кодом пока не так много как хотелось бы.

www.tgoop.com/begtin/5608

1.4K viewsIvan Begtin, Apr 23 at 05:55

tgoop.com/begtin/5608

Create: 2024-04-23
Last Update: 2024-06-02 13:44:53

BY Ivan Begtin

Share with your friend now:
tgoop.com/begtin/5608

Telegram News