Артем Сабиров, член команды Class Action Lab, презентовал на конференции "Сороку".
Сорока – алгоритм, основанный на математике и статистике, который позволяет анализировать новостной поток с целью выявить массовое однородное нарушение.
Для этой цели мы в течение длительного времени собирали и затем вручную разметили датасет с новостями, где разделили их на:
– те, которые отражают событие, которое может лечь в основу группового иска,
– другие новости.
Далее, с использованием уже имеющихся библиотек для обработки естественного языка мы привели данные к "машиночитаемому" виду.
На имеющемся датасете обучили несколько моделей и выбрали лучшую. После этого осталась техническая часть: настройка сбора новостей, размещение всех модулей на сервере и проч.
Для создания, поддержания и развития Сороки требуются три "специальности": юриспруденция, IT (включая математику) и лингвистика. Без этого пропадет важный компонент, сказывающийся на работе всей программы.
Как и любой алгоритм, основанный на математике и статистике, при работе с естественным языком Сорока дает и ложные прогнозы. Однако мы еще не опробовали массу инструментов и не протестировали ряд гипотез, которые могут увеличить метрики качества Сороки. Пока же она приносит на хвосте свои новости, а мы их изучаем и постоянно подкручиваем алгоритм.
#обзор
Сорока – алгоритм, основанный на математике и статистике, который позволяет анализировать новостной поток с целью выявить массовое однородное нарушение.
Для этой цели мы в течение длительного времени собирали и затем вручную разметили датасет с новостями, где разделили их на:
– те, которые отражают событие, которое может лечь в основу группового иска,
– другие новости.
Далее, с использованием уже имеющихся библиотек для обработки естественного языка мы привели данные к "машиночитаемому" виду.
На имеющемся датасете обучили несколько моделей и выбрали лучшую. После этого осталась техническая часть: настройка сбора новостей, размещение всех модулей на сервере и проч.
Для создания, поддержания и развития Сороки требуются три "специальности": юриспруденция, IT (включая математику) и лингвистика. Без этого пропадет важный компонент, сказывающийся на работе всей программы.
Как и любой алгоритм, основанный на математике и статистике, при работе с естественным языком Сорока дает и ложные прогнозы. Однако мы еще не опробовали массу инструментов и не протестировали ряд гипотез, которые могут увеличить метрики качества Сороки. Пока же она приносит на хвосте свои новости, а мы их изучаем и постоянно подкручиваем алгоритм.
#обзор
🔥13
tgoop.com/ClassActionLab/368
Create:
Last Update:
Last Update:
Артем Сабиров, член команды Class Action Lab, презентовал на конференции "Сороку".
Сорока – алгоритм, основанный на математике и статистике, который позволяет анализировать новостной поток с целью выявить массовое однородное нарушение.
Для этой цели мы в течение длительного времени собирали и затем вручную разметили датасет с новостями, где разделили их на:
– те, которые отражают событие, которое может лечь в основу группового иска,
– другие новости.
Далее, с использованием уже имеющихся библиотек для обработки естественного языка мы привели данные к "машиночитаемому" виду.
На имеющемся датасете обучили несколько моделей и выбрали лучшую. После этого осталась техническая часть: настройка сбора новостей, размещение всех модулей на сервере и проч.
Для создания, поддержания и развития Сороки требуются три "специальности": юриспруденция, IT (включая математику) и лингвистика. Без этого пропадет важный компонент, сказывающийся на работе всей программы.
Как и любой алгоритм, основанный на математике и статистике, при работе с естественным языком Сорока дает и ложные прогнозы. Однако мы еще не опробовали массу инструментов и не протестировали ряд гипотез, которые могут увеличить метрики качества Сороки. Пока же она приносит на хвосте свои новости, а мы их изучаем и постоянно подкручиваем алгоритм.
#обзор
Сорока – алгоритм, основанный на математике и статистике, который позволяет анализировать новостной поток с целью выявить массовое однородное нарушение.
Для этой цели мы в течение длительного времени собирали и затем вручную разметили датасет с новостями, где разделили их на:
– те, которые отражают событие, которое может лечь в основу группового иска,
– другие новости.
Далее, с использованием уже имеющихся библиотек для обработки естественного языка мы привели данные к "машиночитаемому" виду.
На имеющемся датасете обучили несколько моделей и выбрали лучшую. После этого осталась техническая часть: настройка сбора новостей, размещение всех модулей на сервере и проч.
Для создания, поддержания и развития Сороки требуются три "специальности": юриспруденция, IT (включая математику) и лингвистика. Без этого пропадет важный компонент, сказывающийся на работе всей программы.
Как и любой алгоритм, основанный на математике и статистике, при работе с естественным языком Сорока дает и ложные прогнозы. Однако мы еще не опробовали массу инструментов и не протестировали ряд гипотез, которые могут увеличить метрики качества Сороки. Пока же она приносит на хвосте свои новости, а мы их изучаем и постоянно подкручиваем алгоритм.
#обзор
BY Class Action Lab


Share with your friend now:
tgoop.com/ClassActionLab/368