Warning: file_put_contents(aCache/aDaily/post/ClassActionLab/-367-368-): Failed to open stream: No space left on device in /var/www/tgoop/post.php on line 50
Class Action Lab@ClassActionLab P.367
CLASSACTIONLAB Telegram 367
Артем Сабиров, член команды Class Action Lab, презентовал на конференции "Сороку".

Сорока – алгоритм, основанный на математике и статистике, который позволяет анализировать новостной поток с целью выявить массовое однородное нарушение.

Для этой цели мы в течение длительного времени собирали и затем вручную разметили датасет с новостями, где разделили их на:
– те, которые отражают событие, которое может лечь в основу группового иска,
– другие новости.

Далее, с использованием уже имеющихся библиотек для обработки естественного языка мы привели данные к "машиночитаемому" виду.

На имеющемся датасете обучили несколько моделей и выбрали лучшую. После этого осталась техническая часть: настройка сбора новостей, размещение всех модулей на сервере и проч.

Для создания, поддержания и развития Сороки требуются три "специальности": юриспруденция, IT (включая математику) и лингвистика. Без этого пропадет важный компонент, сказывающийся на работе всей программы.

Как и любой алгоритм, основанный на математике и статистике, при работе с естественным языком Сорока дает и ложные прогнозы. Однако мы еще не опробовали массу инструментов и не протестировали ряд гипотез, которые могут увеличить метрики качества Сороки. Пока же она приносит на хвосте свои новости, а мы их изучаем и постоянно подкручиваем алгоритм.

#обзор
🔥13



tgoop.com/ClassActionLab/367
Create:
Last Update:

Артем Сабиров, член команды Class Action Lab, презентовал на конференции "Сороку".

Сорока – алгоритм, основанный на математике и статистике, который позволяет анализировать новостной поток с целью выявить массовое однородное нарушение.

Для этой цели мы в течение длительного времени собирали и затем вручную разметили датасет с новостями, где разделили их на:
– те, которые отражают событие, которое может лечь в основу группового иска,
– другие новости.

Далее, с использованием уже имеющихся библиотек для обработки естественного языка мы привели данные к "машиночитаемому" виду.

На имеющемся датасете обучили несколько моделей и выбрали лучшую. После этого осталась техническая часть: настройка сбора новостей, размещение всех модулей на сервере и проч.

Для создания, поддержания и развития Сороки требуются три "специальности": юриспруденция, IT (включая математику) и лингвистика. Без этого пропадет важный компонент, сказывающийся на работе всей программы.

Как и любой алгоритм, основанный на математике и статистике, при работе с естественным языком Сорока дает и ложные прогнозы. Однако мы еще не опробовали массу инструментов и не протестировали ряд гипотез, которые могут увеличить метрики качества Сороки. Пока же она приносит на хвосте свои новости, а мы их изучаем и постоянно подкручиваем алгоритм.

#обзор

BY Class Action Lab





Share with your friend now:
tgoop.com/ClassActionLab/367

View MORE
Open in Telegram


Telegram News

Date: |

Write your hashtags in the language of your target audience. "Doxxing content is forbidden on Telegram and our moderators routinely remove such content from around the world," said a spokesman for the messaging app, Remi Vaughn. Add up to 50 administrators When choosing the right name for your Telegram channel, use the language of your target audience. The name must sum up the essence of your channel in 1-3 words. If you’re planning to expand your Telegram audience, it makes sense to incorporate keywords into your name. How to Create a Private or Public Channel on Telegram?
from us


Telegram Class Action Lab
FROM American