Notice: file_put_contents(): Write of 13660 bytes failed with errno=28 No space left on device in /var/www/tgoop/post.php on line 50

Warning: file_put_contents(): Only 8192 of 21852 bytes written, possibly out of free disk space in /var/www/tgoop/post.php on line 50
Системный Блокъ@sysblok P.938
SYSBLOK Telegram 938
Три гайда для востоковедов: китайский, корейский и японский

Многие задачи, связанные с автоматической обработкой текста, начинаются с токенизации — деления текста на слова (токены). Текст на русском языке, например, можно поделить на слова по пробелам, но что делать с японскими и китайскими текстами, где пробелов нет?

Одно из популярных решений — использование словаря, в котором прописаны леммы и их всевозможные словоформы, а также некоторые морфологические сведения. Такие словари лежат в основе библиотек из этой подборки. Рассказываем о них подробнее!

🇨🇳 Text-mining китайского языка: библиотека Jieba

Jieba — одна из самых популярных на сегодняшний день Python-библиотек для токенизации китайских текстов. Например, именно её использовали разработчики Яндекса, когда внедряли функцию перевода видео с китайского языка в браузере. Как с ней работать, узнаете из нашего гайда.

🇯🇵 Text-mining японского языка: библиотека fugashi

fugashi – библиотека, позволяющая самостоятельно провести токенизацию текстов на японском. Она способна не только определить наиболее вероятные границы слов, но также провести морфологический анализ и выделять именованные сущности. А ещё для неё можно скачать дополнительные словари: современный письменный, современный устный и одиннадцать видов словарей для классического японского. О том, как устроена fugashi и как ей пользоваться, узнаете из гайда.

🇰🇷 Text-mining корейского языка: библиотека koNLPy

Библиотека koNLPy выделяет токены, определяет морфемы и части речи. Для этого она предлагает пользователю пять методов: Kkma, Hannanum, Komoran, Mecab и Twitter. Все они отличаются по своему функционалу и подходят для решения разных задач. Подробнее об их особенностях и о том, как устроена работа в koNLPy узнаете из материала.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17🔥175👏1



tgoop.com/sysblok/938
Create:
Last Update:

Три гайда для востоковедов: китайский, корейский и японский

Многие задачи, связанные с автоматической обработкой текста, начинаются с токенизации — деления текста на слова (токены). Текст на русском языке, например, можно поделить на слова по пробелам, но что делать с японскими и китайскими текстами, где пробелов нет?

Одно из популярных решений — использование словаря, в котором прописаны леммы и их всевозможные словоформы, а также некоторые морфологические сведения. Такие словари лежат в основе библиотек из этой подборки. Рассказываем о них подробнее!

🇨🇳 Text-mining китайского языка: библиотека Jieba

Jieba — одна из самых популярных на сегодняшний день Python-библиотек для токенизации китайских текстов. Например, именно её использовали разработчики Яндекса, когда внедряли функцию перевода видео с китайского языка в браузере. Как с ней работать, узнаете из нашего гайда.

🇯🇵 Text-mining японского языка: библиотека fugashi

fugashi – библиотека, позволяющая самостоятельно провести токенизацию текстов на японском. Она способна не только определить наиболее вероятные границы слов, но также провести морфологический анализ и выделять именованные сущности. А ещё для неё можно скачать дополнительные словари: современный письменный, современный устный и одиннадцать видов словарей для классического японского. О том, как устроена fugashi и как ей пользоваться, узнаете из гайда.

🇰🇷 Text-mining корейского языка: библиотека koNLPy

Библиотека koNLPy выделяет токены, определяет морфемы и части речи. Для этого она предлагает пользователю пять методов: Kkma, Hannanum, Komoran, Mecab и Twitter. Все они отличаются по своему функционалу и подходят для решения разных задач. Подробнее об их особенностях и о том, как устроена работа в koNLPy узнаете из материала.

🤖 «Системный Блокъ» @sysblok

BY Системный Блокъ




Share with your friend now:
tgoop.com/sysblok/938

View MORE
Open in Telegram


Telegram News

Date: |

Ng was convicted in April for conspiracy to incite a riot, public nuisance, arson, criminal damage, manufacturing of explosives, administering poison and wounding with intent to do grievous bodily harm between October 2019 and June 2020. With the sharp downturn in the crypto market, yelling has become a coping mechanism for many crypto traders. This screaming therapy became popular after the surge of Goblintown Ethereum NFTs at the end of May or early June. Here, holders made incoherent groaning sounds in late-night Twitter spaces. They also role-played as urine-loving Goblin creatures. 4How to customize a Telegram channel? You can invite up to 200 people from your contacts to join your channel as the next step. Select the users you want to add and click “Invite.” You can skip this step altogether. With the administration mulling over limiting access to doxxing groups, a prominent Telegram doxxing group apparently went on a "revenge spree."
from us


Telegram Системный Блокъ
FROM American