Системный Блокъ@sysblok P.938

Системный Блокъ

Три гайда для востоковедов: китайский, корейский и японский

Многие задачи, связанные с автоматической обработкой текста, начинаются с токенизации — деления текста на слова (токены). Текст на русском языке, например, можно поделить на слова по пробелам, но что делать с японскими и китайскими текстами, где пробелов нет?

Одно из популярных решений — использование словаря, в котором прописаны леммы и их всевозможные словоформы, а также некоторые морфологические сведения. Такие словари лежат в основе библиотек из этой подборки. Рассказываем о них подробнее!

🇨🇳 Text-mining китайского языка: библиотека Jieba

Jieba — одна из самых популярных на сегодняшний день Python-библиотек для токенизации китайских текстов. Например, именно её использовали разработчики Яндекса, когда внедряли функцию перевода видео с китайского языка в браузере. Как с ней работать, узнаете из нашего гайда.

🇯🇵 Text-mining японского языка: библиотека fugashi

fugashi – библиотека, позволяющая самостоятельно провести токенизацию текстов на японском. Она способна не только определить наиболее вероятные границы слов, но также провести морфологический анализ и выделять именованные сущности. А ещё для неё можно скачать дополнительные словари: современный письменный, современный устный и одиннадцать видов словарей для классического японского. О том, как устроена fugashi и как ей пользоваться, узнаете из гайда.

🇰🇷 Text-mining корейского языка: библиотека koNLPy

Библиотека koNLPy выделяет токены, определяет морфемы и части речи. Для этого она предлагает пользователю пять методов: Kkma, Hannanum, Komoran, Mecab и Twitter. Все они отличаются по своему функционалу и подходят для решения разных задач. Подробнее об их особенностях и о том, как устроена работа в koNLPy узнаете из материала.

🤖 «Системный Блокъ» @sysblok

Please open Telegram to view this post

VIEW IN TELEGRAM

Системный Блокъ

Text-mining китайского текста: гайд по библиотеке Jieba

Рассказываем, как пользоваться библиотекой Jieba, которая помогает в токенизации китайского языка.

👍17🔥17❤5👏1

www.tgoop.com/sysblok/938

17.9K viewsJun 8, 2024 at 17:02