Написала ещё одну статью про НКРЯ для Системного Блокъа! На этот раз даже серьёзную — про то, как в корпусе используются разные NLP штуки :)
🔥19
Forwarded from Системный Блокъ
Портреты слов, тональность и морфемный разбор: что теперь умеет НКРЯ с помощью нейросетей и NLP-библиотек
Национальный корпус русского языка (НКРЯ) уже давно не просто «собрание» репрезентативных текстов — это огромный комбайн из инструментов для исследования языка. И конечно, в эпоху нейросетевого бума в НКРЯ добавляются новые инструменты на основе нейросетей. Рассказываем коротко о современных технологиях под капотом самого авторитетного русского корпуса:
👯♀️ Похожие слова
Инструмент «Портрет слова» показывает лексемы, которые часто встречаются в похожих контекстах. Это не только синонимы, но и антонимы, слова из одной тематической области и др. Основой служит технология word2vec, а модели обучены для каждого корпуса отдельно — можно наблюдать, как ассоциаты слова меняются от «Русской классики» до корпуса СМИ.
🧬 Морфологическая разметка
Каждое слово в корпусе снабжено леммой, частью речи и грамматическими признаками (время, падеж, число и т.п.). Омонимия снимается автоматически, а вся информация подгружается прямо при клике на слово. В основе — модель Rubic, использующая RuBERT и PyMorphy2.
🏗️ Морфемный разбор
НКРЯ теперь умеет делить слова на приставки, корни и суффиксы. Причем для разных подкорпусов используются разные подходы: школьный (Тихонов) и академический (Кузнецова и Ефремова). Работают и словарные, и нейросетевые методы — в том числе собственная модель НейроКРЯ🦆 на базе сверточных нейронных сетей.
😡 Анализ тональности
В корпусе соцсетей каждое сообщение снабжено автоматической меткой: положительное, отрицательное или неопределенное. В основе — модель RuRoBERTa, обученная на датасете RuSentiment и размеченных вручную текстах. При поиске можно отфильтровать тексты по тональности.
🏷️ Ключевые слова
В корпусе Региональных СМИ к каждому тексту автоматически подбираются теги. Это помогает находить публикации по темам (например, «Пушкин» + «театр») и формировать подкорпусы по интересам. Извлечение реализовано через библиотеку RuTermExtract с рядом тонких настроек.
👉 Подробнее со скриншотами и ссылками — в полной версии статьи 📌
🤖 «Системный Блокъ» @sysblok
Национальный корпус русского языка (НКРЯ) уже давно не просто «собрание» репрезентативных текстов — это огромный комбайн из инструментов для исследования языка. И конечно, в эпоху нейросетевого бума в НКРЯ добавляются новые инструменты на основе нейросетей. Рассказываем коротко о современных технологиях под капотом самого авторитетного русского корпуса:
👯♀️ Похожие слова
Инструмент «Портрет слова» показывает лексемы, которые часто встречаются в похожих контекстах. Это не только синонимы, но и антонимы, слова из одной тематической области и др. Основой служит технология word2vec, а модели обучены для каждого корпуса отдельно — можно наблюдать, как ассоциаты слова меняются от «Русской классики» до корпуса СМИ.
🧬 Морфологическая разметка
Каждое слово в корпусе снабжено леммой, частью речи и грамматическими признаками (время, падеж, число и т.п.). Омонимия снимается автоматически, а вся информация подгружается прямо при клике на слово. В основе — модель Rubic, использующая RuBERT и PyMorphy2.
🏗️ Морфемный разбор
НКРЯ теперь умеет делить слова на приставки, корни и суффиксы. Причем для разных подкорпусов используются разные подходы: школьный (Тихонов) и академический (Кузнецова и Ефремова). Работают и словарные, и нейросетевые методы — в том числе собственная модель НейроКРЯ🦆 на базе сверточных нейронных сетей.
😡 Анализ тональности
В корпусе соцсетей каждое сообщение снабжено автоматической меткой: положительное, отрицательное или неопределенное. В основе — модель RuRoBERTa, обученная на датасете RuSentiment и размеченных вручную текстах. При поиске можно отфильтровать тексты по тональности.
🏷️ Ключевые слова
В корпусе Региональных СМИ к каждому тексту автоматически подбираются теги. Это помогает находить публикации по темам (например, «Пушкин» + «театр») и формировать подкорпусы по интересам. Извлечение реализовано через библиотеку RuTermExtract с рядом тонких настроек.
👉 Подробнее со скриншотами и ссылками — в полной версии статьи 📌
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Как НКРЯ создает «портрет» для каждого слова при помощи нейросетей и NLP-библиотек
Что нового у НКРЯ? Разбираемся, какие технологии использует Корпус, чтобы проводить морфемный и морфологический разбор, выделять в текстах ключевые слова и оценивать тональность интернет-постов.
❤17👍3🔥1
Пришла с загадкой, отгадки у меня нет, но есть смешная гипотеза
(upd: в комментариях, кажется, подтверждена)
Откуда в популярных определениях к слову «ложка» взялось слово «чоловый»?
#портретслова
(upd: в комментариях, кажется, подтверждена)
Откуда в популярных определениях к слову «ложка» взялось слово «чоловый»?
#портретслова
😱10❤4🥰4🤔2 2🔥1🤯1👀1 1
Куропаточьи или куропаткины
Сидела в писательском чате, знакомая писательница Анна обратилась с вопросом: а как правильно образовывать притяжательное прилагательное от слова «куропатка»? Нужно было, чтобы случайно не ошибиться в таком эпизоде самому автору:
Вопрос нетривиальный — слово не из тех, что используешь каждый день. Пришлось немного покопаться, а заодно и использовать пару дополнительных настроек поиска в НКРЯ.
===
Получился такой ответ:
Корпус содержит вариант «куропачьи», например, у того же Бианки:
https://ruscorpora.ru/s/VO7B9
Но, скорее всего, более употребимо «куропаточьи» — https://ruscorpora.ru/s/W6QDX, больше примеров, есть в русском орфографическом словаре (https://gramota.ru/poisk/query=%D0%BA%D1%83%D1%80%D0%BE%D0%BF%D0%B0%D1%82%D0%BE%D1%87%D0%B8%D0%B9&mode=slovari&dicts[]=71)
С маленькой буквы (примечание для поста: тут я специально настраивала опцию -capital, т.к. попадалось много фамилий) в НКРЯ «куропаткин» встречается один раз, как «куропаткин сын» — как будто «куропаткины» вполне может использоваться в речи как разговорная притяжательная форма (мамин, папин, собакин), но в ряду прилагательных типа «фазаний» и «павлиний» оно не так уместно:
https://ruscorpora.ru/s/XDrEl
Героиня может подумать «куропаточьи», так и формы будут очень похожи вплоть до более простой путаницы, и вариант будет чуть более словарным.
==
Списалась перед публикацией этой заметки с Анной, чтобы узнать судьбу фрагмента — в итоге герой стал ещё более неграмотным (сказал «куропаташкины», а героиня подумала уже про «куропаточьи» — правда, вслух поправлять всё равно не стала :).
Сидела в писательском чате, знакомая писательница Анна обратилась с вопросом: а как правильно образовывать притяжательное прилагательное от слова «куропатка»? Нужно было, чтобы случайно не ошибиться в таком эпизоде самому автору:
— Хохлики, кстати, еще перышки любят. Но не всякие, а только с «глазками» и поясками. Павлиньи, фазаньи, куропачьи…
«Куропаткины», — хотела поправить Вера, но тут же себя одернула: она и сама была не уверена, как будет правильно.
Вопрос нетривиальный — слово не из тех, что используешь каждый день. Пришлось немного покопаться, а заодно и использовать пару дополнительных настроек поиска в НКРЯ.
===
Получился такой ответ:
Корпус содержит вариант «куропачьи», например, у того же Бианки:
https://ruscorpora.ru/s/VO7B9
Но, скорее всего, более употребимо «куропаточьи» — https://ruscorpora.ru/s/W6QDX, больше примеров, есть в русском орфографическом словаре (https://gramota.ru/poisk/query=%D0%BA%D1%83%D1%80%D0%BE%D0%BF%D0%B0%D1%82%D0%BE%D1%87%D0%B8%D0%B9&mode=slovari&dicts[]=71)
С маленькой буквы (примечание для поста: тут я специально настраивала опцию -capital, т.к. попадалось много фамилий) в НКРЯ «куропаткин» встречается один раз, как «куропаткин сын» — как будто «куропаткины» вполне может использоваться в речи как разговорная притяжательная форма (мамин, папин, собакин), но в ряду прилагательных типа «фазаний» и «павлиний» оно не так уместно:
https://ruscorpora.ru/s/XDrEl
Героиня может подумать «куропаточьи», так и формы будут очень похожи вплоть до более простой путаницы, и вариант будет чуть более словарным.
==
Списалась перед публикацией этой заметки с Анной, чтобы узнать судьбу фрагмента — в итоге герой стал ещё более неграмотным (сказал «куропаташкины», а героиня подумала уже про «куропаточьи» — правда, вслух поправлять всё равно не стала :).
❤20🕊5😁3
мордочка така серьезная / как будто стока много знает 🤍
Хорошего первого сентября!
Ссылка: https://ruscorpora.ru/s/pYrnp
#устный
Хорошего первого сентября!
Ссылка: https://ruscorpora.ru/s/pYrnp
#устный
❤35🥰12😁7👍1
Небольшой лингвистический оффтоп: будем проводить квиз на ММКЯ, загадок про корпус, увы, не будет, но тем не менее :)
(Примет участие — это в жюри, так-то играть я не буду :)
(Примет участие — это в жюри, так-то играть я не буду :)
❤7🥰2
Forwarded from Грамота.ру
6 сентября в 13:00 на Московской международной книжной ярмарке портал «Грамота.ру» проведёт филологическую игру «Творец слов». Все желающие смогут проверить знания и узнать что-то новое.
Игра пройдёт в следующем формате: два игрока соревнуются и отвечают на короткие вопросы о русском языке — на знание и логику. Раунд занимает 3–5 минут, а побеждает тот, кто первым набирает 3 очка.
🎁 Все участники получат тематический сувенир от Грамоты, а самые знающие — книги от издательства «Грамота».
👥 В игре примет участие Мария Подрядчикова, лингвист-аналитик портала «Грамота.ру».
📍 Ждём всех на ВДНХ (11. Пространство чтения: территория будущего, улица перед павильоном № 57). Приходите!
P. S. Билеты на ММКЯ можно купить на сайте.
#Грамота_новости
Игра пройдёт в следующем формате: два игрока соревнуются и отвечают на короткие вопросы о русском языке — на знание и логику. Раунд занимает 3–5 минут, а побеждает тот, кто первым набирает 3 очка.
🎁 Все участники получат тематический сувенир от Грамоты, а самые знающие — книги от издательства «Грамота».
👥 В игре примет участие Мария Подрядчикова, лингвист-аналитик портала «Грамота.ру».
📍 Ждём всех на ВДНХ (11. Пространство чтения: территория будущего, улица перед павильоном № 57). Приходите!
P. S. Билеты на ММКЯ можно купить на сайте.
#Грамота_новости
🔥18🥰2
баттл (красным) vs батл (синим)
В заимствованиях из английского в русский удвоенная согласная часто "теряется": например, верны варианты "блогер" или "шопинг". С "батлом" произошло то же самое, и даже в корпусе соцсетей это прослеживается — хотя не все там заботятся о правописании.
Забавный факт: в Академосе, ресурсе, быстрее всего фиксирующем правильность написания тех или иных слов, "батл" появился в 2019 году, на год позже, чем "рэп-батл". Вот такое отражение трендов.
Больше о разных особенностях заимствований недавно написала тут:
https://gramota.ru/journal/stati/pravila-i-normy/goryachaya-desyatka-zaimstvovaniy-chto-tut-slozhnogo
#соцсети
В заимствованиях из английского в русский удвоенная согласная часто "теряется": например, верны варианты "блогер" или "шопинг". С "батлом" произошло то же самое, и даже в корпусе соцсетей это прослеживается — хотя не все там заботятся о правописании.
Забавный факт: в Академосе, ресурсе, быстрее всего фиксирующем правильность написания тех или иных слов, "батл" появился в 2019 году, на год позже, чем "рэп-батл". Вот такое отражение трендов.
Больше о разных особенностях заимствований недавно написала тут:
https://gramota.ru/journal/stati/pravila-i-normy/goryachaya-desyatka-zaimstvovaniy-chto-tut-slozhnogo
#соцсети
❤21🔥8👍2
Собираем новые или недавно ставшие вам известными слова в «Грамоте», заходите в комментарии в её канале!
(Да, додеп или лабубу тоже считаются)
(Да, додеп или лабубу тоже считаются)
❤6
Forwarded from Грамота.ру
Друзья! Цыплят по осени считают, помните❓
Самое время для нового марафона слов под названием «Слово года»! Предлагайте свой вариант главного (нового!) слова уходящего года в комментариях, а мы торжественно обещаем:
1️⃣ выбирать только среди новых слов, пришедших в речь в последние два-три года, а также среди слов, которые приобрели новое значение;
2️⃣ проверить (по всем доступным нам метрикам и не только), что слово получило широкое применение: его можно услышать не только в маленькой компании друзей или в профессиональной среде, но и на улице, на радио, в соцсетях, — всюду;
3️⃣ подготовить выбранному слову года — 2025 толкование от лингвистов Грамоты и показать его в метасловаре: пусть победитель обретёт свой первый (лексикографический) дом и будет радовать всех закреплённым написанием!
📝 Итак, сбор слов года объявляется открытым! Добавляем слова в список номинантов до 23 сентября. Самые популярные из предложенных войдут в лонг-лист Грамоты.
#Грамота_словогода
Самое время для нового марафона слов под названием «Слово года»! Предлагайте свой вариант главного (нового!) слова уходящего года в комментариях, а мы торжественно обещаем:
#Грамота_словогода
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6
О доверии к источникам «первого употребления» слова
То, что Основной корпус — это представительная (насколько это возможно) коллекция текстов, неизбежно влечёт за собой то, что представлено так или иначе будет многое из того, что есть в русскоязычных текстах.
Грамматические ошибки, просторечные выражения и — куда деваться — допущенные издателями оплошности. Так, в попавшем в корпус издании в работе Георгия Флоровского с Волгоградом оказалась перепутана Вологда.
(админ канала, как уроженка Волгограда, уже привыкла к путанице с Воронежем, а тут что-то новое!)
Если бы читала отрывки из выдачи бегло, могла бы даже не заметить, что речь о севере, а вот 1932 год, конечно, насторожил.
В общем, доверяй, но перепроверяй; некоторых корпусов, например, Обучающего, это касается в меньшей степени, но фактическая ошибка может быть в любом тексте. Это даже не баг, а фича.
upd: а нет, баг! Если видите такое, смело отправляйте информацию об ошибке, такие очевидные недочёты исправляются
#основной
То, что Основной корпус — это представительная (насколько это возможно) коллекция текстов, неизбежно влечёт за собой то, что представлено так или иначе будет многое из того, что есть в русскоязычных текстах.
Грамматические ошибки, просторечные выражения и — куда деваться — допущенные издателями оплошности. Так, в попавшем в корпус издании в работе Георгия Флоровского с Волгоградом оказалась перепутана Вологда.
(админ канала, как уроженка Волгограда, уже привыкла к путанице с Воронежем, а тут что-то новое!)
Если бы читала отрывки из выдачи бегло, могла бы даже не заметить, что речь о севере, а вот 1932 год, конечно, насторожил.
В общем, доверяй, но перепроверяй; некоторых корпусов, например, Обучающего, это касается в меньшей степени, но фактическая ошибка может быть в любом тексте. Это даже не баг, а фича.
upd: а нет, баг! Если видите такое, смело отправляйте информацию об ошибке, такие очевидные недочёты исправляются
#основной
😁19👀2 2❤1 1
Ещё не репостила тут замечательное интервью (одна жертвочка чего стоит) с Борисом Ореховым :)
Советую прочитать, про корпус "Русская классика" не так много написано.
Советую прочитать, про корпус "Русская классика" не так много написано.
❤🔥5
Forwarded from Грамота.ру
Корпус русской классики дает доступ в языковую лабораторию авторов
«Русская классика» — относительно новый корпус в составе Национального корпуса русского языка. Почему классику выделили из Основного корпуса, чем она интересна и каковы перспективы развития этого проекта, рассказал один из его создателей компьютерный лингвист Борис Орехов.
#Грамота_статьи
«Русская классика» — относительно новый корпус в составе Национального корпуса русского языка. Почему классику выделили из Основного корпуса, чем она интересна и каковы перспективы развития этого проекта, рассказал один из его создателей компьютерный лингвист Борис Орехов.
#Грамота_статьи
❤12💘4
Please open Telegram to view this post
VIEW IN TELEGRAM
🎃24❤5🔥1