Warning: mkdir(): No space left on device in /var/www/tgoop/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/eboutdatascience/--): Failed to open stream: No such file or directory in /var/www/tgoop/post.php on line 50
Ebout Data Science | Дима Савелко@eboutdatascience P.47
EBOUTDATASCIENCE Telegram 47
Предобработка данных - г#&%о!

Сегодня поговорим об языковых моделях, их токенизации и том нужно ли для них предобработывать текстовые данные или нет ? 🥸

Модели 🤖
В word2vec, glove используется токенизация по словам, то есть каждому слову даётся айдишник ,и на инференсе выдаются эмбеддинги слов.
В FastText используются n-grams, слово делится на кусочки, и на инференсе эмбеддинги кусочков агрегируются в один эмбеддинг.
В BERT моделях используются BPE - это алгоритм сжатия данных, который заменяет наиболее часто встречающиеся пары байтов на новый байт, который не встречается в последовательности - очень круто сжимает данные.
Например: крышесноснящий при токенизации превратиться в примерно что-то такое: крыш###, ###снос###, ###ящий

Предобработка данных в языковых моделях 🧮
Под предобработкой я подразумеваю следующие операции над текстом: стемминг, лемматизация, удаление стоп слов, очистка от пунктуации.
В word2vec, glove, FastText - предобработка очень важна, так как их токенизация и архитектура не может запомнить зависимость прошедшего времени в слове от какой-нибудь другой сущности в тексте, а в BERT моделях лучше не предобработывать данные, так как их токенизация и механизм внимания позволяет запомнить связи между грамматикой. Но стоит отметить, что любой мусорный (без информации) текст всё таки стоит удалить.

Например 🙌
Я брал текста из статей, которые разделены на темы: спорт, война, инициация, Путин...
На первой картинке с обработкой, на второй - без. Модель: miniLM (Это SBERTовая модель). Каждый цвет - это топик статьи.
Как видно из распределений на первой картинке (с обработкой) - всё в кучу по сравнению со второй (без обработки). Это означает, что эмбеддинги статей получились лучше для текста без предобработки, так как распределения стали лучше различимы, они не смешиваются в кашу, как на первой картинке. Стоить заметить, что мы сделали такой вывод, только исходя из разметки статей.
👍2🔥21



tgoop.com/eboutdatascience/47
Create:
Last Update:

Предобработка данных - г#&%о!

Сегодня поговорим об языковых моделях, их токенизации и том нужно ли для них предобработывать текстовые данные или нет ? 🥸

Модели 🤖
В word2vec, glove используется токенизация по словам, то есть каждому слову даётся айдишник ,и на инференсе выдаются эмбеддинги слов.
В FastText используются n-grams, слово делится на кусочки, и на инференсе эмбеддинги кусочков агрегируются в один эмбеддинг.
В BERT моделях используются BPE - это алгоритм сжатия данных, который заменяет наиболее часто встречающиеся пары байтов на новый байт, который не встречается в последовательности - очень круто сжимает данные.
Например: крышесноснящий при токенизации превратиться в примерно что-то такое: крыш###, ###снос###, ###ящий

Предобработка данных в языковых моделях 🧮
Под предобработкой я подразумеваю следующие операции над текстом: стемминг, лемматизация, удаление стоп слов, очистка от пунктуации.
В word2vec, glove, FastText - предобработка очень важна, так как их токенизация и архитектура не может запомнить зависимость прошедшего времени в слове от какой-нибудь другой сущности в тексте, а в BERT моделях лучше не предобработывать данные, так как их токенизация и механизм внимания позволяет запомнить связи между грамматикой. Но стоит отметить, что любой мусорный (без информации) текст всё таки стоит удалить.

Например 🙌
Я брал текста из статей, которые разделены на темы: спорт, война, инициация, Путин...
На первой картинке с обработкой, на второй - без. Модель: miniLM (Это SBERTовая модель). Каждый цвет - это топик статьи.
Как видно из распределений на первой картинке (с обработкой) - всё в кучу по сравнению со второй (без обработки). Это означает, что эмбеддинги статей получились лучше для текста без предобработки, так как распределения стали лучше различимы, они не смешиваются в кашу, как на первой картинке. Стоить заметить, что мы сделали такой вывод, только исходя из разметки статей.

BY Ebout Data Science | Дима Савелко


Share with your friend now:
tgoop.com/eboutdatascience/47

View MORE
Open in Telegram


Telegram News

Date: |

How to create a business channel on Telegram? (Tutorial) Judge Hui described Ng as inciting others to “commit a massacre” with three posts teaching people to make “toxic chlorine gas bombs,” target police stations, police quarters and the city’s metro stations. This offence was “rather serious,” the court said. Add the logo from your device. Adjust the visible area of your image. Congratulations! Now your Telegram channel has a face Click “Save”.! Hashtags are a fast way to find the correct information on social media. To put your content out there, be sure to add hashtags to each post. We have two intelligent tips to give you: 4How to customize a Telegram channel?
from us


Telegram Ebout Data Science | Дима Савелко
FROM American