tgoop.com/eboutdatascience/47
Create:
Last Update:
Last Update:
Предобработка данных - г#&%о!Сегодня поговорим об языковых моделях, их токенизации и том нужно ли для них предобработывать текстовые данные или нет ? 🥸
Модели 🤖
В word2vec, glove используется токенизация по словам, то есть каждому слову даётся айдишник ,и на инференсе выдаются эмбеддинги слов.
В FastText используются n-grams, слово делится на кусочки, и на инференсе эмбеддинги кусочков агрегируются в один эмбеддинг.
В BERT моделях используются BPE - это алгоритм сжатия данных, который заменяет наиболее часто встречающиеся пары байтов на новый байт, который не встречается в последовательности - очень круто сжимает данные.
Например: крышесноснящий при токенизации превратиться в примерно что-то такое: крыш###, ###снос###, ###ящий
Предобработка данных в языковых моделях 🧮
Под предобработкой я подразумеваю следующие операции над текстом: стемминг, лемматизация, удаление стоп слов, очистка от пунктуации.
В word2vec, glove, FastText - предобработка очень важна, так как их токенизация и архитектура не может запомнить зависимость прошедшего времени в слове от какой-нибудь другой сущности в тексте, а в BERT моделях лучше не предобработывать данные, так как их токенизация и механизм внимания позволяет запомнить связи между грамматикой. Но стоит отметить, что любой мусорный (без информации) текст всё таки стоит удалить.
Например 🙌
Я брал текста из статей, которые разделены на темы: спорт, война, инициация, Путин...
На первой картинке с обработкой, на второй - без. Модель: miniLM (Это SBERTовая модель). Каждый цвет - это топик статьи.
Как видно из распределений на первой картинке (с обработкой) - всё в кучу по сравнению со второй (без обработки). Это означает, что эмбеддинги статей получились лучше для текста без предобработки, так как распределения стали лучше различимы, они не смешиваются в кашу, как на первой картинке. Стоить заметить, что мы сделали такой вывод, только исходя из разметки статей.
BY Ebout Data Science | Дима Савелко
Share with your friend now:
tgoop.com/eboutdatascience/47