Как посмотреть на текст в виде графика?
Есть датасет статей и их топиков: статьи про природу, статьи про политику, статьи про гачимучи....Так как статьи имеют большое количество предложений, я использовал SBERT модели. (Они нужны для создания эмбеддингов предложения). Сравниваем SBERTы с FastText и Glove.
1️⃣ Взяв, все статьи и превратив их в эмбеддинги с помощью моделей.
2️⃣ Я сжал их с помощью UMAP до векторного двумерного пространства, чтобы изобразить на графике.
3️⃣ Матерясь и крехтя, я нарисовал получившиеся графики, где разные цвета - топики статей.
Первые две картинки - это распределение SBERTовых моделей, последние - это Glove, FastText
Вывод
SBERT-модели лучше различают топики, что говорит об более-менее адекватной разметки и хорошей аппроксимации текста. А вот остальные модели не очень справляются со своими задачами, на графиках всё в кучу
Если у вас есть мощности, то используйте SBERT-модели, если вы на калькуляторе, то купите комп и используйте предобученный Word2Vec, Glove, FastText 🤡
❤8
tgoop.com/eboutdatascience/45
Create:
Last Update:
Last Update:
Как посмотреть на текст в виде графика?
Есть датасет статей и их топиков: статьи про природу, статьи про политику, статьи про гачимучи....Так как статьи имеют большое количество предложений, я использовал SBERT модели. (Они нужны для создания эмбеддингов предложения). Сравниваем SBERTы с FastText и Glove.
1️⃣ Взяв, все статьи и превратив их в эмбеддинги с помощью моделей.
2️⃣ Я сжал их с помощью UMAP до векторного двумерного пространства, чтобы изобразить на графике.
3️⃣ Матерясь и крехтя, я нарисовал получившиеся графики, где разные цвета - топики статей.
Первые две картинки - это распределение SBERTовых моделей, последние - это Glove, FastText
Вывод
SBERT-модели лучше различают топики, что говорит об более-менее адекватной разметки и хорошей аппроксимации текста. А вот остальные модели не очень справляются со своими задачами, на графиках всё в кучу
Если у вас есть мощности, то используйте SBERT-модели, если вы на калькуляторе, то купите комп и используйте предобученный Word2Vec, Glove, FastText 🤡
BY Ebout Data Science | Дима Савелко




Share with your friend now:
tgoop.com/eboutdatascience/45