Warning: mkdir(): No space left on device in /var/www/tgoop/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/eboutdatascience/-43-44-45-46-): Failed to open stream: No such file or directory in /var/www/tgoop/post.php on line 50
Ebout Data Science | Дима Савелко@eboutdatascience P.45
EBOUTDATASCIENCE Telegram 45
Как посмотреть на текст в виде графика?

Есть датасет статей и их топиков: статьи про природу, статьи про политику, статьи про гачимучи....
Так как статьи имеют большое количество предложений, я использовал SBERT модели. (Они нужны для создания эмбеддингов предложения). Сравниваем SBERTы с FastText и Glove.

1️⃣ Взяв, все статьи и превратив их в эмбеддинги с помощью моделей.
2️⃣ Я сжал их с помощью UMAP до векторного двумерного пространства, чтобы изобразить на графике.
3️⃣ Матерясь и крехтя, я нарисовал получившиеся графики, где разные цвета - топики статей.

Первые две картинки - это распределение SBERTовых моделей, последние - это Glove, FastText

Вывод
SBERT
-модели лучше различают топики, что говорит об более-менее адекватной разметки и хорошей аппроксимации текста. А вот остальные модели не очень справляются со своими задачами, на графиках всё в кучу

Если у вас есть мощности, то используйте SBERT-модели, если вы на калькуляторе, то купите комп и используйте предобученный Word2Vec, Glove, FastText 🤡
8



tgoop.com/eboutdatascience/45
Create:
Last Update:

Как посмотреть на текст в виде графика?

Есть датасет статей и их топиков: статьи про природу, статьи про политику, статьи про гачимучи....
Так как статьи имеют большое количество предложений, я использовал SBERT модели. (Они нужны для создания эмбеддингов предложения). Сравниваем SBERTы с FastText и Glove.

1️⃣ Взяв, все статьи и превратив их в эмбеддинги с помощью моделей.
2️⃣ Я сжал их с помощью UMAP до векторного двумерного пространства, чтобы изобразить на графике.
3️⃣ Матерясь и крехтя, я нарисовал получившиеся графики, где разные цвета - топики статей.

Первые две картинки - это распределение SBERTовых моделей, последние - это Glove, FastText

Вывод
SBERT
-модели лучше различают топики, что говорит об более-менее адекватной разметки и хорошей аппроксимации текста. А вот остальные модели не очень справляются со своими задачами, на графиках всё в кучу

Если у вас есть мощности, то используйте SBERT-модели, если вы на калькуляторе, то купите комп и используйте предобученный Word2Vec, Glove, FastText 🤡

BY Ebout Data Science | Дима Савелко







Share with your friend now:
tgoop.com/eboutdatascience/45

View MORE
Open in Telegram


Telegram News

Date: |

Polls You can invite up to 200 people from your contacts to join your channel as the next step. Select the users you want to add and click “Invite.” You can skip this step altogether. End-to-end encryption is an important feature in messaging, as it's the first step in protecting users from surveillance. Content is editable within two days of publishing The imprisonment came as Telegram said it was "surprised" by claims that privacy commissioner Ada Chung Lai-ling is seeking to block the messaging app due to doxxing content targeting police and politicians.
from us


Telegram Ebout Data Science | Дима Савелко
FROM American