Warning: mkdir(): No space left on device in /var/www/tgoop/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/eboutdatascience/-43-44-45-46-): Failed to open stream: No such file or directory in /var/www/tgoop/post.php on line 50
Ebout Data Science | Дима Савелко@eboutdatascience P.46
EBOUTDATASCIENCE Telegram 46
Как посмотреть на текст в виде графика?

Есть датасет статей и их топиков: статьи про природу, статьи про политику, статьи про гачимучи....
Так как статьи имеют большое количество предложений, я использовал SBERT модели. (Они нужны для создания эмбеддингов предложения). Сравниваем SBERTы с FastText и Glove.

1️⃣ Взяв, все статьи и превратив их в эмбеддинги с помощью моделей.
2️⃣ Я сжал их с помощью UMAP до векторного двумерного пространства, чтобы изобразить на графике.
3️⃣ Матерясь и крехтя, я нарисовал получившиеся графики, где разные цвета - топики статей.

Первые две картинки - это распределение SBERTовых моделей, последние - это Glove, FastText

Вывод
SBERT
-модели лучше различают топики, что говорит об более-менее адекватной разметки и хорошей аппроксимации текста. А вот остальные модели не очень справляются со своими задачами, на графиках всё в кучу

Если у вас есть мощности, то используйте SBERT-модели, если вы на калькуляторе, то купите комп и используйте предобученный Word2Vec, Glove, FastText 🤡
8



tgoop.com/eboutdatascience/46
Create:
Last Update:

Как посмотреть на текст в виде графика?

Есть датасет статей и их топиков: статьи про природу, статьи про политику, статьи про гачимучи....
Так как статьи имеют большое количество предложений, я использовал SBERT модели. (Они нужны для создания эмбеддингов предложения). Сравниваем SBERTы с FastText и Glove.

1️⃣ Взяв, все статьи и превратив их в эмбеддинги с помощью моделей.
2️⃣ Я сжал их с помощью UMAP до векторного двумерного пространства, чтобы изобразить на графике.
3️⃣ Матерясь и крехтя, я нарисовал получившиеся графики, где разные цвета - топики статей.

Первые две картинки - это распределение SBERTовых моделей, последние - это Glove, FastText

Вывод
SBERT
-модели лучше различают топики, что говорит об более-менее адекватной разметки и хорошей аппроксимации текста. А вот остальные модели не очень справляются со своими задачами, на графиках всё в кучу

Если у вас есть мощности, то используйте SBERT-модели, если вы на калькуляторе, то купите комп и используйте предобученный Word2Vec, Glove, FastText 🤡

BY Ebout Data Science | Дима Савелко







Share with your friend now:
tgoop.com/eboutdatascience/46

View MORE
Open in Telegram


Telegram News

Date: |

As of Thursday, the SUCK Channel had 34,146 subscribers, with only one message dated August 28, 2020. It was an announcement stating that police had removed all posts on the channel because its content “contravenes the laws of Hong Kong.” It’s yet another bloodbath on Satoshi Street. As of press time, Bitcoin (BTC) and the broader cryptocurrency market have corrected another 10 percent amid a massive sell-off. Ethereum (EHT) is down a staggering 15 percent moving close to $1,000, down more than 42 percent on the weekly chart. To upload a logo, click the Menu icon and select “Manage Channel.” In a new window, hit the Camera icon. End-to-end encryption is an important feature in messaging, as it's the first step in protecting users from surveillance. 6How to manage your Telegram channel?
from us


Telegram Ebout Data Science | Дима Савелко
FROM American