DS_INTERVIEW_LIB Telegram 770
Какие метрики для оценки схожести текстов вам известны?

Метрики близости текстов можно условно разделить на два типа: лексические и семантические.

🔹 Лексические
— Сходство Жаккара (Jaccard similarity)
Это простая метрика, которая вычисляется следующим образом: берутся две последовательности A и B, определяются общие элементы, и их количество делится на общее количество элементов в обеих последовательностях.

🔹 Семантические
— Косинусное сходство (cosine similarity)
Эта метрика измеряет косинус угла между двумя векторами, которые представляют тексты в векторном пространстве (часто используется векторизация TF-IDF).
— Евклидово расстояние (euclidean distance)
Измеряет кратчайшее расстояние между двумя точками в евклидовой геометрии. Для этого также требуется предварительная векторизация текстов.



tgoop.com/ds_interview_lib/770
Create:
Last Update:

Какие метрики для оценки схожести текстов вам известны?

Метрики близости текстов можно условно разделить на два типа: лексические и семантические.

🔹 Лексические
— Сходство Жаккара (Jaccard similarity)
Это простая метрика, которая вычисляется следующим образом: берутся две последовательности A и B, определяются общие элементы, и их количество делится на общее количество элементов в обеих последовательностях.

🔹 Семантические
— Косинусное сходство (cosine similarity)
Эта метрика измеряет косинус угла между двумя векторами, которые представляют тексты в векторном пространстве (часто используется векторизация TF-IDF).
— Евклидово расстояние (euclidean distance)
Измеряет кратчайшее расстояние между двумя точками в евклидовой геометрии. Для этого также требуется предварительная векторизация текстов.

BY Библиотека собеса по Data Science | вопросы с собеседований


Share with your friend now:
tgoop.com/ds_interview_lib/770

View MORE
Open in Telegram


Telegram News

Date: |

Click “Save” ; The best encrypted messaging apps “Hey degen, are you stressed? Just let it all out,” he wrote, along with a link to join the group. 2How to set up a Telegram channel? (A step-by-step tutorial) A Hong Kong protester with a petrol bomb. File photo: Dylan Hollingsworth/HKFP.
from us


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM American