Big Data AI@bigdatai P.913

🔥

model2vec — реализация модели для обучения эмбедингов (embeddings) нейросетевых моделей. Основная идея проекта — создание представлений моделей, которые могут быть использованы для оценки схожести между моделями, их кластеризации или других задач.

Model2Vec - библиотека для создания компактных и быстрых моделей на основе предобученных Sentence Transformer моделей.

Model2Vec позволяет создавать эмбединг-модели слов и предложений, которые значительно меньше по размеру, но при этом сопоставимы по производительности с исходными Sentence Transformer моделями.

Отличительные особенности:

🟢

быстрая дистилляция, процесс создания модели занимает несколько минут;

🟢

быстрый инференс, в 500 раз быстрее на CPU относительно родительской модели;

🟢

BYOM и BYOV, можно использовать на любой Sentence Transformer модели с любым словарем;

🟢

мультиязычность, все что нужно - только мультиязычная модель в качестве источника;

🟢

интеграция с Huggingface, загрузка\выгрузка моделей привычными from_pretrained и push_to_hub.

Пайплайн Model2Vec трехэтапный. На первом этапе словарь пропускается через модель Sentence Transformer для получения векторов эмбедингов для каждого слова.

Далее, размерность полученных эмбеддингов сокращается с помощью метода главных компонент (PCA). Наконец, применяется zipf-взвешивание для учета частотности слов в словаре.

Model2Vec работает в двух режимах:

🟠

Output, в котором модель работает подобно Sentence Transformer, используя subword токенизацию;

🟠

Vocab, в котором создается набор статических эмбедингов слов, аналогично GloVe или Word2Vec.

Оценку производительности Model2Vec делали на наборе данных MTEB на задачах PEARL (оценка качества представления фраз) и WordSim (оценка семантической близости слов).

Результаты показывают, что Model2Vec превосходит по производительности GloVe и модели, основанные на WordLlama по всем задачам оценки.

🌟 Репозиторий предоставляет набор инструментов и инструкций для работы с этими представлениями, включая подготовку данных, обучение и использование. В нем также есть примеры использования и инструкции по запуску.

▪️GitHub

@bigdatai

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤3🔥2✍1

www.tgoop.com/bigdatai/913

2.03K viewsOct 22, 2024 at 17:46

tgoop.com/bigdatai/913

Create: 2024-10-22
Last Update: 2025-07-28 17:57:30

🔥 model2vec — реализация модели для обучения эмбедингов (embeddings) нейросетевых моделей. Основная идея проекта — создание представлений моделей, которые могут быть использованы для оценки схожести между моделями, их кластеризации или других задач.

Model2Vec - библиотека для создания компактных и быстрых моделей на основе предобученных Sentence Transformer моделей.

Model2Vec позволяет создавать эмбединг-модели слов и предложений, которые значительно меньше по размеру, но при этом сопоставимы по производительности с исходными Sentence Transformer моделями.

Отличительные особенности:

🟢быстрая дистилляция, процесс создания модели занимает несколько минут;

🟢быстрый инференс, в 500 раз быстрее на CPU относительно родительской модели;

🟢BYOM и BYOV, можно использовать на любой Sentence Transformer модели с любым словарем;

🟢мультиязычность, все что нужно - только мультиязычная модель в качестве источника;

🟢интеграция с Huggingface, загрузка\выгрузка моделей привычными from_pretrained и push_to_hub.

Пайплайн Model2Vec трехэтапный. На первом этапе словарь пропускается через модель Sentence Transformer для получения векторов эмбедингов для каждого слова.

Далее, размерность полученных эмбеддингов сокращается с помощью метода главных компонент (PCA). Наконец, применяется zipf-взвешивание для учета частотности слов в словаре.

Model2Vec работает в двух режимах:

🟠Output, в котором модель работает подобно Sentence Transformer, используя subword токенизацию;

🟠Vocab, в котором создается набор статических эмбедингов слов, аналогично GloVe или Word2Vec.

Оценку производительности Model2Vec делали на наборе данных MTEB на задачах PEARL (оценка качества представления фраз) и WordSim (оценка семантической близости слов).

Результаты показывают, что Model2Vec превосходит по производительности GloVe и модели, основанные на WordLlama по всем задачам оценки.

🌟 Репозиторий предоставляет набор инструментов и инструкций для работы с этими представлениями, включая подготовку данных, обучение и использование. В нем также есть примеры использования и инструкции по запуску.

▪️GitHub

@bigdatai

Telegram News

🔥 model2vec — реализация модели для обучения эмбедингов (embeddings) нейросетевых моделей. Основная идея проекта — создание представлений моделей