tgoop.com/nlpwanderer/31
Last Update:
Если кратко: в основе метода внедрение Rotary Embeddings в архитектуру и дистиляция (клонирование оригинальных моделей). Всего мы выпустили 4 разных модели для разных задач (sentence и word embeddings) и размеров контекста (до 2к токенов).
В итоге мы добились топ 1 по скору S+W на бенчмарке encodechka. И кроме того, мы внедрили FlashAttention из Pytorch и ускороили инференс и тренировку в несколько раз!
Веса всех моделей, их код и инструкции по запуску доступны в нашем аккаунте на HuggingFace 🤗
Классические берты с большим русским словарем токенов (идеально для NER и подобных задач):
Tochka-AI/ruRoPEBert-classic-base-512
Tochka-AI/ruRoPEBert-classic-base-2k
Sentence берты, с руссифицированным словарем от e5 (лидеры на encodechka):
Tochka-AI/ruRoPEBert-e5-base-512
Tochka-AI/ruRoPEBert-e5-base-2k
Больше подробностей вас ждут в статье по ссылке 💫