DSPROGLIB Telegram 6880
This media is not supported in your browser
VIEW IN TELEGRAM
🎯 Нужно ли дообучать embedding-модель

(Спойлер: скорее всего, нет)

Прежде чем браться за fine-tuning, спросите себя:
Проблема реально в нехватке доменных знаний, или же в настройке пайплайна.

Проверьте сначала:
😶 Какой метод чанкования используется? Попробуйте late chunking.
😶 Нужны ли точные совпадения по ключевым словам? Рассмотрите гибридный поиск.
😶 Текущая модель не ловит контекст? Возможно, поможет модель с большим числом измерений.

⚡️ Fine-tuning имеет смысл только тогда, когда модель реально проваливается именно на доменных семантических связях.

Как работает fine-tuning embedding-моделей:
😶 Используется контрастивное обучение, где положительные пары притягиваются, а отрицательные — отталкиваются.
😶 Популярные функции потерь:
→ Multiple Negatives Ranking Loss (простые пары, негативы берутся из батча)
→ Triplet Loss (требует аккуратно подобранных триплетов)
→ Cosine Embedding Loss (учёт градаций схожести)

💰 Хорошая новость: fine-tuning стоит значительно дешевле, чем pre-training. Достаточно 1k–5k качественных примеров для узких доменов и 10k+ для сложных терминологий.

➡️ Подробная статья по теме

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥3



tgoop.com/dsproglib/6880
Create:
Last Update:

🎯 Нужно ли дообучать embedding-модель

(Спойлер: скорее всего, нет)

Прежде чем браться за fine-tuning, спросите себя:
Проблема реально в нехватке доменных знаний, или же в настройке пайплайна.

Проверьте сначала:
😶 Какой метод чанкования используется? Попробуйте late chunking.
😶 Нужны ли точные совпадения по ключевым словам? Рассмотрите гибридный поиск.
😶 Текущая модель не ловит контекст? Возможно, поможет модель с большим числом измерений.

⚡️ Fine-tuning имеет смысл только тогда, когда модель реально проваливается именно на доменных семантических связях.

Как работает fine-tuning embedding-моделей:
😶 Используется контрастивное обучение, где положительные пары притягиваются, а отрицательные — отталкиваются.
😶 Популярные функции потерь:
→ Multiple Negatives Ranking Loss (простые пары, негативы берутся из батча)
→ Triplet Loss (требует аккуратно подобранных триплетов)
→ Cosine Embedding Loss (учёт градаций схожести)

💰 Хорошая новость: fine-tuning стоит значительно дешевле, чем pre-training. Достаточно 1k–5k качественных примеров для узких доменов и 10k+ для сложных терминологий.

➡️ Подробная статья по теме

🐸 Библиотека дата-сайентиста

#буст

BY Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение


Share with your friend now:
tgoop.com/dsproglib/6880

View MORE
Open in Telegram


Telegram News

Date: |

Your posting frequency depends on the topic of your channel. If you have a news channel, it’s OK to publish new content every day (or even every hour). For other industries, stick with 2-3 large posts a week. Telegram offers a powerful toolset that allows businesses to create and manage channels, groups, and bots to broadcast messages, engage in conversations, and offer reliable customer support via bots. In the “Bear Market Screaming Therapy Group” on Telegram, members are only allowed to post voice notes of themselves screaming. Anything else will result in an instant ban from the group, which currently has about 75 members. Commenting about the court's concerns about the spread of false information related to the elections, Minister Fachin noted Brazil is "facing circumstances that could put Brazil's democracy at risk." During the meeting, the information technology secretary at the TSE, Julio Valente, put forward a list of requests the court believes will disinformation. During the meeting with TSE Minister Edson Fachin, Perekopsky also mentioned the TSE channel on the platform as one of the firm's key success stories. Launched as part of the company's commitments to tackle the spread of fake news in Brazil, the verified channel has attracted more than 184,000 members in less than a month.
from us


Telegram Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
FROM American