tgoop.com/dsproglib/6223
Last Update:
📌 Это база: аctive learning
Разметка данных — процесс сложный, дорогой и отнимающий много времени. Active Learning (Активное обучение) — способ эффективно обучать модели, даже если данных с разметкой нет.
🔍 Как это работает:
1. Начинаем с небольшой разметки
Размечаем вручную лишь малую часть данных (~1%).
2. Обучаем начальную модель
На основе размеченных данных строим базовую модель (она будет неточной, но это нормально).
3. Предсказываем метки для оставшихся данных
Но мы не знаем, насколько предсказания модели точны.
4. Оцениваем уверенность модели
• Если разница между 1-м и 2-м по вероятности классом большая, значит, модель уверена в предсказании.
• Если разница маленькая, значит, модель сомневается.
5. Размечаем только неуверенные предсказания
• Вместо того, чтобы вручную размечать весь набор данных, мы фокусируемся только на сложных примерах.
• Полученные новые метки добавляем в тренировочный набор.
6. Повторяем процесс
• Обучаем модель заново.
• Генерируем предсказания и уровни уверенности.
• Размечаем только сложные случаи.
• Повторяем, пока модель не станет достаточно точной.
🤝 Cooperative Learning:
Можно пойти дальше:
✔️ Низко-уверенные примеры размечаем вручную.
✔️ Высоко-уверенные примеры добавляем в тренировочный набор с их предсказанными метками.
🔹 Что это даёт:
• Сокращает количество размечаемых данных.
• Ускоряет обучение.
• Улучшает качество модели с минимальными затратами.
Библиотека дата-сайентиста #буст
BY Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
Share with your friend now:
tgoop.com/dsproglib/6223