tgoop.com/data_analysis_ml/3801
Last Update:
🎯 Hugging Face показали, как ускорить обучение мультимодальных моделей, устранив главное узкое место — неэффективную загрузку данных.
Они представили Multimodal Data Pipeline (MMDP) — мощный, но простой пайплайн, который решает проблему простоя GPU из-за паддинга и медленного I/O.
Вот как это работает:
1. Визуализация данных — сначала анализируются длины текстов и структура мультимодальных примеров.
2. Constrained Padding — вместо бездумного паддинга, обрезаются аномально длинные примеры.
3. Packing как bin-packing — батчи собираются по максимальному числу токенов, а не по фиксированному количеству примеров.
4. Multimodal-aware batching — учитывается и число изображений в батче.
5. ConstantLengthDataset — кастомный класс с producer-consumer очередями и плотной упаковкой без паддинга.
💡 Результат — более плотные батчи, меньше токенов вхолостую, выше эффективность обучения.
Исходники и туториал:
📌 https://huggingface.co/blog/mmdp
📌 https://github.com/ariG23498/mmdp
Если ты тренируешь VLM или LLM с изображениями — это must-have.
@data_analysis_ml
BY Анализ данных (Data analysis)

Share with your friend now:
tgoop.com/data_analysis_ml/3801