tgoop.com/nn_for_science/2510
Last Update:
🎧 Perch 2.0 - простая supervised-модель для биоакустики
DeepMind показали новую модель для распознавания звуков животных. Без self-supervised магии, без миллиардов параметров. Просто хорошо сделанная supervised-модель которая рвет все бенчмарки
Звуки природы — это данные.
Для биологов и экологов это ключ к выживанию видов: по записям звуков можно понять, кто живёт в лесу, сколько их, размножаются ли они и не вытесняет ли их человек.
Но расшифровывать эти саундскейпы - адский труд. Час записи в тропиках = звуки десятки животных, наслаивающихся друг на друга.
И вот тут приходит AI.
🐦 Что делает Perch 2.0?
Это универсальный эмбеддер для звуков животных: берёт аудио (5 секунд), выдаёт вектор, с которым можно:
• искать похожие фрагменты (nearest neighbor)
• делать кластеризацию
• обучать линейный классификатор для нового вида (few-shot)
И всё это без GPU и fine-tuning.
Модель натренирована на 1.5 миллионах аудио-записей: птицы, насекомые, млекопитающие, даже урбанистический шум из FSD50k.
🛠 Как работает?
Perch 2.0 — это EfficientNet‑B3 (всего 12M параметров) + три головы:
1. Основная — классифицирует ~15k видов.
2. Прототипная — даёт семантически богатые логиты (для distillation).
3. Source prediction — угадывает, из какой записи взят кусок (а-ля self-supervised).
Фишка: модель обучается в два этапа. Сначала прототипная голова учится сама, потом её логиты становятся soft-label’ами для основной головы. Это и есть self-distillation.
📊 И как оно по качеству?
Perch 2.0 побила все предыдущие модели:
• На BirdSet и BEANS — новые SOTA по ROC-AUC и mAP.
• Даже на морских звуках китов и дельфинов показала отличную переносимость — при том, что почти не видела морских данных.
И да, всё это — без fine-tuning, просто на фиксированных эмбеддингах.
🤯 Почему это вообще важно?
Пока весь ML уходит в миллиардные LLM’ы и self-supervised pretraining, Perch напоминает: качественная разметка + хорошо сформулированная задача решают всё.
🌍 Что это меняет?
• Для биологов - теперь можно кластеризовать звуки из джунглей Бразилии без обучения своих моделей
• Для ML-инженеров - отличная демонстрация, как можно обучать компактные модели, не теряя качества
• Для исследователей - напоминание: не всегда нужно делать GPT-4, чтобы бы сделать что-то полезное
📎 Кто хочет поиграться — модель и датасеты уже на Kaggle
Статья
Блог-пост
BY AI для Всех

Share with your friend now:
tgoop.com/nn_for_science/2510