AI для Всех@nn_for

AI для Всех

🎧 Perch 2.0 - простая supervised-модель для биоакустики

DeepMind показали новую модель для распознавания звуков животных. Без self-supervised магии, без миллиардов параметров. Просто хорошо сделанная supervised-модель которая рвет все бенчмарки

Звуки природы — это данные.

Для биологов и экологов это ключ к выживанию видов: по записям звуков можно понять, кто живёт в лесу, сколько их, размножаются ли они и не вытесняет ли их человек.

Но расшифровывать эти саундскейпы - адский труд. Час записи в тропиках = звуки десятки животных, наслаивающихся друг на друга.

И вот тут приходит AI.

🐦 Что делает Perch 2.0?

Это универсальный эмбеддер для звуков животных: берёт аудио (5 секунд), выдаёт вектор, с которым можно:
• искать похожие фрагменты (nearest neighbor)
• делать кластеризацию
• обучать линейный классификатор для нового вида (few-shot)

И всё это без GPU и fine-tuning.

Модель натренирована на 1.5 миллионах аудио-записей: птицы, насекомые, млекопитающие, даже урбанистический шум из FSD50k.

🛠 Как работает?

Perch 2.0 — это EfficientNet‑B3 (всего 12M параметров) + три головы:
1. Основная — классифицирует ~15k видов.
2. Прототипная — даёт семантически богатые логиты (для distillation).
3. Source prediction — угадывает, из какой записи взят кусок (а-ля self-supervised).

Фишка: модель обучается в два этапа. Сначала прототипная голова учится сама, потом её логиты становятся soft-label’ами для основной головы. Это и есть self-distillation.

📊 И как оно по качеству?

Perch 2.0 побила все предыдущие модели:
• На BirdSet и BEANS — новые SOTA по ROC-AUC и mAP.
• Даже на морских звуках китов и дельфинов показала отличную переносимость — при том, что почти не видела морских данных.

И да, всё это — без fine-tuning, просто на фиксированных эмбеддингах.

🤯 Почему это вообще важно?

Пока весь ML уходит в миллиардные LLM’ы и self-supervised pretraining, Perch напоминает: качественная разметка + хорошо сформулированная задача решают всё.

🌍 Что это меняет?
• Для биологов - теперь можно кластеризовать звуки из джунглей Бразилии без обучения своих моделей
• Для ML-инженеров - отличная демонстрация, как можно обучать компактные модели, не теряя качества
• Для исследователей - напоминание: не всегда нужно делать GPT-4, чтобы бы сделать что-то полезное

📎 Кто хочет поиграться — модель и датасеты уже на Kaggle

Статья
Блог-пост

❤28👍12🔥7

www.tgoop.com/nn_for_science/2510

6.01K viewsAug 7 at 16:13

tgoop.com/nn_for_science/2510

Create: 2025-08-07
Last Update: 2025-10-11 13:46:05

BY AI для Всех

Share with your friend now:
tgoop.com/nn_for_science/2510

Telegram News

🎧 Perch 2.0 - простая supervised-модель для биоакустики