NN_FOR_SCIENCE Telegram 2510
🎧 Perch 2.0 - простая supervised-модель для биоакустики

DeepMind показали новую модель для распознавания звуков животных. Без self-supervised магии, без миллиардов параметров. Просто хорошо сделанная supervised-модель которая рвет все бенчмарки

Звуки природы — это данные.

Для биологов и экологов это ключ к выживанию видов: по записям звуков можно понять, кто живёт в лесу, сколько их, размножаются ли они и не вытесняет ли их человек.

Но расшифровывать эти саундскейпы - адский труд. Час записи в тропиках = звуки десятки животных, наслаивающихся друг на друга.

И вот тут приходит AI.

🐦 Что делает Perch 2.0?

Это универсальный эмбеддер для звуков животных: берёт аудио (5 секунд), выдаёт вектор, с которым можно:
• искать похожие фрагменты (nearest neighbor)
• делать кластеризацию
• обучать линейный классификатор для нового вида (few-shot)

И всё это без GPU и fine-tuning.

Модель натренирована на 1.5 миллионах аудио-записей: птицы, насекомые, млекопитающие, даже урбанистический шум из FSD50k.

🛠 Как работает?

Perch 2.0 — это EfficientNet‑B3 (всего 12M параметров) + три головы:
1. Основная — классифицирует ~15k видов.
2. Прототипная — даёт семантически богатые логиты (для distillation).
3. Source prediction — угадывает, из какой записи взят кусок (а-ля self-supervised).

Фишка: модель обучается в два этапа. Сначала прототипная голова учится сама, потом её логиты становятся soft-label’ами для основной головы. Это и есть self-distillation.

📊 И как оно по качеству?

Perch 2.0 побила все предыдущие модели:
• На BirdSet и BEANS — новые SOTA по ROC-AUC и mAP.
• Даже на морских звуках китов и дельфинов показала отличную переносимость — при том, что почти не видела морских данных.

И да, всё это — без fine-tuning, просто на фиксированных эмбеддингах.

🤯 Почему это вообще важно?

Пока весь ML уходит в миллиардные LLM’ы и self-supervised pretraining, Perch напоминает: качественная разметка + хорошо сформулированная задача решают всё.

🌍 Что это меняет?
• Для биологов - теперь можно кластеризовать звуки из джунглей Бразилии без обучения своих моделей
• Для ML-инженеров - отличная демонстрация, как можно обучать компактные модели, не теряя качества
• Для исследователей - напоминание: не всегда нужно делать GPT-4, чтобы бы сделать что-то полезное

📎 Кто хочет поиграться — модель и датасеты уже на Kaggle

Статья
Блог-пост
28👍12🔥7



tgoop.com/nn_for_science/2510
Create:
Last Update:

🎧 Perch 2.0 - простая supervised-модель для биоакустики

DeepMind показали новую модель для распознавания звуков животных. Без self-supervised магии, без миллиардов параметров. Просто хорошо сделанная supervised-модель которая рвет все бенчмарки

Звуки природы — это данные.

Для биологов и экологов это ключ к выживанию видов: по записям звуков можно понять, кто живёт в лесу, сколько их, размножаются ли они и не вытесняет ли их человек.

Но расшифровывать эти саундскейпы - адский труд. Час записи в тропиках = звуки десятки животных, наслаивающихся друг на друга.

И вот тут приходит AI.

🐦 Что делает Perch 2.0?

Это универсальный эмбеддер для звуков животных: берёт аудио (5 секунд), выдаёт вектор, с которым можно:
• искать похожие фрагменты (nearest neighbor)
• делать кластеризацию
• обучать линейный классификатор для нового вида (few-shot)

И всё это без GPU и fine-tuning.

Модель натренирована на 1.5 миллионах аудио-записей: птицы, насекомые, млекопитающие, даже урбанистический шум из FSD50k.

🛠 Как работает?

Perch 2.0 — это EfficientNet‑B3 (всего 12M параметров) + три головы:
1. Основная — классифицирует ~15k видов.
2. Прототипная — даёт семантически богатые логиты (для distillation).
3. Source prediction — угадывает, из какой записи взят кусок (а-ля self-supervised).

Фишка: модель обучается в два этапа. Сначала прототипная голова учится сама, потом её логиты становятся soft-label’ами для основной головы. Это и есть self-distillation.

📊 И как оно по качеству?

Perch 2.0 побила все предыдущие модели:
• На BirdSet и BEANS — новые SOTA по ROC-AUC и mAP.
• Даже на морских звуках китов и дельфинов показала отличную переносимость — при том, что почти не видела морских данных.

И да, всё это — без fine-tuning, просто на фиксированных эмбеддингах.

🤯 Почему это вообще важно?

Пока весь ML уходит в миллиардные LLM’ы и self-supervised pretraining, Perch напоминает: качественная разметка + хорошо сформулированная задача решают всё.

🌍 Что это меняет?
• Для биологов - теперь можно кластеризовать звуки из джунглей Бразилии без обучения своих моделей
• Для ML-инженеров - отличная демонстрация, как можно обучать компактные модели, не теряя качества
• Для исследователей - напоминание: не всегда нужно делать GPT-4, чтобы бы сделать что-то полезное

📎 Кто хочет поиграться — модель и датасеты уже на Kaggle

Статья
Блог-пост

BY AI для Всех




Share with your friend now:
tgoop.com/nn_for_science/2510

View MORE
Open in Telegram


Telegram News

Date: |

As five out of seven counts were serious, Hui sentenced Ng to six years and six months in jail. Content is editable within two days of publishing best-secure-messaging-apps-shutterstock-1892950018.jpg With Bitcoin down 30% in the past week, some crypto traders have taken to Telegram to “voice” their feelings. Avoid compound hashtags that consist of several words. If you have a hashtag like #marketingnewsinusa, split it into smaller hashtags: “#marketing, #news, #usa.
from us


Telegram AI для Всех
FROM American