OPENDATASCIENCE Telegram 2544
📝 Инсайты с Interspeech: Frozen Large Language Models Can Perceive Paralinguistic Aspects of Speech

Большинство LLM, которые нативно работают со звуком, состоят из трёх компонентов: аудио-энкодер, адаптер и текстовая LLM (подробнее — в статье про GigaChat Audio).
Обычно для обучения аудиомодальности в LLM добавляют LoRA-адаптеры, чтобы сдвинуть веса в сторону восприятия аудио. Однако в LLaMA 3 и SLM добавляли понимание речи, оставив веса LLM полностью замороженными. На первый взгляд, это должно ограничить модель — например, она сможет только транскрибировать речь, но не определять эмоцию или пол спикера.

В настоящей статье авторы показывают, что это не так. Замороженная LLM способна воспринимать эмоции из эмбеддингов аудиозаписи, если обучить адаптер на подходящем наборе данных.

В популярной схеме AudioChatLlama используется принцип инвариантности к модальности: берут текстовые транскрипции, на их основе LLM генерирует ответы, а при обучении эти ответы сопоставляют уже с аудио. То есть модель учат давать одинаковый ответ и на текст, и на аудиозапись. В этой работе развивают идею: данные по-прежнему генерируются из транскрипций, но к ним добавляют теги эмоций и стиля. LLM генерирует разные варианты ответов в зависимости от того, с какой эмоцией произносится фраза. Далее адаптер обучается так, чтобы аудиозапись с меткой «радостно» или «грустно» вызывала у замороженной LLM соответствующий emotion-conditioned ответ. Благодаря этому даже замороженная текстовая модель начинает учитывать паралингвистику и различать стиль речи.

Отдельный вопрос: какую LLM использовать для генерации текстовых описаний при подготовке датасета — исходную или более сильную? Мы спросили автора работы: таких экспериментов они не проводили, но предполагают, что важно генерировать данные исходной LLM, чтобы не было несоответствия между распределениями токенов.

Это подтверждают и в статье DeSTA 2.5 (TABLE III). Там сравнивали self-generation (датасет создаёт сама LLM) и кросс-модельные сценарии. Оказалось, что при self-generation результаты стабильнее и выше, чем при использовании более сильной LLM для генерации данных. Также модель чаще выбирает ответ «недостаточно информации», чем выдает галлюцинации — что делает её надёжнее.

Итак, даже текстовая LLM может быть чувствительной к эмоциям в аудиозапросе, если правильно обучить адаптер и использовать данные, сгенерированные самой моделью.

Мы еще вернемся к вам с обзорами интересных статей, а пока предлагаем изучить материалы:
- A Journey through Emerging Speech Research with NVIDIA NeMo
- Survey talk: Advances in Conversational Speech Recognition
🤔2



tgoop.com/opendatascience/2544
Create:
Last Update:

📝 Инсайты с Interspeech: Frozen Large Language Models Can Perceive Paralinguistic Aspects of Speech

Большинство LLM, которые нативно работают со звуком, состоят из трёх компонентов: аудио-энкодер, адаптер и текстовая LLM (подробнее — в статье про GigaChat Audio).
Обычно для обучения аудиомодальности в LLM добавляют LoRA-адаптеры, чтобы сдвинуть веса в сторону восприятия аудио. Однако в LLaMA 3 и SLM добавляли понимание речи, оставив веса LLM полностью замороженными. На первый взгляд, это должно ограничить модель — например, она сможет только транскрибировать речь, но не определять эмоцию или пол спикера.

В настоящей статье авторы показывают, что это не так. Замороженная LLM способна воспринимать эмоции из эмбеддингов аудиозаписи, если обучить адаптер на подходящем наборе данных.

В популярной схеме AudioChatLlama используется принцип инвариантности к модальности: берут текстовые транскрипции, на их основе LLM генерирует ответы, а при обучении эти ответы сопоставляют уже с аудио. То есть модель учат давать одинаковый ответ и на текст, и на аудиозапись. В этой работе развивают идею: данные по-прежнему генерируются из транскрипций, но к ним добавляют теги эмоций и стиля. LLM генерирует разные варианты ответов в зависимости от того, с какой эмоцией произносится фраза. Далее адаптер обучается так, чтобы аудиозапись с меткой «радостно» или «грустно» вызывала у замороженной LLM соответствующий emotion-conditioned ответ. Благодаря этому даже замороженная текстовая модель начинает учитывать паралингвистику и различать стиль речи.

Отдельный вопрос: какую LLM использовать для генерации текстовых описаний при подготовке датасета — исходную или более сильную? Мы спросили автора работы: таких экспериментов они не проводили, но предполагают, что важно генерировать данные исходной LLM, чтобы не было несоответствия между распределениями токенов.

Это подтверждают и в статье DeSTA 2.5 (TABLE III). Там сравнивали self-generation (датасет создаёт сама LLM) и кросс-модельные сценарии. Оказалось, что при self-generation результаты стабильнее и выше, чем при использовании более сильной LLM для генерации данных. Также модель чаще выбирает ответ «недостаточно информации», чем выдает галлюцинации — что делает её надёжнее.

Итак, даже текстовая LLM может быть чувствительной к эмоциям в аудиозапросе, если правильно обучить адаптер и использовать данные, сгенерированные самой моделью.

Мы еще вернемся к вам с обзорами интересных статей, а пока предлагаем изучить материалы:
- A Journey through Emerging Speech Research with NVIDIA NeMo
- Survey talk: Advances in Conversational Speech Recognition

BY Data Science by ODS.ai 🦜




Share with your friend now:
tgoop.com/opendatascience/2544

View MORE
Open in Telegram


Telegram News

Date: |

1What is Telegram Channels? The group’s featured image is of a Pepe frog yelling, often referred to as the “REEEEEEE” meme. Pepe the Frog was created back in 2005 by Matt Furie and has since become an internet symbol for meme culture and “degen” culture. Those being doxxed include outgoing Chief Executive Carrie Lam Cheng Yuet-ngor, Chung and police assistant commissioner Joe Chan Tung, who heads police's cyber security and technology crime bureau. The Channel name and bio must be no more than 255 characters long With Bitcoin down 30% in the past week, some crypto traders have taken to Telegram to “voice” their feelings.
from us


Telegram Data Science by ODS.ai 🦜
FROM American