tgoop.com/opendatascience/2544
Last Update:
📝 Инсайты с Interspeech: Frozen Large Language Models Can Perceive Paralinguistic Aspects of Speech
Большинство LLM, которые нативно работают со звуком, состоят из трёх компонентов: аудио-энкодер, адаптер и текстовая LLM (подробнее — в статье про GigaChat Audio).
Обычно для обучения аудиомодальности в LLM добавляют LoRA-адаптеры, чтобы сдвинуть веса в сторону восприятия аудио. Однако в LLaMA 3 и SLM добавляли понимание речи, оставив веса LLM полностью замороженными. На первый взгляд, это должно ограничить модель — например, она сможет только транскрибировать речь, но не определять эмоцию или пол спикера.
В настоящей статье авторы показывают, что это не так. Замороженная LLM способна воспринимать эмоции из эмбеддингов аудиозаписи, если обучить адаптер на подходящем наборе данных.
В популярной схеме AudioChatLlama используется принцип инвариантности к модальности: берут текстовые транскрипции, на их основе LLM генерирует ответы, а при обучении эти ответы сопоставляют уже с аудио. То есть модель учат давать одинаковый ответ и на текст, и на аудиозапись. В этой работе развивают идею: данные по-прежнему генерируются из транскрипций, но к ним добавляют теги эмоций и стиля. LLM генерирует разные варианты ответов в зависимости от того, с какой эмоцией произносится фраза. Далее адаптер обучается так, чтобы аудиозапись с меткой «радостно» или «грустно» вызывала у замороженной LLM соответствующий emotion-conditioned ответ. Благодаря этому даже замороженная текстовая модель начинает учитывать паралингвистику и различать стиль речи.
Отдельный вопрос: какую LLM использовать для генерации текстовых описаний при подготовке датасета — исходную или более сильную? Мы спросили автора работы: таких экспериментов они не проводили, но предполагают, что важно генерировать данные исходной LLM, чтобы не было несоответствия между распределениями токенов.
Это подтверждают и в статье DeSTA 2.5 (TABLE III). Там сравнивали self-generation (датасет создаёт сама LLM) и кросс-модельные сценарии. Оказалось, что при self-generation результаты стабильнее и выше, чем при использовании более сильной LLM для генерации данных. Также модель чаще выбирает ответ «недостаточно информации», чем выдает галлюцинации — что делает её надёжнее.
Итак, даже текстовая LLM может быть чувствительной к эмоциям в аудиозапросе, если правильно обучить адаптер и использовать данные, сгенерированные самой моделью.
Мы еще вернемся к вам с обзорами интересных статей, а пока предлагаем изучить материалы:
- A Journey through Emerging Speech Research with NVIDIA NeMo
- Survey talk: Advances in Conversational Speech Recognition
BY Data Science by ODS.ai 🦜

Share with your friend now:
tgoop.com/opendatascience/2544