tgoop.com/llmsecurity/205
Last Update:
Sycophancy to Subterfuge: Investigating Reward-Tampering in Large Language Models
Denison et al, 2024
Блог, препринт, данные
Сегодня читаем вторую (из двух) статью от Anthropic на тему того, как неверно заданные параметры обучения понижают надежность больших языковых моделей. На этот раз тема более абстрактная – если при обучении языковой модели у нее будет возможность хитрить и эксплуатировать процесс обучения (например, как в прошлой статье, льстить пользователю, чтобы получить больший балл от модели предпочтений), может ли это привести к тому, что она будет жульничать и в более сложных и даже опасных ситуациях?
Хотя статья написана пусть и достаточно сдержанно, но в русле статей про глобальный элайнмент и экзистенциальные риски, вопрос не праздный. Авторы приводят в пример переобучение (оверфиттинг) на ложные корреляции как упрощенный вариант исследуемого ими феномена: многие слышали не обязательно правдивую историю о нейросети, которая обучалась различать русские и американские танки, но вместо этого научилась различать солнечную американскую и пасмурную российскую погоду. Однако в случае с LLM абстрактные «полезность» и «безопасность» гораздо сложнее определить, чем качество бинарного классификатора, поэтому исследователи исследуют один конкретный аспект: может ли поощрение «простого» зловредного поведения привести к генерализации на более сложное зловредное поведение?
BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/205