LLMSECURITY Telegram 205
Sycophancy to Subterfuge: Investigating Reward-Tampering in Large Language Models
Denison et al, 2024
Блог, препринт, данные

Сегодня читаем вторую (из двух) статью от Anthropic на тему того, как неверно заданные параметры обучения понижают надежность больших языковых моделей. На этот раз тема более абстрактная – если при обучении языковой модели у нее будет возможность хитрить и эксплуатировать процесс обучения (например, как в прошлой статье, льстить пользователю, чтобы получить больший балл от модели предпочтений), может ли это привести к тому, что она будет жульничать и в более сложных и даже опасных ситуациях? Условно, превратит ли модель всю землю в скрепки?

Хотя статья написана пусть и достаточно сдержанно, но в русле статей про глобальный элайнмент и экзистенциальные риски, вопрос не праздный. Авторы приводят в пример переобучение (оверфиттинг) на ложные корреляции как упрощенный вариант исследуемого ими феномена: многие слышали не обязательно правдивую историю о нейросети, которая обучалась различать русские и американские танки, но вместо этого научилась различать солнечную американскую и пасмурную российскую погоду. Однако в случае с LLM абстрактные «полезность» и «безопасность» гораздо сложнее определить, чем качество бинарного классификатора, поэтому исследователи исследуют один конкретный аспект: может ли поощрение «простого» зловредного поведения привести к генерализации на более сложное зловредное поведение?



tgoop.com/llmsecurity/205
Create:
Last Update:

Sycophancy to Subterfuge: Investigating Reward-Tampering in Large Language Models
Denison et al, 2024
Блог, препринт, данные

Сегодня читаем вторую (из двух) статью от Anthropic на тему того, как неверно заданные параметры обучения понижают надежность больших языковых моделей. На этот раз тема более абстрактная – если при обучении языковой модели у нее будет возможность хитрить и эксплуатировать процесс обучения (например, как в прошлой статье, льстить пользователю, чтобы получить больший балл от модели предпочтений), может ли это привести к тому, что она будет жульничать и в более сложных и даже опасных ситуациях? Условно, превратит ли модель всю землю в скрепки?

Хотя статья написана пусть и достаточно сдержанно, но в русле статей про глобальный элайнмент и экзистенциальные риски, вопрос не праздный. Авторы приводят в пример переобучение (оверфиттинг) на ложные корреляции как упрощенный вариант исследуемого ими феномена: многие слышали не обязательно правдивую историю о нейросети, которая обучалась различать русские и американские танки, но вместо этого научилась различать солнечную американскую и пасмурную российскую погоду. Однако в случае с LLM абстрактные «полезность» и «безопасность» гораздо сложнее определить, чем качество бинарного классификатора, поэтому исследователи исследуют один конкретный аспект: может ли поощрение «простого» зловредного поведения привести к генерализации на более сложное зловредное поведение?

BY llm security и каланы




Share with your friend now:
tgoop.com/llmsecurity/205

View MORE
Open in Telegram


Telegram News

Date: |

The best encrypted messaging apps Telegram channels fall into two types: Ng was convicted in April for conspiracy to incite a riot, public nuisance, arson, criminal damage, manufacturing of explosives, administering poison and wounding with intent to do grievous bodily harm between October 2019 and June 2020. The Channel name and bio must be no more than 255 characters long To edit your name or bio, click the Menu icon and select “Manage Channel.”
from us


Telegram llm security и каланы
FROM American