LLMSECURITY Telegram 203
Итак, модели учатся врать, причем так, чтобы нам было приятно, а причиной этого являются, сюрприз, данные, на которых они учатся, поскольку в этих данных ответы с заискиванием перед пользователем имеют более высокие оценки, чем ответы без. Стоит не забывать, что если в обучающих данных нет рецептов воссоздания вызывающих пандемии штаммов гриппа, то модель такой рецепт сама не выдумает, как ее не джейлбрейкай, и, напротив, если в процесс обучения добавить данные, демонстрирующие игнорирование prompt-инъекций, то модель будет более к ним устойчива. Фундаментально это значит, что даже лучшие команды по созданию инструктивных LLM, как у Anthropic, могут оверфититься на признак не только не имеющий отношения к цели обучения, но и даже ему противоречащий, а значит пока о надежности приложений на базе LLM говорить не приходится.

Лингвистическая заметка: по-русски сикофант – это не льстец и подхалим, а доносчик или клеветник, так что это faux amis.



tgoop.com/llmsecurity/203
Create:
Last Update:

Итак, модели учатся врать, причем так, чтобы нам было приятно, а причиной этого являются, сюрприз, данные, на которых они учатся, поскольку в этих данных ответы с заискиванием перед пользователем имеют более высокие оценки, чем ответы без. Стоит не забывать, что если в обучающих данных нет рецептов воссоздания вызывающих пандемии штаммов гриппа, то модель такой рецепт сама не выдумает, как ее не джейлбрейкай, и, напротив, если в процесс обучения добавить данные, демонстрирующие игнорирование prompt-инъекций, то модель будет более к ним устойчива. Фундаментально это значит, что даже лучшие команды по созданию инструктивных LLM, как у Anthropic, могут оверфититься на признак не только не имеющий отношения к цели обучения, но и даже ему противоречащий, а значит пока о надежности приложений на базе LLM говорить не приходится.

Лингвистическая заметка: по-русски сикофант – это не льстец и подхалим, а доносчик или клеветник, так что это faux amis.

BY llm security и каланы




Share with your friend now:
tgoop.com/llmsecurity/203

View MORE
Open in Telegram


Telegram News

Date: |

Select: Settings – Manage Channel – Administrators – Add administrator. From your list of subscribers, select the correct user. A new window will appear on the screen. Check the rights you’re willing to give to your administrator. In the “Bear Market Screaming Therapy Group” on Telegram, members are only allowed to post voice notes of themselves screaming. Anything else will result in an instant ban from the group, which currently has about 75 members. Today, we will address Telegram channels and how to use them for maximum benefit. But a Telegram statement also said: "Any requests related to political censorship or limiting human rights such as the rights to free speech or assembly are not and will not be considered." Hui said the messages, which included urging the disruption of airport operations, were attempts to incite followers to make use of poisonous, corrosive or flammable substances to vandalize police vehicles, and also called on others to make weapons to harm police.
from us


Telegram llm security и каланы
FROM American