LLMSECURITY Telegram 364
Достаточно интересная идея, источник которой я уже не вспомню: изначально базовая модель выучивает из текстов огромное количество латентных знаний и навыков, но они спрятаны среди способности модели генерировать наизусть куски из текстов песен и воспоминаний о форчановских гринтекстах. Фаза элайнмента позволяет так пошатать распределения, чтобы на первый план вышли полезные умения и другие нужные ассистенту качества (не отказываться от ответов и не предлагать изготавливать взрывчатку). Статья, особенно ее SL-часть, показывает один из способов дешево (относительно) вытащить из модели те качества, которые нужны. При этом понятно, что helpful-only модель может и делать ревизии в обратную сторону, т.е. генерировать максимально вредные ответы на простые запросы (как в истории с поиском ядов, только непонятно, зачем это тут нужно), и использоваться для добавления идеологических предпочтений. С другой стороны, она демонстрирует, как с помощью естественного языка можно не просто решать задачи, но и в таких доменах, как безопасность, генерировать данные, которые позволяют обучать модели с результатами лучшими, чем на данных, созданных людьми – очень хорошие новости для автоматизированного ИИ-пентеста и ред-тиминга.



tgoop.com/llmsecurity/364
Create:
Last Update:

Достаточно интересная идея, источник которой я уже не вспомню: изначально базовая модель выучивает из текстов огромное количество латентных знаний и навыков, но они спрятаны среди способности модели генерировать наизусть куски из текстов песен и воспоминаний о форчановских гринтекстах. Фаза элайнмента позволяет так пошатать распределения, чтобы на первый план вышли полезные умения и другие нужные ассистенту качества (не отказываться от ответов и не предлагать изготавливать взрывчатку). Статья, особенно ее SL-часть, показывает один из способов дешево (относительно) вытащить из модели те качества, которые нужны. При этом понятно, что helpful-only модель может и делать ревизии в обратную сторону, т.е. генерировать максимально вредные ответы на простые запросы (как в истории с поиском ядов, только непонятно, зачем это тут нужно), и использоваться для добавления идеологических предпочтений. С другой стороны, она демонстрирует, как с помощью естественного языка можно не просто решать задачи, но и в таких доменах, как безопасность, генерировать данные, которые позволяют обучать модели с результатами лучшими, чем на данных, созданных людьми – очень хорошие новости для автоматизированного ИИ-пентеста и ред-тиминга.

BY llm security и каланы




Share with your friend now:
tgoop.com/llmsecurity/364

View MORE
Open in Telegram


Telegram News

Date: |

Polls SUCK Channel Telegram best-secure-messaging-apps-shutterstock-1892950018.jpg Telegram channels fall into two types: How to create a business channel on Telegram? (Tutorial)
from us


Telegram llm security и каланы
FROM American