#ICLR2025 На сверх-актуальную тему (судя по ее цитатам) "Towards Building Safe and Secure AI: Lessons and Open Challenges" выступала очаровательная Dawn Song. Четко разделила два типа безопасности в моделях (safety vs security) и проводила много примеров из области современных языковых моделей. Классический пример - утечка данных из обучающией выборки через специфический промпт. Из недавних ее работ - AgentPoison, как отравить память агента через RAG😨 Отмечу, как в конце она завершила целом списком угроз демократии от современных технологий. По этому поводу сделали даже целый евент на конференции🙏. Переживают.
tgoop.com/ai_panov/1093
Create:
Last Update:
Last Update:
#ICLR2025 На сверх-актуальную тему (судя по ее цитатам) "Towards Building Safe and Secure AI: Lessons and Open Challenges" выступала очаровательная Dawn Song. Четко разделила два типа безопасности в моделях (safety vs security) и проводила много примеров из области современных языковых моделей. Классический пример - утечка данных из обучающией выборки через специфический промпт. Из недавних ее работ - AgentPoison, как отравить память агента через RAG😨 Отмечу, как в конце она завершила целом списком угроз демократии от современных технологий. По этому поводу сделали даже целый евент на конференции🙏. Переживают.
BY Grounding Knowledge 🦾





Share with your friend now:
tgoop.com/ai_panov/1093