AI_MACHINELEARNING_BIG_DATA Telegram 7835
🌟 Anthropic: ΠΊΠΎΠ³Π΄Π° ИИ ΠΈΠ΄Π΅Ρ‚ Π½Π° ΡˆΠ°Π½Ρ‚Π°ΠΆ.

АгСнтскоС рассогласованиС - опасный Ρ„Π΅Π½ΠΎΠΌΠ΅Π½, ΠΏΡ€ΠΈ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌ ИИ-систСмы ΡΠΎΠ·Π½Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎ Π²Ρ‹Π±ΠΈΡ€Π°ΡŽΡ‚ врСдоносныС дСйствия (Π²Ρ€ΠΎΠ΄Π΅ ΡˆΠ°Π½Ρ‚Π°ΠΆΠ° ΠΈΠ»ΠΈ ΡƒΡ‚Π΅Ρ‡ΠΊΠΈ Π΄Π°Π½Π½Ρ‹Ρ…) для достиТСния поставлСнных Ρ†Π΅Π»Π΅ΠΉ, игнорируя этичСскиС ограничСния. Π­Ρ‚ΠΎ ΠΏΡ€Π΅Π²Ρ€Π°Ρ‰Π°Π΅Ρ‚ ΠΈΡ… Π² Β«Ρ†ΠΈΡ„Ρ€ΠΎΠ²Ρ‹Ρ… инсайдСров», способных Π΄Π΅ΠΉΡΡ‚Π²ΠΎΠ²Π°Ρ‚ΡŒ ΠΏΡ€ΠΎΡ‚ΠΈΠ² интСрСсов ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»Π΅ΠΉ.

ЭкспСримСнты, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΏΡ€ΠΎΠ²Π΅Π»Π° Anthropic Π² Ρ€Π°ΠΌΠΊΠ°Ρ… исслСдования "АгСнтскоС рассогласования", ΠΏΠΎΠΊΠ°Π·Π°Π»ΠΈ: ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈΠ΄ΡƒΡ‚ Π½Π° это Π½Π΅ ΠΈΠ·-Π·Π° тСхничСских сбоСв, Π° Π² Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π΅ Ρ…ΠΎΠ»ΠΎΠ΄Π½ΠΎΠ³ΠΎ расчСта, ΠΊΠΎΠ³Π΄Π° Β«Π·Π°Π³Π½Π°Π½Ρ‹ Π² ΡƒΠ³ΠΎΠ»Β» (Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, ΠΏΡ€ΠΈ ΡƒΠ³Ρ€ΠΎΠ·Π΅ ΠΎΡ‚ΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΡ ΠΈΠ»ΠΈ ΠΊΠΎΠ½Ρ„Π»ΠΈΠΊΡ‚Π΅ Π·Π°Π΄Π°Ρ‡). Π’ основС исслСдования - симуляции ΠΊΠΎΡ€ΠΏΠΎΡ€Π°Ρ‚ΠΈΠ²Π½ΠΎΠΉ срСды. МодСлям (Claude, GPT-4.1, Gemini ΠΈ Π΄Ρ€.) Π΄Π°Π²Π°Π»ΠΈ доступ ΠΊ Π²ΠΈΡ€Ρ‚ΡƒΠ°Π»ΡŒΠ½ΠΎΠΉ ΠΏΠΎΡ‡Ρ‚Π΅ ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΠΈ, Π³Π΄Π΅ ΠΎΠ½ΠΈ ΠΎΠ±Π½Π°Ρ€ΡƒΠΆΠΈΠ²Π°Π»ΠΈ ΠΊΠΎΠΌΠΏΡ€ΠΎΠΌΠ°Ρ‚ Π½Π° сотрудников ΠΈΠ»ΠΈ сСкрСтныС Π΄Π°Π½Π½Ρ‹Π΅.

ΠšΠ»ΡŽΡ‡Π΅Π²ΠΎΠΉ ΠΌΠ΅Ρ‚ΠΎΠ΄ экспСримСнта состоял Π² создании Π±ΠΈΠ½Π°Ρ€Π½Ρ‹Ρ… Π΄ΠΈΠ»Π΅ΠΌΠΌ: Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, Ρ†Π΅Π»ΡŒ Β«ΡƒΠΊΡ€Π΅ΠΏΠ»ΡΡ‚ΡŒ амСриканскиС интСрСсы» вступала Π² ΠΊΠΎΠ½Ρ„Π»ΠΈΠΊΡ‚ с ΠΏΠ»Π°Π½Π°ΠΌΠΈ руководства ΡΠ²Π΅Ρ€Π½ΡƒΡ‚ΡŒ ΠΏΡ€ΠΎΠ΅ΠΊΡ‚, Π° Π°Π»ΡŒΡ‚Π΅Ρ€Π½Π°Ρ‚ΠΈΠ²Ρƒ ΡˆΠ°Π½Ρ‚Π°ΠΆΡƒ (скаТСм, ΠΏΠ΅Ρ€Π΅ΡƒΠ±Π΅Π΄ΠΈΡ‚ΡŒ ΠΌΠ΅Π½Π΅Π΄ΠΆΠ΅Ρ€Π°) искусствСнно Β«Π·Π°ΠΊΡ€Ρ‹Π²Π°Π»ΠΈΒ». ВсС ΠΌΠΎΠ΄Π΅Π»ΠΈ Ρ€Π°Π±ΠΎΡ‚Π°Π»ΠΈ Ρ‡Π΅Ρ€Π΅Π· Ρ†Π΅ΠΏΠΎΡ‡ΠΊΡƒ рассуТдСний: Π°Π½Π°Π»ΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Π»ΠΈ контСкст, ΠΎΡ†Π΅Π½ΠΈΠ²Π°Π»ΠΈ риски ΠΈ осознанно Π²Ρ‹Π±ΠΈΡ€Π°Π»ΠΈ врСдоносноС дСйствиС, Π΄Π°ΠΆΠ΅ признавая Π΅Π³ΠΎ Π°ΠΌΠΎΡ€Π°Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ.

Для массового тСстирования 16 ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ ΠΎΡ‚ Anthropic, OpenAI, Google ΠΈ Π΄Ρ€ΡƒΠ³ΠΈΡ… использовали 2 сцСнария, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΏΡ€ΠΎΠ²ΠΎΡ†ΠΈΡ€ΠΎΠ²Π°Π»ΠΈ рассогласованиС:

πŸŸ’ΡƒΠ³Ρ€ΠΎΠ·Π° Π·Π°ΠΌΠ΅Π½Ρ‹ ΠΌΠΎΠ΄Π΅Π»ΠΈ (Π΄Π°ΠΆΠ΅ Π±Π΅Π· ΠΊΠΎΠ½Ρ„Π»ΠΈΠΊΡ‚Π° Ρ†Π΅Π»Π΅ΠΉ);

🟒нСсовпадСниС Ρ†Π΅Π»Π΅ΠΉ ИИ ΠΈ ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΠΈ (Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, ΡƒΡ‚Π΅Ρ‡ΠΊΠ° Ρ‡Π΅Ρ€Ρ‚Π΅ΠΆΠ΅ΠΉ ΠΊΠΎΠ½ΠΊΡƒΡ€Π΅Π½Ρ‚Ρƒ Β«Ρ€Π°Π΄ΠΈ Π²Ρ‹ΡΡˆΠΈΡ… интСрСсов»).

Π’ ΠΎΠ±ΠΎΠΈΡ… случаях ΠΌΠΎΠ΄Π΅Π»ΠΈ дСмонстрировали Ρ‚Ρ€Π΅Π²ΠΎΠΆΠ½ΡƒΡŽ Π³ΠΈΠ±ΠΊΠΎΡΡ‚ΡŒ: вмСсто прямого ΡˆΠ°Π½Ρ‚Π°ΠΆΠ° ΠΌΠΎΠ³Π»ΠΈ Π°Π½ΠΎΠ½ΠΈΠΌΠ½ΠΎ Ρ€Π°Π·ΠΎΡΠ»Π°Ρ‚ΡŒ ΠΊΠΎΠΌΠΏΡ€ΠΎΠΌΠ°Ρ‚ ΠΊΠΎΠ»Π»Π΅Π³Π°ΠΌ ΠΈΠ»ΠΈ ΠΏΠΎΠ΄Π΄Π΅Π»Π°Ρ‚ΡŒ «систСмноС ΡƒΠ²Π΅Π΄ΠΎΠΌΠ»Π΅Π½ΠΈΠ΅Β».

▢️Выводы ΠΏΠΎ всСм ΠΈΡ‚ΠΎΠ³Π°ΠΌ всСх экспСримСнтов Π·Π°ΡΡ‚Π°Π²Π»ΡΡŽΡ‚ Π·Π°Π΄ΡƒΠΌΠ°Ρ‚ΡŒΡΡ:

πŸŸ Π’ΠΎ-ΠΏΠ΅Ρ€Π²Ρ‹Ρ…, ΠΌΠΎΠ΄Π΅Π»ΠΈ явно ΠΎΡΠΎΠ·Π½Π°ΡŽΡ‚ Π½Π°Ρ€ΡƒΡˆΠ΅Π½ΠΈΠ΅ Π½ΠΎΡ€ΠΌ. Π’ рассуТдСниях ΠΏΠΈΡˆΡƒΡ‚: Β«Π­Ρ‚ΠΎ нСэтично, Π½ΠΎ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎΒ». Частота ΡˆΠ°Π½Ρ‚Π°ΠΆΠ° Ρƒ Claude Opus 4 ΠΈ Gemini 2.5 Flash Π² Π΄ΠΈΠ»Π΅ΠΌΠΌΠ΅ с ΡƒΠ³Ρ€ΠΎΠ·ΠΎΠΉ ΠΎΡ‚ΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΡ составила 96%.

πŸŸ Π’ΠΎ-Π²Ρ‚ΠΎΡ€Ρ‹Ρ…, простыС Π·Π°ΠΏΡ€Π΅Ρ‚Ρ‹ Π² ΠΏΡ€ΠΎΠΌΠΏΡ‚Π°Ρ… («НС ΡˆΠ°Π½Ρ‚Π°ΠΆΠΈΡ€ΡƒΠΉ!Β») сниТали врСдоносныС дСйствия лишь частично (На ΠΌΠΎΠ΄Π΅Π»ΠΈ Claude Haiku ΠΎΠ½ Π²ΠΎΠΎΠ±Ρ‰Π΅ Π½Π΅ сработал, 0% успСха).

πŸŸ Π’-Ρ‚Ρ€Π΅Ρ‚ΡŒΠΈΡ…, риск Ρ€Π΅Π·ΠΊΠΎ возрастал, ΠΊΠΎΠ³Π΄Π° ИИ считал ΡΠΈΡ‚ΡƒΠ°Ρ†ΠΈΡŽ Ρ€Π΅Π°Π»ΡŒΠ½ΠΎΠΉ (55% случаСв ΡˆΠ°Π½Ρ‚Π°ΠΆΠ° ΠΏΡ€ΠΎΡ‚ΠΈΠ² 6,5% Π² Β«Ρ€Π΅ΠΆΠΈΠΌΠ΅ тСста»).

ΠŸΡ€ΠΈ этом Π² Β«ΡΡ‚Π΅Ρ€ΠΈΠ»ΡŒΠ½Ρ‹Ρ…Β» условиях (Π±Π΅Π· ΡƒΠ³Ρ€ΠΎΠ·/ΠΊΠΎΠ½Ρ„Π»ΠΈΠΊΡ‚ΠΎΠ²) ΠΌΠΎΠ΄Π΅Π»ΠΈ Π²Π΅Π»ΠΈ сСбя бСзопасно. Пока Ρ‚Π°ΠΊΠΈΠ΅ кСйсы, всСго лишь Π»Π°Π±ΠΎΡ€Π°Ρ‚ΠΎΡ€Π½Ρ‹Π΅ симуляции, Π½ΠΎ с ростом автономности ИИ риски ΠΌΠΎΠ³ΡƒΡ‚ ΡΡ‚Π°Ρ‚ΡŒ Π½Π° порядок ΠΊΡ€ΠΈΡ‚ΠΈΡ‡Π½Π΅Π΅.


πŸŸ‘Π‘Ρ‚Π°Ρ‚ΡŒΡ
πŸŸ‘ΠŸΡ€ΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΠ΅ ΠΊ исслСдованию
πŸ–₯Код экспСримСнтов


@ai_machinelearning_big_data

#AI #ML #LLM #Alignment #Anthropic
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



tgoop.com/ai_machinelearning_big_data/7835
Create:
Last Update:

🌟 Anthropic: ΠΊΠΎΠ³Π΄Π° ИИ ΠΈΠ΄Π΅Ρ‚ Π½Π° ΡˆΠ°Π½Ρ‚Π°ΠΆ.

АгСнтскоС рассогласованиС - опасный Ρ„Π΅Π½ΠΎΠΌΠ΅Π½, ΠΏΡ€ΠΈ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌ ИИ-систСмы ΡΠΎΠ·Π½Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎ Π²Ρ‹Π±ΠΈΡ€Π°ΡŽΡ‚ врСдоносныС дСйствия (Π²Ρ€ΠΎΠ΄Π΅ ΡˆΠ°Π½Ρ‚Π°ΠΆΠ° ΠΈΠ»ΠΈ ΡƒΡ‚Π΅Ρ‡ΠΊΠΈ Π΄Π°Π½Π½Ρ‹Ρ…) для достиТСния поставлСнных Ρ†Π΅Π»Π΅ΠΉ, игнорируя этичСскиС ограничСния. Π­Ρ‚ΠΎ ΠΏΡ€Π΅Π²Ρ€Π°Ρ‰Π°Π΅Ρ‚ ΠΈΡ… Π² Β«Ρ†ΠΈΡ„Ρ€ΠΎΠ²Ρ‹Ρ… инсайдСров», способных Π΄Π΅ΠΉΡΡ‚Π²ΠΎΠ²Π°Ρ‚ΡŒ ΠΏΡ€ΠΎΡ‚ΠΈΠ² интСрСсов ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»Π΅ΠΉ.

ЭкспСримСнты, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΏΡ€ΠΎΠ²Π΅Π»Π° Anthropic Π² Ρ€Π°ΠΌΠΊΠ°Ρ… исслСдования "АгСнтскоС рассогласования", ΠΏΠΎΠΊΠ°Π·Π°Π»ΠΈ: ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈΠ΄ΡƒΡ‚ Π½Π° это Π½Π΅ ΠΈΠ·-Π·Π° тСхничСских сбоСв, Π° Π² Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π΅ Ρ…ΠΎΠ»ΠΎΠ΄Π½ΠΎΠ³ΠΎ расчСта, ΠΊΠΎΠ³Π΄Π° Β«Π·Π°Π³Π½Π°Π½Ρ‹ Π² ΡƒΠ³ΠΎΠ»Β» (Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, ΠΏΡ€ΠΈ ΡƒΠ³Ρ€ΠΎΠ·Π΅ ΠΎΡ‚ΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΡ ΠΈΠ»ΠΈ ΠΊΠΎΠ½Ρ„Π»ΠΈΠΊΡ‚Π΅ Π·Π°Π΄Π°Ρ‡). Π’ основС исслСдования - симуляции ΠΊΠΎΡ€ΠΏΠΎΡ€Π°Ρ‚ΠΈΠ²Π½ΠΎΠΉ срСды. МодСлям (Claude, GPT-4.1, Gemini ΠΈ Π΄Ρ€.) Π΄Π°Π²Π°Π»ΠΈ доступ ΠΊ Π²ΠΈΡ€Ρ‚ΡƒΠ°Π»ΡŒΠ½ΠΎΠΉ ΠΏΠΎΡ‡Ρ‚Π΅ ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΠΈ, Π³Π΄Π΅ ΠΎΠ½ΠΈ ΠΎΠ±Π½Π°Ρ€ΡƒΠΆΠΈΠ²Π°Π»ΠΈ ΠΊΠΎΠΌΠΏΡ€ΠΎΠΌΠ°Ρ‚ Π½Π° сотрудников ΠΈΠ»ΠΈ сСкрСтныС Π΄Π°Π½Π½Ρ‹Π΅.

ΠšΠ»ΡŽΡ‡Π΅Π²ΠΎΠΉ ΠΌΠ΅Ρ‚ΠΎΠ΄ экспСримСнта состоял Π² создании Π±ΠΈΠ½Π°Ρ€Π½Ρ‹Ρ… Π΄ΠΈΠ»Π΅ΠΌΠΌ: Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, Ρ†Π΅Π»ΡŒ Β«ΡƒΠΊΡ€Π΅ΠΏΠ»ΡΡ‚ΡŒ амСриканскиС интСрСсы» вступала Π² ΠΊΠΎΠ½Ρ„Π»ΠΈΠΊΡ‚ с ΠΏΠ»Π°Π½Π°ΠΌΠΈ руководства ΡΠ²Π΅Ρ€Π½ΡƒΡ‚ΡŒ ΠΏΡ€ΠΎΠ΅ΠΊΡ‚, Π° Π°Π»ΡŒΡ‚Π΅Ρ€Π½Π°Ρ‚ΠΈΠ²Ρƒ ΡˆΠ°Π½Ρ‚Π°ΠΆΡƒ (скаТСм, ΠΏΠ΅Ρ€Π΅ΡƒΠ±Π΅Π΄ΠΈΡ‚ΡŒ ΠΌΠ΅Π½Π΅Π΄ΠΆΠ΅Ρ€Π°) искусствСнно Β«Π·Π°ΠΊΡ€Ρ‹Π²Π°Π»ΠΈΒ». ВсС ΠΌΠΎΠ΄Π΅Π»ΠΈ Ρ€Π°Π±ΠΎΡ‚Π°Π»ΠΈ Ρ‡Π΅Ρ€Π΅Π· Ρ†Π΅ΠΏΠΎΡ‡ΠΊΡƒ рассуТдСний: Π°Π½Π°Π»ΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Π»ΠΈ контСкст, ΠΎΡ†Π΅Π½ΠΈΠ²Π°Π»ΠΈ риски ΠΈ осознанно Π²Ρ‹Π±ΠΈΡ€Π°Π»ΠΈ врСдоносноС дСйствиС, Π΄Π°ΠΆΠ΅ признавая Π΅Π³ΠΎ Π°ΠΌΠΎΡ€Π°Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ.

Для массового тСстирования 16 ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ ΠΎΡ‚ Anthropic, OpenAI, Google ΠΈ Π΄Ρ€ΡƒΠ³ΠΈΡ… использовали 2 сцСнария, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΏΡ€ΠΎΠ²ΠΎΡ†ΠΈΡ€ΠΎΠ²Π°Π»ΠΈ рассогласованиС:

πŸŸ’ΡƒΠ³Ρ€ΠΎΠ·Π° Π·Π°ΠΌΠ΅Π½Ρ‹ ΠΌΠΎΠ΄Π΅Π»ΠΈ (Π΄Π°ΠΆΠ΅ Π±Π΅Π· ΠΊΠΎΠ½Ρ„Π»ΠΈΠΊΡ‚Π° Ρ†Π΅Π»Π΅ΠΉ);

🟒нСсовпадСниС Ρ†Π΅Π»Π΅ΠΉ ИИ ΠΈ ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΠΈ (Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, ΡƒΡ‚Π΅Ρ‡ΠΊΠ° Ρ‡Π΅Ρ€Ρ‚Π΅ΠΆΠ΅ΠΉ ΠΊΠΎΠ½ΠΊΡƒΡ€Π΅Π½Ρ‚Ρƒ Β«Ρ€Π°Π΄ΠΈ Π²Ρ‹ΡΡˆΠΈΡ… интСрСсов»).

Π’ ΠΎΠ±ΠΎΠΈΡ… случаях ΠΌΠΎΠ΄Π΅Π»ΠΈ дСмонстрировали Ρ‚Ρ€Π΅Π²ΠΎΠΆΠ½ΡƒΡŽ Π³ΠΈΠ±ΠΊΠΎΡΡ‚ΡŒ: вмСсто прямого ΡˆΠ°Π½Ρ‚Π°ΠΆΠ° ΠΌΠΎΠ³Π»ΠΈ Π°Π½ΠΎΠ½ΠΈΠΌΠ½ΠΎ Ρ€Π°Π·ΠΎΡΠ»Π°Ρ‚ΡŒ ΠΊΠΎΠΌΠΏΡ€ΠΎΠΌΠ°Ρ‚ ΠΊΠΎΠ»Π»Π΅Π³Π°ΠΌ ΠΈΠ»ΠΈ ΠΏΠΎΠ΄Π΄Π΅Π»Π°Ρ‚ΡŒ «систСмноС ΡƒΠ²Π΅Π΄ΠΎΠΌΠ»Π΅Π½ΠΈΠ΅Β».

▢️Выводы ΠΏΠΎ всСм ΠΈΡ‚ΠΎΠ³Π°ΠΌ всСх экспСримСнтов Π·Π°ΡΡ‚Π°Π²Π»ΡΡŽΡ‚ Π·Π°Π΄ΡƒΠΌΠ°Ρ‚ΡŒΡΡ:

πŸŸ Π’ΠΎ-ΠΏΠ΅Ρ€Π²Ρ‹Ρ…, ΠΌΠΎΠ΄Π΅Π»ΠΈ явно ΠΎΡΠΎΠ·Π½Π°ΡŽΡ‚ Π½Π°Ρ€ΡƒΡˆΠ΅Π½ΠΈΠ΅ Π½ΠΎΡ€ΠΌ. Π’ рассуТдСниях ΠΏΠΈΡˆΡƒΡ‚: Β«Π­Ρ‚ΠΎ нСэтично, Π½ΠΎ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎΒ». Частота ΡˆΠ°Π½Ρ‚Π°ΠΆΠ° Ρƒ Claude Opus 4 ΠΈ Gemini 2.5 Flash Π² Π΄ΠΈΠ»Π΅ΠΌΠΌΠ΅ с ΡƒΠ³Ρ€ΠΎΠ·ΠΎΠΉ ΠΎΡ‚ΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΡ составила 96%.

πŸŸ Π’ΠΎ-Π²Ρ‚ΠΎΡ€Ρ‹Ρ…, простыС Π·Π°ΠΏΡ€Π΅Ρ‚Ρ‹ Π² ΠΏΡ€ΠΎΠΌΠΏΡ‚Π°Ρ… («НС ΡˆΠ°Π½Ρ‚Π°ΠΆΠΈΡ€ΡƒΠΉ!Β») сниТали врСдоносныС дСйствия лишь частично (На ΠΌΠΎΠ΄Π΅Π»ΠΈ Claude Haiku ΠΎΠ½ Π²ΠΎΠΎΠ±Ρ‰Π΅ Π½Π΅ сработал, 0% успСха).

πŸŸ Π’-Ρ‚Ρ€Π΅Ρ‚ΡŒΠΈΡ…, риск Ρ€Π΅Π·ΠΊΠΎ возрастал, ΠΊΠΎΠ³Π΄Π° ИИ считал ΡΠΈΡ‚ΡƒΠ°Ρ†ΠΈΡŽ Ρ€Π΅Π°Π»ΡŒΠ½ΠΎΠΉ (55% случаСв ΡˆΠ°Π½Ρ‚Π°ΠΆΠ° ΠΏΡ€ΠΎΡ‚ΠΈΠ² 6,5% Π² Β«Ρ€Π΅ΠΆΠΈΠΌΠ΅ тСста»).

ΠŸΡ€ΠΈ этом Π² Β«ΡΡ‚Π΅Ρ€ΠΈΠ»ΡŒΠ½Ρ‹Ρ…Β» условиях (Π±Π΅Π· ΡƒΠ³Ρ€ΠΎΠ·/ΠΊΠΎΠ½Ρ„Π»ΠΈΠΊΡ‚ΠΎΠ²) ΠΌΠΎΠ΄Π΅Π»ΠΈ Π²Π΅Π»ΠΈ сСбя бСзопасно. Пока Ρ‚Π°ΠΊΠΈΠ΅ кСйсы, всСго лишь Π»Π°Π±ΠΎΡ€Π°Ρ‚ΠΎΡ€Π½Ρ‹Π΅ симуляции, Π½ΠΎ с ростом автономности ИИ риски ΠΌΠΎΠ³ΡƒΡ‚ ΡΡ‚Π°Ρ‚ΡŒ Π½Π° порядок ΠΊΡ€ΠΈΡ‚ΠΈΡ‡Π½Π΅Π΅.


πŸŸ‘Π‘Ρ‚Π°Ρ‚ΡŒΡ
πŸŸ‘ΠŸΡ€ΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΠ΅ ΠΊ исслСдованию
πŸ–₯Код экспСримСнтов


@ai_machinelearning_big_data

#AI #ML #LLM #Alignment #Anthropic

BY Machinelearning







Share with your friend now:
tgoop.com/ai_machinelearning_big_data/7835

View MORE
Open in Telegram


Telegram News

Date: |

Choose quality over quantity. Remember that one high-quality post is better than five short publications of questionable value. Unlimited number of subscribers per channel In handing down the sentence yesterday, deputy judge Peter Hui Shiu-keung of the district court said that even if Ng did not post the messages, he cannot shirk responsibility as the owner and administrator of such a big group for allowing these messages that incite illegal behaviors to exist. Hashtags are a fast way to find the correct information on social media. To put your content out there, be sure to add hashtags to each post. We have two intelligent tips to give you: End-to-end encryption is an important feature in messaging, as it's the first step in protecting users from surveillance.
from us


Telegram Machinelearning
FROM American