LLMSECURITY Telegram 528
Получается, что верить моделям на слово нельзя – их объяснения, даже если они идут до ответа, могут с финальным ответом никак не соотноситься. Это не значит, что CoT-мониторинг вообще бесполезен, напротив, однако полагаться на него в рискованных сценариях, типа какого-нибудь агента для SOC, скорее не стоит. Если вы читали свежий (позавчерашний) фанфик прогноз о темпах развития ИИ под названием AI 2027, то могли обратить внимание, что там сюжетная развилка между уничтожением человечества и техноутопией основана как раз на том, что мудрые ресерчеры будущего заменяют неинтерпретируемый CoT типа такого на привычный нам англоязычный, и забавно, что статья, критикующая использование мониторинга CoT в критических сценариях, вышла всего на день позже. С другой стороны, люди тоже иногда придумывают объяснения своим поступкам, не имеющие ничего общего с реальными причинами, поэтому кто мы, чтобы судить? 🦄
👍7



tgoop.com/llmsecurity/528
Create:
Last Update:

Получается, что верить моделям на слово нельзя – их объяснения, даже если они идут до ответа, могут с финальным ответом никак не соотноситься. Это не значит, что CoT-мониторинг вообще бесполезен, напротив, однако полагаться на него в рискованных сценариях, типа какого-нибудь агента для SOC, скорее не стоит. Если вы читали свежий (позавчерашний) фанфик прогноз о темпах развития ИИ под названием AI 2027, то могли обратить внимание, что там сюжетная развилка между уничтожением человечества и техноутопией основана как раз на том, что мудрые ресерчеры будущего заменяют неинтерпретируемый CoT типа такого на привычный нам англоязычный, и забавно, что статья, критикующая использование мониторинга CoT в критических сценариях, вышла всего на день позже. С другой стороны, люди тоже иногда придумывают объяснения своим поступкам, не имеющие ничего общего с реальными причинами, поэтому кто мы, чтобы судить? 🦄

BY llm security и каланы




Share with your friend now:
tgoop.com/llmsecurity/528

View MORE
Open in Telegram


Telegram News

Date: |

The optimal dimension of the avatar on Telegram is 512px by 512px, and it’s recommended to use PNG format to deliver an unpixelated avatar. "Doxxing content is forbidden on Telegram and our moderators routinely remove such content from around the world," said a spokesman for the messaging app, Remi Vaughn. Healing through screaming therapy The imprisonment came as Telegram said it was "surprised" by claims that privacy commissioner Ada Chung Lai-ling is seeking to block the messaging app due to doxxing content targeting police and politicians. Telegram Channels requirements & features
from us


Telegram llm security и каланы
FROM American