tgoop.com/llmsecurity/528
Last Update:
Получается, что верить моделям на слово нельзя – их объяснения, даже если они идут до ответа, могут с финальным ответом никак не соотноситься. Это не значит, что CoT-мониторинг вообще бесполезен, напротив, однако полагаться на него в рискованных сценариях, типа какого-нибудь агента для SOC, скорее не стоит. Если вы читали свежий (позавчерашний) фанфик прогноз о темпах развития ИИ под названием AI 2027, то могли обратить внимание, что там сюжетная развилка между уничтожением человечества и техноутопией основана как раз на том, что мудрые ресерчеры будущего заменяют неинтерпретируемый CoT типа такого на привычный нам англоязычный, и забавно, что статья, критикующая использование мониторинга CoT в критических сценариях, вышла всего на день позже. С другой стороны, люди тоже иногда придумывают объяснения своим поступкам, не имеющие ничего общего с реальными причинами, поэтому кто мы, чтобы судить? 🦄
BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/528