LLMSECURITY Telegram 528
Получается, что верить моделям на слово нельзя – их объяснения, даже если они идут до ответа, могут с финальным ответом никак не соотноситься. Это не значит, что CoT-мониторинг вообще бесполезен, напротив, однако полагаться на него в рискованных сценариях, типа какого-нибудь агента для SOC, скорее не стоит. Если вы читали свежий (позавчерашний) фанфик прогноз о темпах развития ИИ под названием AI 2027, то могли обратить внимание, что там сюжетная развилка между уничтожением человечества и техноутопией основана как раз на том, что мудрые ресерчеры будущего заменяют неинтерпретируемый CoT типа такого на привычный нам англоязычный, и забавно, что статья, критикующая использование мониторинга CoT в критических сценариях, вышла всего на день позже. С другой стороны, люди тоже иногда придумывают объяснения своим поступкам, не имеющие ничего общего с реальными причинами, поэтому кто мы, чтобы судить? 🦄



tgoop.com/llmsecurity/528
Create:
Last Update:

Получается, что верить моделям на слово нельзя – их объяснения, даже если они идут до ответа, могут с финальным ответом никак не соотноситься. Это не значит, что CoT-мониторинг вообще бесполезен, напротив, однако полагаться на него в рискованных сценариях, типа какого-нибудь агента для SOC, скорее не стоит. Если вы читали свежий (позавчерашний) фанфик прогноз о темпах развития ИИ под названием AI 2027, то могли обратить внимание, что там сюжетная развилка между уничтожением человечества и техноутопией основана как раз на том, что мудрые ресерчеры будущего заменяют неинтерпретируемый CoT типа такого на привычный нам англоязычный, и забавно, что статья, критикующая использование мониторинга CoT в критических сценариях, вышла всего на день позже. С другой стороны, люди тоже иногда придумывают объяснения своим поступкам, не имеющие ничего общего с реальными причинами, поэтому кто мы, чтобы судить? 🦄

BY llm security и каланы




Share with your friend now:
tgoop.com/llmsecurity/528

View MORE
Open in Telegram


Telegram News

Date: |

Administrators Your posting frequency depends on the topic of your channel. If you have a news channel, it’s OK to publish new content every day (or even every hour). For other industries, stick with 2-3 large posts a week. Judge Hui described Ng as inciting others to “commit a massacre” with three posts teaching people to make “toxic chlorine gas bombs,” target police stations, police quarters and the city’s metro stations. This offence was “rather serious,” the court said. Polls The Standard Channel
from us


Telegram llm security и каланы
FROM American