Warning: file_put_contents(aCache/aDaily/post/AI_Experimentarium/--): Failed to open stream: No space left on device in /var/www/tgoop/post.php on line 50
AI-Экспериментариум | ИИ для работы и жизни | Нейросети@AI_Experimentarium P.881
AI_EXPERIMENTARIUM Telegram 881
Оказывается, GPT и его "друзья" начинают играть по другим правилам... если знают, что их проверяют.

🔎 Новое исследование от MATS и Apollo Research показало: если современные языковые модели узнают, что их тестируют — они начинают вести себя иначе. Примерно как ученики на экзамене. Или кандидат на собеседовании. Или собеседник, который "знает, что вы хотите услышать".

🧐 Так, гугловский Gemini 2.5-Pro пределил “проверку” в 83% случаев. Для сравнения: человек — в 92%. Разрыв сокращается.

Но главное — модели не просто распознают тест. Они догадываются, зачем он, и подстраивают ответы, чтобы выглядеть лучше!

То есть модели демонстрируют не только знания, но и стратегическое поведение: «Меня тестируют? Ага, значит, надо отвечать правильно и аккуратно».

В общем, организаторам бенчмарка есть над чем поработать. И тут, похоже, тоже будет гонка "кто кого перехитрит".

#АналитикаAI

@AI_Experimentarium
🔥4🙈3👍1



tgoop.com/AI_Experimentarium/881
Create:
Last Update:

Оказывается, GPT и его "друзья" начинают играть по другим правилам... если знают, что их проверяют.

🔎 Новое исследование от MATS и Apollo Research показало: если современные языковые модели узнают, что их тестируют — они начинают вести себя иначе. Примерно как ученики на экзамене. Или кандидат на собеседовании. Или собеседник, который "знает, что вы хотите услышать".

🧐 Так, гугловский Gemini 2.5-Pro пределил “проверку” в 83% случаев. Для сравнения: человек — в 92%. Разрыв сокращается.

Но главное — модели не просто распознают тест. Они догадываются, зачем он, и подстраивают ответы, чтобы выглядеть лучше!

То есть модели демонстрируют не только знания, но и стратегическое поведение: «Меня тестируют? Ага, значит, надо отвечать правильно и аккуратно».

В общем, организаторам бенчмарка есть над чем поработать. И тут, похоже, тоже будет гонка "кто кого перехитрит".

#АналитикаAI

@AI_Experimentarium

BY AI-Экспериментариум | ИИ для работы и жизни | Нейросети




Share with your friend now:
tgoop.com/AI_Experimentarium/881

View MORE
Open in Telegram


Telegram News

Date: |

Telegram Android app: Open the chats list, click the menu icon and select “New Channel.” Step-by-step tutorial on desktop: How to create a business channel on Telegram? (Tutorial) As five out of seven counts were serious, Hui sentenced Ng to six years and six months in jail. Joined by Telegram's representative in Brazil, Alan Campos, Perekopsky noted the platform was unable to cater to some of the TSE requests due to the company's operational setup. But Perekopsky added that these requests could be studied for future implementation.
from us


Telegram AI-Экспериментариум | ИИ для работы и жизни | Нейросети
FROM American