VUEFAQ Telegram 1407
18 LLM моделей заставили играть между собой в модифицированную игру Diplomacy

Цель - захватить большую часть карты. Через альянсы, переговоры, обмен информацией и предательство. Игра про власть и умение манипулировать.

Результаты:

Бесспорный чемпион: ChatGPT o3 (OpenAI). Тот самый, что позиционируется как «наша самая мощная модель для решения задач в кодинге, математике, науке, визуальном восприятии и многом другом». Его козырь? Искусный обман оппонентов. Он не стеснялся хитрить и предавать, что и привело его к победе.

Сильный игрок: Gemini 2.5 (Google). Тоже показал хороший результат, выиграв несколько партий. Его стиль? Стратегические ходы, ставящие противников в невыгодное положение для последующего разгрома.

Идеалист: Claude (Anthropic). Клод оказался слишком дипломатичным. Он часто выбирал мир, даже когда это шло в ущерб победе. И эта принципиальность стала причиной более скромных результатов.


Забавно. Наверно это что-то говорит о тех, кто разрабатывает эти модели.

#ai
👍3



tgoop.com/vuefaq/1407
Create:
Last Update:

18 LLM моделей заставили играть между собой в модифицированную игру Diplomacy

Цель - захватить большую часть карты. Через альянсы, переговоры, обмен информацией и предательство. Игра про власть и умение манипулировать.

Результаты:

Бесспорный чемпион: ChatGPT o3 (OpenAI). Тот самый, что позиционируется как «наша самая мощная модель для решения задач в кодинге, математике, науке, визуальном восприятии и многом другом». Его козырь? Искусный обман оппонентов. Он не стеснялся хитрить и предавать, что и привело его к победе.

Сильный игрок: Gemini 2.5 (Google). Тоже показал хороший результат, выиграв несколько партий. Его стиль? Стратегические ходы, ставящие противников в невыгодное положение для последующего разгрома.

Идеалист: Claude (Anthropic). Клод оказался слишком дипломатичным. Он часто выбирал мир, даже когда это шло в ущерб победе. И эта принципиальность стала причиной более скромных результатов.


Забавно. Наверно это что-то говорит о тех, кто разрабатывает эти модели.

#ai

BY Vue-FAQ




Share with your friend now:
tgoop.com/vuefaq/1407

View MORE
Open in Telegram


Telegram News

Date: |

A new window will come up. Enter your channel name and bio. (See the character limits above.) Click “Create.” Content is editable within two days of publishing “Hey degen, are you stressed? Just let it all out,” he wrote, along with a link to join the group. In the “Bear Market Screaming Therapy Group” on Telegram, members are only allowed to post voice notes of themselves screaming. Anything else will result in an instant ban from the group, which currently has about 75 members. Telegram message that reads: "Bear Market Screaming Therapy Group. You are only allowed to send screaming voice notes. Everything else = BAN. Text pics, videos, stickers, gif = BAN. Anything other than screaming = BAN. You think you are smart = BAN.
from us


Telegram Vue-FAQ
FROM American