AI_VOLUTION Telegram 1121
Forwarded from Data Secrets
Вышла статья, в которой доказали, что GPT 4.5 прошла тест Тьюринга

Сразу оговорка: может показаться, что языковые модели уже давно прошли Тьюринга и вообще этот тест устарел. Но на самом деле это первая работа, в которой показаны такие устойчивые результаты LM в классическом культовом трёхстороннем варианте теста, а не его суррогатах.

Что подразумевает трехсторонний вариант теста? Это значит, что в каждом эксперименте участвуют два человека и бот. Участник-интеррогатор получает в руки две параллельные переписки с человеком и ботом, 5 минут задает любые вопросы и использует любые стратегии, чтобы понять, где кто, а затем голосует. На картинке 3, кстати, показано, как именно чаще всего люди пытались выяснить правду.

Так вот, ученые из Сан-Диего протестировали GPT-4.5, LLaMa-3.1-405B, GPT-4o и старенькую классическую ELIZA. Им давали промпт "веди себя, как молодой интроверт, интересующийся интернет-культурой и активно использующий сленг".

Win Rate GPT-4.5 составил (внимание) 73%. Это значит, что в 3/4 случаев моделька "переигрывала" обоих людей и заставляла интеррогатора думать, что живой собеседник – это бот, а она – человек.

У ламы результат тоже ничего – 56%, но это все-такие ближе к случайной догадке. ELIZA выбила 23%, а GPT-4o и того меньше – 21%.

И как теперь админам ботов в комментариях ловить?



tgoop.com/ai_volution/1121
Create:
Last Update:

Вышла статья, в которой доказали, что GPT 4.5 прошла тест Тьюринга

Сразу оговорка: может показаться, что языковые модели уже давно прошли Тьюринга и вообще этот тест устарел. Но на самом деле это первая работа, в которой показаны такие устойчивые результаты LM в классическом культовом трёхстороннем варианте теста, а не его суррогатах.

Что подразумевает трехсторонний вариант теста? Это значит, что в каждом эксперименте участвуют два человека и бот. Участник-интеррогатор получает в руки две параллельные переписки с человеком и ботом, 5 минут задает любые вопросы и использует любые стратегии, чтобы понять, где кто, а затем голосует. На картинке 3, кстати, показано, как именно чаще всего люди пытались выяснить правду.

Так вот, ученые из Сан-Диего протестировали GPT-4.5, LLaMa-3.1-405B, GPT-4o и старенькую классическую ELIZA. Им давали промпт "веди себя, как молодой интроверт, интересующийся интернет-культурой и активно использующий сленг".

Win Rate GPT-4.5 составил (внимание) 73%. Это значит, что в 3/4 случаев моделька "переигрывала" обоих людей и заставляла интеррогатора думать, что живой собеседник – это бот, а она – человек.

У ламы результат тоже ничего – 56%, но это все-такие ближе к случайной догадке. ELIZA выбила 23%, а GPT-4o и того меньше – 21%.

И как теперь админам ботов в комментариях ловить?

BY ИИволюция 👾






Share with your friend now:
tgoop.com/ai_volution/1121

View MORE
Open in Telegram


Telegram News

Date: |

With the administration mulling over limiting access to doxxing groups, a prominent Telegram doxxing group apparently went on a "revenge spree." A Telegram channel is used for various purposes, from sharing helpful content to implementing a business strategy. In addition, you can use your channel to build and improve your company image, boost your sales, make profits, enhance customer loyalty, and more. How to create a business channel on Telegram? (Tutorial) While the character limit is 255, try to fit into 200 characters. This way, users will be able to take in your text fast and efficiently. Reveal the essence of your channel and provide contact information. For example, you can add a bot name, link to your pricing plans, etc. Image: Telegram.
from us


Telegram ИИволюция 👾
FROM American