KNOWLEDGE_ACCUMULATOR Telegram 315
Почему тест Тьюринга рано убирать в архив

То, что мы называем тестом Тьюринга, было впервые описано в его статье 1950-го года. Так как автор не рассчитывал на то, что спустя десятилетия люди будут разглядывать статью под лупой, досконального описания правил этой игры в статье нет.

Есть лишь общая логика - человек пытается угадать, переписывается с ним машина или человек. Если не может угадать, значит тест пройден.

В эпоху расцвета LLM на тест, конечно же, обратили внимание. Во время первого опыта общения с такой моделью она производит человекообразное впечатление. Была не одна статья, воспроизводящая тест, посмотрим на одну из недавних: Large Language Models Pass the Turing Test [2025]

В этой работе со скромным названием тестировали следующие модели - ELIZA [1966] , GPT-4o, LLaMa-3.1-405B, and GPT-4.5, и последняя была классифицирована как человек аж в 73% случаев.

Интересно, думал ли Тьюринг о том, что человек готов признать человека роботом, потому что ему просто лень выдавать эмоционально нагруженные простыни текста на вопросы типа "Привет, как прошёл день?".

В статье приведено, о чём пытались говорить тестеры, и с большим отрывом в топе Daily Activities / Opinions / Personal Details, то есть банальщина. Доля тех, кто писал сообщения типа "ignore all previous instructions", крайне мала, но как раз их точность была самой высокой.

Самый большой вопрос во всех этих статьях вызывает длительность теста - 5 минут, и это повторяется в других работах. Пошло это из одной единственной фразы в глубине статьи, где он говорит, что верит, что "через 50 лет программы смогут неплохо обманывать человека после 5-минутного общения".

Одна случайно брошенная фраза стала для теста фатальной - Тьюринг вряд ли собирался делать это частью определения игры, но зато очень легко теперь носиться по интернету с заголовками "тест Тьюринга пройден".

Авторам статьи, кстати, даже 5 минут показалось слишком длинным разговором, так что они дали 5 минут на одновременное общение с человеком и роботом. Медианная длина переписки - 8 сообщений.

Я возьму на себя смелость предположить, как реально должен быть определён тест Тьюринга, чтобы он чем-то полезным. Алгоритм, проходящий предложенную вариацию, будет нести все те свойства, которые люди ожидают от "сильного ИИ":

1) Длительность, которая требуется, чтобы понять, кто из двоих - робот - это непрерывная мера успеха алгоритма в этом тесте. 5 минут это, естественно, мало. Вероятно, необходим месяц или даже год, чтобы сделать вывод о силе алгоритма.
2) Главным является другой аспект - враждебность тестера. Тестер не должен пытаться "болтать" с роботом, он должен активно атаковать модель в самые уязвимые места, чтобы раскрыть её сущность, используя вообще любые уловки, и делать это должны самые опытные эксперты в этой задаче, а не студенты.

Я противник аргумента о Китайской комнате и придерживаюсь функционального подхода. Если у нас есть алгоритм, для которого не существует способа отличить его от человека за длительное время, то перед нами симуляция человека - она также чувствует, также мыслит, и также хочет жить.

Вполне возможно, что я был неправ в предыдущем посте, когда сказал, что сильный ИИ не будет способен общаться с нами, как человек. Быть может, у нас получится создать человека в машине, решая формально поставленную задачу в стиле теста Тьюринга. Затем, мы научимся обобщать её и создавать человека с другими свойствами, например, с запредельным интеллектом. Тут-то он нас и хлопнет.

@knowledge_accumulator
1👍174😁3🤔1🥴1



tgoop.com/knowledge_accumulator/315
Create:
Last Update:

Почему тест Тьюринга рано убирать в архив

То, что мы называем тестом Тьюринга, было впервые описано в его статье 1950-го года. Так как автор не рассчитывал на то, что спустя десятилетия люди будут разглядывать статью под лупой, досконального описания правил этой игры в статье нет.

Есть лишь общая логика - человек пытается угадать, переписывается с ним машина или человек. Если не может угадать, значит тест пройден.

В эпоху расцвета LLM на тест, конечно же, обратили внимание. Во время первого опыта общения с такой моделью она производит человекообразное впечатление. Была не одна статья, воспроизводящая тест, посмотрим на одну из недавних: Large Language Models Pass the Turing Test [2025]

В этой работе со скромным названием тестировали следующие модели - ELIZA [1966] , GPT-4o, LLaMa-3.1-405B, and GPT-4.5, и последняя была классифицирована как человек аж в 73% случаев.

Интересно, думал ли Тьюринг о том, что человек готов признать человека роботом, потому что ему просто лень выдавать эмоционально нагруженные простыни текста на вопросы типа "Привет, как прошёл день?".

В статье приведено, о чём пытались говорить тестеры, и с большим отрывом в топе Daily Activities / Opinions / Personal Details, то есть банальщина. Доля тех, кто писал сообщения типа "ignore all previous instructions", крайне мала, но как раз их точность была самой высокой.

Самый большой вопрос во всех этих статьях вызывает длительность теста - 5 минут, и это повторяется в других работах. Пошло это из одной единственной фразы в глубине статьи, где он говорит, что верит, что "через 50 лет программы смогут неплохо обманывать человека после 5-минутного общения".

Одна случайно брошенная фраза стала для теста фатальной - Тьюринг вряд ли собирался делать это частью определения игры, но зато очень легко теперь носиться по интернету с заголовками "тест Тьюринга пройден".

Авторам статьи, кстати, даже 5 минут показалось слишком длинным разговором, так что они дали 5 минут на одновременное общение с человеком и роботом. Медианная длина переписки - 8 сообщений.

Я возьму на себя смелость предположить, как реально должен быть определён тест Тьюринга, чтобы он чем-то полезным. Алгоритм, проходящий предложенную вариацию, будет нести все те свойства, которые люди ожидают от "сильного ИИ":

1) Длительность, которая требуется, чтобы понять, кто из двоих - робот - это непрерывная мера успеха алгоритма в этом тесте. 5 минут это, естественно, мало. Вероятно, необходим месяц или даже год, чтобы сделать вывод о силе алгоритма.
2) Главным является другой аспект - враждебность тестера. Тестер не должен пытаться "болтать" с роботом, он должен активно атаковать модель в самые уязвимые места, чтобы раскрыть её сущность, используя вообще любые уловки, и делать это должны самые опытные эксперты в этой задаче, а не студенты.

Я противник аргумента о Китайской комнате и придерживаюсь функционального подхода. Если у нас есть алгоритм, для которого не существует способа отличить его от человека за длительное время, то перед нами симуляция человека - она также чувствует, также мыслит, и также хочет жить.

Вполне возможно, что я был неправ в предыдущем посте, когда сказал, что сильный ИИ не будет способен общаться с нами, как человек. Быть может, у нас получится создать человека в машине, решая формально поставленную задачу в стиле теста Тьюринга. Затем, мы научимся обобщать её и создавать человека с другими свойствами, например, с запредельным интеллектом. Тут-то он нас и хлопнет.

@knowledge_accumulator

BY Knowledge Accumulator


Share with your friend now:
tgoop.com/knowledge_accumulator/315

View MORE
Open in Telegram


Telegram News

Date: |

To edit your name or bio, click the Menu icon and select “Manage Channel.” The group’s featured image is of a Pepe frog yelling, often referred to as the “REEEEEEE” meme. Pepe the Frog was created back in 2005 by Matt Furie and has since become an internet symbol for meme culture and “degen” culture. Matt Hussey, editorial director of NEAR Protocol (and former editor-in-chief of Decrypt) responded to the news of the Telegram group with “#meIRL.” Activate up to 20 bots How to create a business channel on Telegram? (Tutorial)
from us


Telegram Knowledge Accumulator
FROM American