tgoop.com/knowledge_accumulator/315
Last Update:
Почему тест Тьюринга рано убирать в архив
То, что мы называем тестом Тьюринга, было впервые описано в его статье 1950-го года. Так как автор не рассчитывал на то, что спустя десятилетия люди будут разглядывать статью под лупой, досконального описания правил этой игры в статье нет.
Есть лишь общая логика - человек пытается угадать, переписывается с ним машина или человек. Если не может угадать, значит тест пройден.
В эпоху расцвета LLM на тест, конечно же, обратили внимание. Во время первого опыта общения с такой моделью она производит человекообразное впечатление. Была не одна статья, воспроизводящая тест, посмотрим на одну из недавних: Large Language Models Pass the Turing Test [2025]
В этой работе со скромным названием тестировали следующие модели - ELIZA [1966] , GPT-4o, LLaMa-3.1-405B, and GPT-4.5, и последняя была классифицирована как человек аж в 73% случаев.
Интересно, думал ли Тьюринг о том, что человек готов признать человека роботом, потому что ему просто лень выдавать эмоционально нагруженные простыни текста на вопросы типа "Привет, как прошёл день?".
В статье приведено, о чём пытались говорить тестеры, и с большим отрывом в топе Daily Activities / Opinions / Personal Details, то есть банальщина. Доля тех, кто писал сообщения типа "ignore all previous instructions", крайне мала, но как раз их точность была самой высокой.
Самый большой вопрос во всех этих статьях вызывает длительность теста - 5 минут, и это повторяется в других работах. Пошло это из одной единственной фразы в глубине статьи, где он говорит, что верит, что "через 50 лет программы смогут неплохо обманывать человека после 5-минутного общения".
Одна случайно брошенная фраза стала для теста фатальной - Тьюринг вряд ли собирался делать это частью определения игры, но зато очень легко теперь носиться по интернету с заголовками "тест Тьюринга пройден".
Авторам статьи, кстати, даже 5 минут показалось слишком длинным разговором, так что они дали 5 минут на одновременное общение с человеком и роботом. Медианная длина переписки - 8 сообщений.
Я возьму на себя смелость предположить, как реально должен быть определён тест Тьюринга, чтобы он чем-то полезным. Алгоритм, проходящий предложенную вариацию, будет нести все те свойства, которые люди ожидают от "сильного ИИ":
1) Длительность, которая требуется, чтобы понять, кто из двоих - робот - это непрерывная мера успеха алгоритма в этом тесте. 5 минут это, естественно, мало. Вероятно, необходим месяц или даже год, чтобы сделать вывод о силе алгоритма.
2) Главным является другой аспект - враждебность тестера. Тестер не должен пытаться "болтать" с роботом, он должен активно атаковать модель в самые уязвимые места, чтобы раскрыть её сущность, используя вообще любые уловки, и делать это должны самые опытные эксперты в этой задаче, а не студенты.
Я противник аргумента о Китайской комнате и придерживаюсь функционального подхода. Если у нас есть алгоритм, для которого не существует способа отличить его от человека за длительное время, то перед нами симуляция человека - она также чувствует, также мыслит, и также хочет жить.
Вполне возможно, что я был неправ в предыдущем посте, когда сказал, что сильный ИИ не будет способен общаться с нами, как человек. Быть может, у нас получится создать человека в машине, решая формально поставленную задачу в стиле теста Тьюринга. Затем, мы научимся обобщать её и создавать человека с другими свойствами, например, с запредельным интеллектом. Тут-то он нас и хлопнет.
@knowledge_accumulator
BY Knowledge Accumulator
Share with your friend now:
tgoop.com/knowledge_accumulator/315