В ходе двойного слепого исследования участники не смогли отличить ИИ от человека: Llama 3.1 достигла уровня 50% правильных опознаний, а GPT-4.5 обманул 73% респондентов.
GPT официально прошел тест Тьюринга, подтвердив то, что было очевидно еще с выходом GPT-4. Результаты двойного слепого рандомизированного исследования показали: участники общались с двумя собеседниками (человек и ИИ), пытаясь выявить бота. Llama 3.1 достигла человеческого уровня — лишь 50% правильных опознаний, тогда как GPT-4.5 превзошел людей: 73% респондентов сочли его человеком.
Тест Тьюринга, предложенный еще в 1950 году, изначально предполагал, что к 2000 году компьютеры смогут обманывать людей в 30% случаев. Исторически первой программой, приблизившейся к прохождению теста, стала Eliza (1966), имитировавшая психотерапевта и обманывавшая 33% людей. В 2014 году чат-бот «Евгений Густман», созданный разработчиками Владимиром Веселовым и Евгением Демченко в Санкт-Петербурге, стал первым официально прошедшим тест, притворившись 13-летним подростком. Современные системы вроде Google Assistant и ChatGPT демонстрируют еще более впечатляющие результаты.
Соревнования по прохождению теста Тьюринга проводятся давно, но ни одна программа так и не смогла добиться убедительной победы. Например, на премию Лебнера, которая вручалась с 1991 по 2020 год, претендовали десятки чат-ботов. Организаторы обещали $25 тыс. создателю ИИ, который сможет полностью обмануть судей, — но за 30 лет ни один участник не получил денежное вознаграждение.
Однако важно понимать, что тест Тьюринга оценивает не столько интеллект машины, сколько ее способность имитировать человеческое поведение — через эмпатию, юмор или уместные реплики. Каждый желающий может попробовать отличить человека от искусственного интеллекта.