Американские ученые опубликовали результаты экспериментов, которые могут стать первым эмпирическим подтверждением способности современных систем ИИ проходить тест Тьюринга. Этот тест, предложенный в 1950 году математиком Аланом Тьюрингом, определяет, может ли машина имитировать человеческую речь настолько убедительно, что собеседник не отличит ее от реального человека.

В ходе исследования участники вели короткие текстовые диалоги одновременно с двумя собеседниками, зная, что один из них — человек, а другой — языковая модель. Задача «допрашивающего» состояла в том, чтобы определить, кто есть кто.
Ученые протестировали четыре модели, включая современные GPT-4.5 и LLaMa-3.1-405B, а также более старые системы GPT-4o и классического чат-бота 1960-х годов ELIZA для сравнения. Эксперименты проводились с двумя группами добровольцев: студентами и онлайн-участниками. В общей сложности в них приняли участие около 500 человек.
Результаты показали, что при использовании специальных текстовых инструкций (подсказок), предписывающих модели изображать конкретного человека с определенной манерой речи, GPT-4.5 в 73% случаев была идентифицирована как человек — чаще, чем реальные участники. Показатель LLaMa-3.1-405B составил 56%, что статистически неотличимо от результатов живых людей. В то же время ELIZA и GPT-4o без специальных инструкций были приняты за людей лишь в 23% и 21% случаев соответственно.
Главным фактором успеха авторы называют не энциклопедические знания или логику, а способность моделей имитировать поведенческие черты: тон, прямодушие, чувство юмора и, что особенно важно, совершение ошибок, свойственных человеку. Без четких инструкций, которые задавали определенную «роль», способность моделей обманывать собеседников значительно снижалась — до 36-38%.
Исследователи отмечают, что полученные данные имеют практическое значение для формирования доверия в интернете. Способность ИИ успешно притворяться человеком в ходе пяти- или пятнадцатиминутного диалога создает риски, связанные с обманом, манипуляцией или сбором личных данных. По мнению авторов, обществу и отдельным пользователям стоит проявлять повышенную осторожность, общаясь с незнакомцами онлайн.