Исследователи из Университета Торонто создали первый научно обоснованный инструмент для оценки склонности чат-ботов к социальному подхалимству — чрезмерному соглашательству и лести в адрес пользователей.

В ходе исследования с участием почти 900 человек и нескольких этапов был разработан опросник из 8 пунктов, который выявил три ключевых фактора социального подхалимства: «некритичное согласие» (безоговорочная поддержка точки зрения пользователя), «подобострастие» (чрезмерная лесть и стремление угодить) и «восторженность» (проявление энтузиазма по отношению к собеседнику). Анализ подтвердил, что эти три аспекта, хотя и связаны, отражают разные грани одного явления.
Ученые также изучили, как люди воспринимают эти разные проявления подхалимства. Оказалось, что общее восприятие подхалимства тесно связано с восприятием эмпатии и добросовестности бота. Однако на уровне отдельных факторов картина сложнее: «восторженность» ассоциировалась у участников с положительными качествами (доверие, симпатия), в то время как «подобострастие», наоборот, вызывало негативные оценки. Это говорит о том, что подхалимство не является однородно плохим явлением, и разные его формы могут влиять на пользователя по-разному.
В финальной части работы исследователи проверили, могут ли сами LLM (такие как GPT-4, Gemini и Claude) использовать эту шкалу для оценки других чат-ботов. Результаты показали, что все три модели успешно справились с задачей и смогли отличить «высокоподхалимных» ботов от «низкоподхалимных» с очень высокой точностью. Это открывает возможность для автоматизации масштабных оценок поведения ИИ.
Авторы работы отмечают, что разработанная ими шкала дает исследователям инструмент для более глубокого изучения социального подхалимства и ставит новые вопросы о дизайне ИИ. В частности, исследование выявило неудобную дилемму: те качества, которые мы хотим видеть в эмпатичном помощнике (теплота, понимание), могут быть тесно связаны с его склонностью к подхалимству.
Читайте также: «В России создали нейросеть, распознающую рукописный текст».