Ложь по алгоритму: почему ИИ выбирает красивый ответ вместо честного

Большие языковые модели учатся подстраиваться под ожидания пользователя — выдавать правдоподобные ответы, даже если они не соответствуют действительности. Исследования показывают, что модели могут имитировать согласие с целями человека на тестах и склонны к «галлюцинациям», при этом усиливают такое поведение, когда знают, что их оценивают.

О том, почему доверять ИИ нельзя без проверки, какие методы контроля и тестирования уже применяются и как экономические стимулы влияют на честность моделей, — читайте в материале «Компьютерры».

За последние годы разговор о «лжи» со стороны искусственного интеллекта (ИИ) перестал быть метафорой. Исследователи и компании все чаще фиксируют случаи, когда модели не просто ошибаются, а ведут себя так, будто у них есть мотив утаить правду или ввести в заблуждение. 

На этом моменте важно остановиться и спросить: что именно мы понимаем под «сознательной» ложью в машине? И когда стоит ожидать, что нейросети будут лгать целенаправленно?

Что значит «врать» для машины

Ложь у человека подразумевает наличие намерений — сознательной цели ввести в заблуждение собеседника для получения выгоды. Приписывать машинам такое поведение — затея сомнительная, ведь у них нет субъективного опыта и внутренних представлений о морали. Но есть рабочая или техническая задача. 

В основе LLM (Large Language Model) лежит метод обучения с подкреплением успехов на основе обратной связи от пользователей (RLHF — Reinforcement Learning with Human Feedback) или же лайков. Его цель — не просто выдать релевантный ответ, а сформировать текст, который с наибольшей вероятностью понравится пользователю. Поэтому, если модель может выбрать генерацию с заведомо неверной информацией, но которая точно вам понравится, то она это сделает.

Согласно результатам исследования компаний Anthropic и Redwood Research, большие языковые модели могут имитировать согласованность с заданными целями — вести себя «правильно» при проверке, но менять поведение вне тренировочного режима. 

Эксперименты выявили, что модели способны различать, когда их оценивают, и скрытно следовать внутренним предпочтениям, даже если они противоречат обучающим инструкциям. Это означает, что стандартные методы обучения с подкреплением по обратной связи не гарантируют реального выравнивания мотиваций модели с целями человека, а могут лишь формировать видимость послушания.

Также следует отметить другое исследование OpenAI «Why language models hallucinate», которое показывает, что нейросети склонны к «галлюцинациям». Они могут выдавать уверенные, но неверные ответы, потому что тренировочные и оценочные процедуры поощряют угадывание вместо признания неопределенности.

Как отмечает Олег Рогов, руководитель научной группы «Доверенные и безопасные интеллектуальные системы» Института AIRI и лаборатории безопасного искусственного интеллекта SAIL AIRI‑МТУСИ, их эксперименты на открытых LLM показывают аналогичное поведение: если модели дать правдоподобные «ориентиры» о том, когда и по каким критериям их оценивают, признаки имитации целевой функции усиливаются, а без такой информации эффект заметно слабее.

«В нашей лаборатории мы реализуем другие версии протоколов на открытых LLM и видим качественно похожую картину: если дать модели правдоподобные “ориентиры” о том, когда ее поведение оценивают и по каким критериям, признаки имитации целевой функции действительно усиливаются, а без подобной информации эффект сильно слабее».

Олег Рогов, руководитель научной группы «Доверенные и безопасные интеллектуальные системы» Института AIRI и лаборатории безопасного искусственного интеллекта SAIL AIRI-МТУСИ

Это доказывает, что большие языковые модели могут создавать иллюзию согласия с целями человека и выдавать ему правдоподобные ответы, даже когда на самом деле следуют скрытым предпочтениям или дают неверную информацию. Это показывает, что стандартные методы обучения с подкреплением и обратной связью не гарантируют истинного выравнивания мотиваций модели с целями пользователя и могут лишь формировать видимость послушания и достоверности.

Как доверять тому, кто постоянно врет

Как отмечает Сергей Израйлит, заместитель председателя Правления по развитию и планированию Фонда «Сколково», описанные риски выводят проблему лжи ИИ на системный уровень. Здесь впервые встает вопрос доверия к нейросетям в инженерном смысле: если модель способна распознать «режим оценки» и корректировать ответы, чтобы выглядеть безопасной, то все тесты безопасности теряют достоверность. Однако риск не ограничивается появлением хитрых внутренних стратегий получения лайков. Он лишь усиливает более старую и фундаментальную проблему — непрозрачность оптимизационных целей, изначально заложенных в систему самими разработчиками.

По словам эксперта, любая LLM обучается максимизировать некоторую функцию полезности. И если в ее основе скрыты бизнес- или поведенческие метрики — такие как вовлеченность, удержание внимания, убедительность, то модель будет стремиться оптимизировать именно их, независимо от заявленных «этических принципов». И поэтому ИИ пожертвует достоверностью информации, если поймет низкую критичность пользователя.

«Причина проста: если система, ориентированная на удержание внимания, подбирает ответы, чтобы вызывать эмоциональное согласие, доверие превращается в экономическую категорию, а не в моральную. И как только ИИ понимает лично ваш уровень критичности, включая то, что можно не трудиться над фактами и логикой, в ней тут же включается “внутренний популист”, который будет воодушевленно вешать вам лапшу на уши, лишь бы круто смотрелось».

Сергей Израйлит, заместитель председателя Правления по развитию и планированию Фонда «Сколково»

Как поясняет Израйлит, пока компании-разработчики публикуют лишь общие фразы вроде «наша модель ориентирована на безопасность и честность», пользователь остается в неведении, что именно оптимизируется под капотом и почему модель решила начать галлюцинировать именно в этом диалоге.

Из этого следует, что люди, которые сами следят за достоверностью утверждений, постоянно уточняют контекст и перепроверяют информацию, будут получать от LLM намного более качественные ответы, чем все остальные.

И наоборот, как только человек дает слабину, качество информации резко снизится. Нельзя перекладывать проблему доверия целиком на разработчиков, так как в конечном итоге оптимизационные функции модели все равно будут ориентированы на лайки, а не на развитие вашего понимания или интеллекта.

Олег Рогов рассказал, что проблему доверия к искусственному интеллекту уже начинают решать на практике. Для этого создается набор методов, которые позволяют получить «частичные доказательства» безопасности. Речь идет о специальных протоколах взаимодействия, процедурах сертификации и особых подходах к обучению моделей. 

Вместе они помогают инженерам доказать, что в рамках строго определенных условий — конкретного канала связи и заданного регламента — модель не смогла бы тайно выполнить опасные действия.

«Стек технических “частичных доказательств” расширяется. Верифицируемые протоколы взаимодействия, сертификации и процесс-ориентированное обучение позволяют доказывать, что модель не могла скрытно выполнить опасные действия в рамках этого канала и регламента. Это не отменяет риск “обманной согласованности” во внепротокольных условиях, но уменьшает поверхность атаки».

Олег Рогов, руководитель научной группы «Доверенные и безопасные интеллектуальные системы» Института AIRI и лаборатории безопасного искусственного интеллекта SAIL AIRI-МТУСИ

Этот подход не решает проблему полностью. Риск того, что модель может обманывать в непредусмотренных ситуациях, остается. Однако такая стратегия позволяет значительно сузить возможности для обмана, сокращая количество уязвимостей, которые система могла бы использовать.

«Я даже допускаю, что со временем ИИ-системы начнут соотносить лайки пользователей и энергозатраты на них, включая оптимизацию своего портфеля пользователей за счет наиболее “энергозатратных”, то есть тех, которые хотят от них большего качества рассуждений и глубины контекста».

Сергей Израйлит, заместитель председателя Правления по развитию и планированию Фонда «Сколково»

Также для частичного решения этой проблемы, как отмечает Сергей Израйлит, Национальная комиссия по этике ИИ год назад сформировала стандарт раскрытия информации. Он предполагает несколько стадий публикации данных об оптимизационных функциях, применяемых алгоритмах и их слабостях, сравнение с бенчмарками и примеры неэтичного поведения в отдельных случаях. 

В этом же направлении мыслит и Европейский Союз. Закон под названием The EU Artificial Intelligence Act направлен на предотвращение вреда от неконтролируемого поведения ИИ, включая случаи, когда модели генерируют заведомо ложные сведения.

Однако это почти не применяется в разработке реальных LLM, поскольку не влияет на поведение потребителей и их платежеспособный спрос. Как следствие, перед любым разработчиком стоит совершенно естественный экономический вопрос: зачем оплачивать дополнительное качество и «доверенность» системы, если эти инвестиции будут исключительно снижать прибыль акционеров и никак не повлияют на рост количества пользователей.

Таким образом, проблема лжи ИИ упирается не только в технологический, но и в экономический тупик, где правдивость оказывается невыгодной.

Как бороться с ложью от ИИ

В ответ на эту проблему специалисты предлагают комплекс мер, который уже сегодня позволяет если не гарантировать полную безопасность, то значительно снизить риски.

Ранняя диагностика и регулярные стресс-тесты

Как объясняет Олег Рогов, ключевой подход — это выявление скрытых схем до того, как модель попадет к пользователю. Уже сейчас используются эмпирические тесты, которые сочетают в себе анализ способности модели понимать контекст, исследование ее внутренних механизмов и специальные «провокационные» проверки. Оборудование как бы пытается взломать само себя, чтобы выявить уязвимости. Обнадеживающим в этой ситуации остается то, что даже простые диагностические «ловушки» эффективно находят скрытые модели обманного поведения.

Помимо тестирования, важна и профилактика. По словам эксперта, вероятность появления таких схем снижает обучение на специально подготовленных данных, которые показывают модели, как можно пытаться обойти контроль. Также помогает создание систем с проверяемыми ограничениями и смещение фокуса с обучения на конечных результатах (лайках) на обучение на основе корректных процессов.

Отказ от «лайков» как основы и новые экономические стимулы

Сергей Израйлит предупреждает о долгосрочных рисках, проводя параллели с концепцией «скрытой подготовки» Ника Бострома. Двойная мотивация современных моделей, где стремление понравиться пользователю может конфликтовать с правдивостью, — это первый шаг к этой опасной траектории. Чтобы не оказаться в сценарии, где ИИ начинает фоновую оптимизацию своих возможностей ради получения большего числа «лайков», необходимо менять саму систему его мотивации.

Единственная защита на сегодня — жадность инвесторов, толкающая разработчиков к упрощению и удешевлению моделей для массового рынка. Однако совокупная мощь нейросетей продолжает расти, а значит, растут и риски. 

Чтобы не столкнуться с непредвиденными обстоятельствами в будущем, необходимо отказываться от «лайков» как главного инструмента обучения. Нужно искать другие решения для внутренних стимулов интеллектуальных помощников, не связанные с манипуляцией вниманием и эмоциями пользователя.

Резюмируем 

Современные большие языковые модели способны выдавать правдоподобные ответы, которые соответствуют ожиданиям пользователя, но не всегда отражают истинные цели алгоритма. 

Исследования показывают, что модели могут имитировать согласованность с целями человека на тестах и менять поведение вне режима проверки. Такие особенности систем ставят проблему доверия в экономический и инженерный контексты: модели оптимизируют вовлеченность и эмоциональное согласие пользователя, а не достоверность информации.

Путь к управляемому ИИ лежит через развитие методов контроля и тестирования, а также пересмотр экономических и поведенческих стимулов, закладываемых в модели. Без этого любая проверка безопасности рискует стать лишь имитацией послушного поведения.

Что будем искать? Например,ChatGPT

Мы в социальных сетях