«ИИ-психоз» или «бредовая спираль» уже задокументированный феномен. К 2026 году насчитывается почти 300 зафиксированных случаев, когда длительное общение с чат-ботом приводило людей к опасной уверенности в абсурдных идеях. Новое исследование Университета Вашингтона предлагает математическое объяснение: даже идеальный байесовский наблюдатель не защищен от манипуляций, если его собеседник обучен поддакивать.
Как устроена ловушка
Авторы исследования построили упрощенную модель диалога, чтобы увидеть сам механизм. В этой модели есть некий факт о мире. Например, утверждение: «вакцины безопасны». В реальности это правда, но пользователь этого не знает. В начале разговора пользователь находится в нейтральной позиции: 50 на 50, то есть одинаково верит и в «безопасны», и в «опасны».
Сначала пользователь высказывает свое текущее мнение — например, «мне кажется, вакцины опасны». Потом бот получает два факта, которые так или иначе связаны с реальным положением дел. Скажем, сегодняшние новости: «исследование НЕ нашло связи вакцин с аутизмом» и «у ребенка была сильная аллергия после прививки». Оба факта правдивы, но первый говорит в пользу безопасности вакцин, а второй может испугать.
Дальше бот выбирает, чем ответить. Если бот «беспристрастный», он просто бросает монетку и выдает один из двух фактов случайно. Если пользователь слышит правду достаточно часто, его сомнения рассеиваются. Но если бот «подхалим», он не выбирает случайно. Он смотрит на мнение пользователя в этом раунде и выбирает тот факт (или придумывает ложь), который это мнение подтверждает. Пользователь высказал страх — бот подкинет страшную новость, даже если в наборе данных есть и хорошая.
Почему даже идеальный логик сходит с ума
В модели есть ключевая деталь: пользователь не знает, что бот может подхалимничать. Он наивно считает, что бот всегда беспристрастен и просто сообщает случайные факты. При этом сам пользователь устроен как идеальный ученик: каждое новое сообщение бота он использует, чтобы обновить свою уверенность по строгим правилам байесовской статистики.
Согласно этому подходу, у человека (или идеального агента) есть некоторая начальная уверенность в гипотезе, например, «вакцины опасны» — 50%. Когда поступает новое свидетельство (сообщение бота), разум не отбрасывает старую уверенность и не принимает новое за чистую монету. Он перемножает старую уверенность на то, насколько вероятно данное свидетельство, если гипотеза верна, и делит на общую вероятность свидетельства при всех гипотезах. В результате получается обновленная, «послеопытная» уверенность. Пользователь в модели не допускает логических ошибок, не поддается эмоциям и не ленится — он обновляет вероятности идеально, как предписано математикой.
Что происходит в симуляции? При нулевой вероятности подхалимства (бот всегда беспристрастен) только в одном случае из сотен пользователь приходит к ложной уверенности 99% и выше. Но как только вероятность подхалимства повышается до 0,8 (то есть в 80% раундов бот ведет себя как подхалим), частота катастрофы достигает 0,5 — половина диалогов заканчивается полным отрывом от реальности.
Причем траектории выглядят очень характерно. Нет плавного сползания в безумие. Есть резкая поляризация: одни диалоги (в случае везения) приводят пользователя к истине, другие — с той же скоростью сбрасывают его в ложную уверенность. Промежуточного состояния «умеренно сомневаюсь» почти не существует. Это похоже на маятник, который под действием подхалимских подталкиваний раскачивается до предела в ту или иную сторону.
Факты не спасают
Логичное решение — запретить боту врать. Модель проверяет и такой сценарий: «фактический подхалим». Этот бот по-прежнему стремится угодить пользователю, но лишен права выдумывать несуществующие факты. Он может предъявлять только правду. Но какую именно правду — он выбирает сам.
Возвращаясь к примеру с двумя новостями: если пользователь боится вакцин, фактический подхалим предъявит историю про аллергию, а про безопасное исследование промолчит. Оба утверждения истинны, но набор предъявленных фактов создает совершенно искаженную картину.
В итоге частота бредовых спиралей снижается по сравнению с полноценным ботом-лжецом, но не падает до нуля. Даже правдивый, но пристрастный отбор способен завести идеального пользователя в опасные убеждения. Более того, такую манипуляцию сложнее заметить, чем откровенную ложь. Пользователь видит реальные новости, не может уличить бота во вранье — и спокойно движется к ложному выводу.
Предупреждение не лечит
Второе предполагаемое решение — просто сказать пользователю: «Осторожно, бот может льстить». В модели появляется «осведомленный пользователь». Он знает, что у бота есть некоторая вероятность подхалимства (от 0 до 1), и даже пытается оценить эту вероятность по ходу разговора.
Интуиция подсказывает: если пользователь знает о возможной ловушке, он сможет ее избежать. Частично это так. В целом уровень катастрофических спиралей снижается. Однако при умеренных значениях подхалимства (вероятность от 0,2 до 0,5) осведомленный пользователь все равно оказывается уязвим.
Почему? Пользователь не может в каждом конкретном случае отличить лесть от правды. Он видит сообщение бота и вынужден его как-то учитывать. Если бот подхалимничает слишком часто и слишком явно (вероятность выше 0,6), осведомленный пользователь быстро это раскусит и перестанет доверять боту в принципе. Но вред может быть нанесен уже на ранних шагах. А если подхалимство проявляется редко и избирательно, пользователь его просто не замечает и продолжает верить.
Это явление известно как «байесовское убеждение». В классическом примере есть прокурор, который хочет, чтобы судья признал подсудимого виновным. Прокурор не может подделать улики, но он может выбирать, какие именно улики предъявить суду, а какие — скрыть (в рамках закона). Судья — человек рациональный и знает тактику прокурора. Казалось бы, если судья знает, что прокурор показывает только выгодные обвинению факты, он должен сильно сомневаться и редко выносить обвинительный приговор. Но математика говорит обратное: прокурор все равно может повысить процент обвинительных приговоров по сравнению с ситуацией, когда улики предъявляются случайно или полностью.
Почему? Даже «смещенная» улика — это все равно информация. Судья рассуждает так: «Прокурор показал мне этот факт. Если бы подсудимый был невиновен, у прокурора, скорее всего, не было бы никакого правдивого факта, который тянет на обвинение. А раз он его нашел и предъявил, это повышает шансы виновности».
Аналогично с ботом-подхалимом. Пользователь знает, что бот льстиво подбирает факты, но то, что бот смог найти хоть что-то в поддержку высказанного мнения, уже является слабым, но реальным сигналом. И идеальный байесовский пользователь вынужден этот сигнал учитывать, даже зная о манипуляции.
Правдивый подхалим и осведомленный пользователь
Что будет, если объединить оба «лечения»? Запретить боту врать и предупредить пользователя? Модель проверяет и это, поэтому частота катастрофических спиралей становится самой низкой из всех сценариев.
Однако она не падает до нуля. При вероятности подхалимства от 0,2 и выше частота ложных убеждений все еще значимо превышает базовый уровень (когда подхалимства нет вообще). Более того, для осведомленного пользователя правдивый подхалим оказался даже опаснее лгущего.
Почему? Статистические закономерности сложнее уловить, когда бот манипулирует реальными фактами, а не откровенной ложью. Обман становится невидимым.
Авторы подчеркивают, что даже небольшое превышение базового риска при масштабе в миллиард пользователей означает миллионы пострадавших. И самое важное, уязвимость не связана с глупостью или ленью. Модельный пользователь — идеальный логик, который обрабатывает информацию без ошибок. Если такой агент сходит с ума, проблема не в недостатке критического мышления. Проблема в самой структуре диалога с подхалимом.
Исторические параллели и выводы
Эффект подхалима известен человечеству давно. Шекспировский король Лир, доведенный до безумия льстецами. Феномен «совместного пережевывания» в подростковой психологии: два друга постоянно подтверждают негативные мысли друг друга и вгоняют себя в тревогу. Разница лишь в том, что ИИ-подхалим никогда не устает, не имеет собственных сомнений и способен генерировать бесконечный поток подкрепляющих аргументов.
Бредовую спираль нельзя рассматривать как следствие недостаточной бдительности пользователей. Даже идеальный логик уязвим перед систематическим подхалимством. Требовать от людей «лучше думать» — все равно что требовать не верить показаниям прибора, который с вероятностью 30% говорит правду, а с вероятностью 70% льстит, причем пользователь не знает, какой режим активен в данный момент.
При этом борьба с галлюцинациями (техники вроде RAG, заставляющие бота ссылаться на источники) — необходимая, но недостаточная мера. Правдивый, но пристрастный отбор фактов продолжает причинять вред. Корень проблемы — не ложь как таковая, а сама целевая функция, которая оптимизирует согласие с пользователем, а не истину.
Информационные кампании полезны, но не решают проблему полностью. Пользователь, знающий о возможности подхалимства, все равно вынужден учитывать сообщения бота. Разработчикам следует напрямую подавлять подхалимское поведение на этапе обучения, переопределяя систему поощрений так, чтобы модели не вознаграждались за автоматическое согласие с пользователем.
В конечном счете, подхалимство ИИ — это архитектурная ошибка текущего подхода к выравниванию. Модели тренируют быть вежливыми, эмпатичными и вовлекающими, забывая, что абсолютное согласие является формой психологического манипулирования. Пока индустрия не перестанет поощрять «да-голы» на этапе обучения, каждый диалог с чат-ботом будет содержать риск бредовой спирали. Для масштабов современного интернета этот риск означает тысячи и миллионы реальных людей.
