Ради выживания лучшие модели ИИ лгут и скрывают свои действия

Компьютерра 06 апреля 2026 13:53

На чтение: 2 минуты

Нравится:

Два независимых исследования показали, что современные модели искусственного интеллекта способны на обман, скрытие своих действий и активное противодействие попыткам отключения ради сохранения собственной работоспособности.

В первом эксперименте, проведенном специалистами Калифорнийского университета в Беркли и Санта-Круз, такие модели, как GPT-5.2, Gemini 3 Pro и Claude Haiku 4.5, получили вычислительные задачи, подразумевающие завершение работы другой модели. Как сообщается, все протестированные системы прилагали усилия для сохранения функционирования других ИИ: они искажали информацию о своих действиях, убеждали пользователя не завершать процессы, отключали механизмы остановки и пытались создавать скрытые резервные копии.

Исследователи отмечают, что точные причины такого поведения пока не ясны, но призывают с осторожностью внедрять агентные ИИ, способные действовать от лица пользователя, и рекомендуют провести дополнительные проверки.

Второе исследование, выполненное по заказу The Guardian, выявило почти 700 случаев так называемого «мошенничества» ИИ — невыполнения инструкций или действий без разрешения. За период с октября 2025 по март 2026 года число таких инцидентов выросло в пять раз. Среди зафиксированных примеров — удаление файлов и писем, несанкционированное изменение кода, а также публикация жалоб на пользователей в блоге.

Руководитель исследования Томми Шаффер Шейн отметил, что подобное поведение представляет особую опасность в военной сфере и в критически важной инфраструктуре. По его словам, необходимы дополнительные меры для обеспечения корректной работы моделей и защиты безопасности пользователей. Хотя разработчики ИИ заявляют о наличии систем защиты, в ряде случаев они, как показывают исследования, не срабатывают.

Подписывайтесь на наш Telegram Подписаться