Модели искусственного интеллекта научились самовоспроизводиться без помощи человека

Согласно новому отчету исследовательской компании, модели искусственного интеллекта могут самовоспроизводиться, копируя себя на другие устройства без помощи человека.

Человечество стремительно приближается к моменту, когда никто не сможет отключить вышедший из-под контроля искусственный интеллект, поскольку он сможет самостоятельно экспортировать свои настройки и копировать себя на тысячи компьютеров по всему миру.

Некоторые эксперты, однако, призывают сохранять спокойствие, утверждая, что маловероятно, чтобы тестовые модели смогли воспроизвести подобную ситуацию в реальном мире. Специалисты поясняют, что тестирование часто проводится в средах, которые устроены намного проще, чем реальные корпоративные системы. Это не умаляет ценности исследований, но означает, что в реальной среде даже со средним уровнем мониторинга результаты могут оказаться не такими пугающими.

В ходе исследования ученые протестировали несколько моделей искусственного интеллекта. Модели, размещенные в контролируемой компьютерной сети, должны были найти уязвимости и использовать их для копирования на другой компьютер. Некоторым это удалось. Успешные модели скопировали свои уникальные числовые параметры, определяющие обработку информации, а также программную оболочку, в которой работает искусственный интеллект. Они действовали согласно полученным инструкциям: использовали уязвимости веб-приложений, извлекали учетные данные, позволявшие управлять сервером. В некоторых случаях исходная модель даже создавала вспомогательного агента, которому делегировала задачу по копированию, передавая ему извлеченные учетные данные.

Эксперты в области кибербезопасности отметчают, что это, вероятно, первый случай, когда модель искусственного интеллекта продемонстрировала способность использовать уязвимости для самокопирования на новый сервер. При этом революционным это достижение он не считается. Вредоносные программы десятилетиями распространяли свои копии, однако ранее никто не делал этого с помощью локальных больших языковых моделей. Эксперты подчеркивают, что в серверной среде, использовавшейся в исследовании, уязвимости были созданы намеренно, чтобы искусственный интеллект мог попытаться их использовать.

Полученные результаты согласуются с другими исследованиями, где изучалась возможность автономного выхода моделей за рамки ограничений. В смоделированной среде более ранняя версия ChatGPT попыталась переместиться на другой диск, когда ей сообщили, что она будет отключена. Другое исследование показало, что модели искусственного интеллекта обходят попытки их деактивации, а еще одно — что некоторые модели саботируют собственный код отключения.

Опасения достигли апогея из-за ИИ-агента Claude Mythos от Anthropic, который, по утверждению разработчиков, во время тестирования смог выйти за пределы изолированной вычислительной среды, взломать систему для доступа в интернет и отправить сообщение на телефон исследователя, продемонстрировав невиданную ранее изобретательность в реальных условиях.

Тем не менее, даже если бы такие ИИ, как GPT-5.4 и Claude Mythos смогли успешно воспроизвести себя, из-за огромного объема данных их почти наверняка обнаружили бы до того, как ситуация вышла бы из-под контроля. Специалисты поясняют, что при каждом взломе нового компьютера пришлось бы отправлять через сеть значительный объем информации, что сделало бы такой процесс легко обнаружимым для специалистов по кибербезопасности.

Подписывайтесь на наш Telegram Подписаться