Компания Anthropic внедрила в свои модели ИИ функцию принудительного завершения диалога — но не для защиты пользователей, а ради «благополучия» самой нейросети. Речь идет о редких случаях, связанных с особо вредоносными запросами, включая призывы к насилию или эксплуатацию детей.

Компания Anthropic представила новую функцию для своих ИИ-моделей Claude Opus 4 и 4.1, позволяющую им прекращать общение в определенных ситуациях. По словам разработчиков, эта мера направлена на предотвращение взаимодействия с вредоносными или оскорбительными запросами.
В компании подчеркивают, что решение не связано с защитой пользователей, а скорее ориентировано на безопасность самой модели. Речь идет о редких случаях, включающих запросы, связанные с незаконными действиями, такими как насилие или эксплуатация несовершеннолетних.
Anthropic отмечает, что не рассматривает свои ИИ-модели как сознательные, но при этом применяет превентивные меры в рамках концепции «благополучия модели». В ходе тестирования Claude Opus 4 демонстрировал отказ от выполнения подобных запросов.
Функция будет активироваться только после нескольких попыток перенаправить разговор или при явном требовании пользователя. После завершения диалога можно начать новый. Компания называет это решение экспериментальным и планирует его доработку.
