Троянские программы тренируют ИИ на устойчивость

Троянские программы — это вредоносные программы, выполняющие несанкционированные пользователем действия. Троянская атака, в том числе, может быть использована разработчиками в качестве способа проверки моделей машинного обучения на устойчивость. Троянская программа изменяет модель, которая при этом учится реагировать на ложные импульсные сигналы (триггеры) ввода. Эти сигналы приводят к выводу неверного ответа. Исследователи из Университета Джона Хопкинса (США) попытались автоматизировать и расширить этот процесс. Они разработали каркас (фреймворк) — программную платформу, которая облегчает разработку и объединение разных компонентов большого проекта. Этот каркас получил название TrojAI.

TrojAI — это специальный набор инструментов, который генерирует триггерные наборы данных, связанные с троянскими моделями. Исследователи заявляют, что их разработка позволит изучить и понять влияние различных систем на сгенерированные троянские модели. Это поможет разработать и протестировать новые методы обнаружения вредоносных программ. Искусственный интеллект, натренированный с помощью этой программной платформы, будет более устойчив к хакерским атакам.

Используя современные методы машинного обучения, искусственный интеллект обучается работе с данными и изучает различные связи с этими данными. Затем его запускают уже для работы с новой информацией. Например, ИИ может обучаться на изображениях дорожных знаков, узнавать, как выглядят знаки остановки и знаки ограничения скорости, а затем он становиться частью системы автономного автомобиля.

Проблема в том, что злоумышленник может нарушить процесс обучения, путем внедрения трояна в ИИ. Например, тот же ИИ, обучающийся различать дорожные знаки. Если заразить его троянской программой, поведение системы может стать непредсказуемым. Если ее внедрить в автомобиль с автоматическим управлением, злоумышленник может заставить машину проехать через ограничительный знак или знак остановки. Цель программы TrojAI — бороться с такими троянскими атаками.

Крайне важно, чтобы предприятия, использующие модели искусственного интеллекта для принятия критических решений, были защищены от подобных атак, и этот метод может помочь их системам стать более безопасными.

Как работает TrojAI

Программное обеспечение TrojAI представляет собой набор инструментов с открытым исходным кодом на языке Python, способный создавать рабочие «зараженные» наборы данных. Они позволяют исследователям находить и генерировать модели классификации и обучения для подбора троянских программ.

На первом этапе — классификация — пользователь настраивает тип заражения для применения к интересующему набору данных. Затем выбирает архитектуру обучаемой модели, параметры обучения и количество моделей для обучения. После эта конфигурация принимается основной программой, которая генерирует конечный результат. В качестве альтернативы, вместо набора данных пользователь может настроить «зараженную» среду, в которой будет обучаться модель.

В TrojAI есть два подмодуля. Подмодуль генерации данных — datagen — создает синтетический корпус, содержащий образцы изображений или текста, в то время как подмодуль генерации моделей — modelgen — обучает набор моделей, содержащих троян.

Программа собирает различные данные в процессе обучения. Например, о поведении разных моделей при троянской атаке, об их производительности. Эти данные помогают понять, что модель успешно прошла троянский процесс.

В будущем исследователи надеются улучшить свою систему. Они планируют расширить библиотеку наборов данных, архитектур и обучающих сред для тестирования и производства нескольких моделей. А также настроить систему для работы с более сложными вирусами, которые разработаны специально, чтобы избежать обнаружения.

Источник