Компания Positive Technologies представила нейросеть ByteDog, которая обнаруживает вредоносный код без ручной подготовки данных. Модель на основе архитектуры «трансформер» читает файлы напрямую в виде байтов — так, как они хранятся на устройстве, — и благодаря этому выявляет угрозы на 20% точнее классических систем машинного обучения. Разработка стала первой в России и Европе в области ИБ.

Компания Positive Technologies разработала нейросеть для обнаружения вредоносного кода под названием ByteDog. Модель основана на архитектуре «трансформер», которую используют большие языковые модели, но в отличие от них ByteDog работает не с текстом или изображениями, а анализирует файлы напрямую в виде байтов — точно в том виде, в котором они хранятся на компьютере, смартфоне или в облаке. Это позволяет модели определять вредоносное программное обеспечение на 20% точнее, чем любая классическая модель машинного обучения. Разработка стала первой в своём роде в России и Европе.
Традиционные системы ИИ в кибербезопасности требуют ручной подготовки данных: специалисты извлекают из файлов признаки вроде опкодов или структуры импортов, по которым нейросеть учится отличать вирусы от безопасного кода. ByteDog полностью исключает этот этап. После обучения она самостоятельно находит закономерности в последовательностях байтов и способна обнаруживать угрозы, которые раньше не встречались в данных. Этим она превосходит системы, основанные на жёстких правилах. Обучение и тестирование модели проводились в течение года на образцах реальных киберинцидентов, и по качеству детектирования и скорости анализа ByteDog показала результат более чем на 20% выше по сравнению с классическими ML-моделями.
Например, если сотрудник получает по электронной почте файл, который выглядит как обычный счёт, но внутри скрыт вирус, классическому антивирусу нужно несколько операций: распаковать файл, извлечь код, применить правила. ByteDog, работая на устройстве пользователя, анализирует файл как последовательность байтов и обнаруживает признаки вредоносного кода даже в случае сложных способов маскировки. Главной технической сложностью при разработке был большой объём данных: если языковая модель работает с контекстом до 128 тысяч токенов, то обычный файл содержит миллионы байтов. Для решения этой проблемы модель анализирует файлы фрагментами, а затем собирает общую картину. При этом уже обученная версия ByteDog не требует графического ускорителя и может работать на обычных ПК и смартфонах. Модель будет интегрирована в ряд продуктов и сервисов Positive Technologies по обнаружению киберугроз.