Российская компания Smart Engines представила публичный датасет MIDV-DM, содержащий 8 тысяч изображений поддельных удостоверений личности. Набор данных включает основные методы фальсификации и призван помочь мировым разработчикам в создании более точных ИИ-систем для борьбы с мошенничеством.

Датасет систематизирует основные способы манипуляций с документами. Он включает в себя замену текстовых полей и фотографий, маскировку отдельных данных, склеивание фрагментов разных документов, а также добавление посторонних элементов, таких как эмблемы или голограммы. Основой для набора послужила тысяча изображений из ранее опубликованной выборки MIDV-2020.
Создание датасета направлено на помощь разработчикам по всему миру в обучении, тестировании и совершенствовании систем обнаружения мошенничества на базе искусственного интеллекта. По статистике в 2024 году в России число уголовных дел по статье о подделке документов выросло на 34%, достигнув 3,9 тысяч.
По словам генерального директора Smart Engines Владимира Арлазарова, датасет специально включает сложные сценарии подделок, такие как изменение подписи или фотографии, что позволяет ИИ-системам учиться выявлять не только текстовые замены, но и структурные несоответствия в документах.
В дальнейшем компания планирует использовать MIDV-DM для развития собственной антифрод-системы «Шерлок 2о». Эта мультимодальная ИИ-модель способна анализировать документы по изображениям в различных спектрах, данным чипов, штрих-кодам и другим параметрам, проводя проверку подлинности по 600 критериям.
