Российские ученые представили новый метод анализа изображений, направленный на выявление внутренних несоответствий и противоречий здравому смыслу. В разработке приняли участие специалисты из Института AIRI, Сколтеха, центра компетенций MWS AI и Московского физико-технического института.

В отличие от традиционных систем, которые хорошо распознают отдельные объекты, но не всегда оценивают их совместимость, предложенный подход использует анализ текстовых описаний изображений.
Метод работает в три этапа: сначала искусственный интеллект генерирует набор разнообразных утверждений о том, что изображено. Затем нейросетевая языковая модель преобразует фразы в векторы, близкие по смыслу предложения получают схожие векторы. Это позволяет сравнивать смысл утверждений об изображении математически.
На последнем этапе система автоматически сравнивает числовые векторы. Если они сильно отличаются, изображение считается странным или противоречивым. Если различия незначительные, картинка признается нормальной.
Такой подход не только повышает точность анализа, но и требует меньше вычислительных ресурсов по сравнению с методами, работающими непосредственно с визуальными данными. Испытания показали увеличение точности на 0,5–15% в зависимости набора данных, а также экономическую эффективность.
«Таким образом, если на вход подать странное изображение, то система начинает описывать его противоречивыми фразами. Например, для картинки с рыцарем в утверждении «рыцарь держит телефон» есть несоответствие. Оно помогает выявить странность изображения. В дальнейшем остается только это зафиксировать, что можно сделать, например, с помощью классификатора противоречий, модели семантического следования и некоторых других методов».
Александр Панченко, один из разработчиков, руководитель группы «Вычислительная семантика» в AIRI и группы NLP в Сколтехе, доктор компьютерных наук
Разработка может быть применена в системах модерации контента для выявления фейковых изображений, в анализе спутниковых снимков, машинном чтении рукописных текстов и других областях, где требуется надежная интерпретация визуальной информации.
