Почему ИИ в документообороте не всегда приносит пользу

Каждая компания рано или поздно сталкивается с необходимостью автоматизировать работу с документами, но необдуманный выбор ИИ-системы распознавания может обернуться серьезными проблемами — вплоть до утечки коммерческой тайны и потери денег. За один только прошлый год, согласно исследованию McKinsey, финансовые издержки компаний из-за галлюцинаций ИИ составили около $67,4 млрд. 

Разбираемся, что из себя представляют системы OCR, DAR и IDP и почему бизнесу нужен предметный научный подход вместо маркетинговых фантазий.

Что важно знать, чтобы распознавание документов приносило пользу

Сегодня в отношении систем распознавания документов употребляют несколько терминов: OCR, DAR и IDP. За каждым из них стоит конкретная технология, свой функционал, а подчас и серьезные риски.

OCR (Optical Character Recognition) — оптическое распознавание символов

Это базовая технология, которая позволяет переводить отсканированный или снятый на камеру документ в редактируемый текстовый формат. Она лежит в основе любых технологий обработки документов и подходит для решения многих прикладных задач. 

Например, это касается наполнения электронных архивов и баз данных: распознавание символов делает возможным быстрый и удобный поиск по тексту всех документов.

DAR (Document Analysis and Recognition) — распознавание и анализ документов

Порой возможности OCR недостаточны для автоматизации того или иного процесса. Например, может потребоваться извлечь из документа основные значимые сведения — дату создания, выдачи или подписания, уникальный номер, информацию об авторе и адресате, ИНН, КПП, контрольную сумма и другие реквизиты. 

Для этих задач применяются DAR-системы, которые позволяют не только безошибочно считывать текст, но и автоматически выделять из него важные данные. Без них нельзя автоматизировать такие процессы, как проверка контрагентов, верификация действительности документов, запуск сделок, учет оплат и так далее.

IDP (Intelligent Document Processing) — интеллектуальная обработка документов

IDP представляет собой технологию интерпретации текста при помощи больших языковых моделей (LLM). Чаще всего этот термин скрывает за собой слабую систему распознавания в яркой маркетинговой обертке. 

Плохо распознанные данные документа «дорабатываются» большой языковой моделью с ее способностями к выдумыванию и галлюцинациям. Если неуместное вмешательство LLM не удалось вовремя заметить, бизнес рискует получить сбои в повседневных процессах. 

Далеко не все системы искусственного интеллекта для работы с документами одинаково полезны. Прежде всего стоит выбирать проверенные решения, построенные на качественном движке OCR и предсказуемых технологиях анализа документов — только в таком случае можно говорить о реальной автоматизации бизнеса. Подробнее изучим различия DAR и IDP.

DAR: как научный подход меняет рынок технологий распознавания

Главные преимущества систем класса DAR — достоверное распознавание документов, анализ их структуры и извлечение значимой информации. Например, такие технологии способны:

  • выделять в больших таблицах итоговые суммы;
  • отличать изображение реального документа от его распечатанной копии;
  • проверять действительность документа по наличию подписи и печати;
  • считывать QR-коды и любые другие штрихкоды;
  • определять чекбоксы и другие формализованные элементы документов.

Все эти возможности позволяют поставить на поток бумажную работу.

Для того чтобы сделать возможным анализ документа, необходима предельно качественная базовая технология распознавания (OCR). По этой причине при создании технологий DAR разработчики используют прогрессивные научные методы обработки изображений. 

Достигнутые результаты и новые вызовы создания систем класса DAR ежегодно обсуждаются на ведущей международной конференции по анализу и распознаванию документов — ICDAR.

Главное, что отличает системы класса DAR от IDP-решений, — достоверность извлеченной информации. Технологии DAR не допускают «додумывания» и произвольного исправления данных, то есть содержимое извлекается точно в том виде, в каком оно представлено на исходном документе. Это не наносит ущерб точности информации и делает любую дальнейшую работу с документами значительно более прозрачной и подконтрольной.

IDP: почему важно не вестись на маркетинговые обещания

Решения для интеллектуальной обработки документов (IDP) представляют собой хороший пример маркетинговой стратегии, рассчитанной на неосведомленного клиента. 

Научно-технологического бэкграунда у таких систем нет: ни на ICDAR, ни на какой-либо другой научной конференции в области компьютерного зрения IDP не обсуждается и даже не упоминается.

Под видом интеллектуального процессинга данных системы IDP зачастую предлагают слабую технологию OCR, чьи ошибки маскируются большой языковой моделью. Некачественное распознавание символов сразу делает неэффективной работу с неструктурированными или заполненными от руки документами и приводит к неполному извлечению данных и постоянным ошибкам.

Большие языковые модели в составе IDP-решений позволяют корректировать плохо распознанные данные за счет генеративного искусственного интеллекта, который использует известные ему сочетания слов или цифр. Конечно, сама по себе неточность распознавания не несет серьезной угрозы для бизнеса, однако велик риск, что ошибка распознавания после «исправления» LLM перерастет в ошибку совершенно иного масштаба — искажение смысла в оцифрованном документе. Таким образом, главным источником проблем в этом случае становится интеллектуальный процессинг.

В реальной жизни процессинг встречается регулярно. Например, благодаря обработке из молока можно получить ряженку. Это вполне привычная и, что важнее, предсказуемая процедура. 

Однако если к делу подключается генеративный ИИ с его склонностью к галлюцинациям, предсказуемость исчезает. При работе с первичными, финансовыми, бухгалтерскими и другими деловыми документами любое неподконтрольное действие автоматически становится фактором риска.

Цена галлюцинаций ИИ при работе с документами

Использование больших языковых моделей для ответственных задач, требующих юридическую точность, прозрачность и соответствие установленным требованиям, может стать фатальным для бизнеса. Если IDP-система без ведома пользователя «исправит» цифру в таблице акта сверки или заменит слово в наименовании организации-подрядчика при оцифровке договора, компания столкнется с недостоверной информацией в корпоративной системе.

Рассмотрим конкретные примеры. Произвольное исправление банковских реквизитов может привести к тому, что деньги будут отправлены на чужой счет. Неправильно распозналась цифра в дате — и документ вступил в силу без вашего ведома. Неверно «угаданное» LLM слово в пункте договора способно полностью изменить его смысл и привести бизнес к нарушению обязательств. Все это чревато не просто юридическими ошибками, но может стать поводом для судебных претензий со стороны клиентов, подрядчиков или аудиторов и даже причиной крупных финансовых потерь.

Кроме того, не следует забывать, что системы IDP используют все входящие данные для самообучения, что несет серьезные комплаенс-риски. Причем «извлечение» из большой языковой модели всех обучающих данных сегодня не представляет большой сложности для мошенников. Это ведет к риску утечки корпоративных данных и раскрытия коммерческой тайны. 

При этом, если компании приходится работать с персональными данными, например, информацией паспорта, СНИЛС, ИНН или других удостоверений личности, риски куда более серьезные — вплоть до нарушения федерального закона «О персональных данных» N 152-ФЗ. Штрафы для юрлиц за утечку сегодня достигают 500 млн руб.

На что обратить внимание при выборе системы автоматизации документооборота

Пришло время подвести итоги. Рассмотрим несколько рекомендаций, которые помогут правильно выбрать систему распознавания документов:

  • Лучше внедрять DAR-системы. Только в этом случае можно не переживать о надежности процедуры оцифровки и анализа документов, а решение о необходимости вмешательства в содержание всегда будет приниматься ответственным сотрудником. Это гарантирует полную автоматизацию без каких-либо рисков и угроз для бизнеса.
  • Перед приобретением продукта важно проверить вендора. Создание DAR-систем требует от разработчиков глубокой научной экспертизы в области компьютерного зрения. Как правило, о надежности компании-поставщика технологии распознавания говорит наличие научных исследований, регулярное участие в профильных конференциях или законодательно закрепленное авторство на технологию, подтвержденное соответствующим патентом. 
  • Не стоит полагаться на маркетинговые заявления и обещания «революционных» возможностей LLM. Большие языковые модели создаются совершенно для других целей, поэтому не стоит воспринимать LLM как «волшебную пилюлю», которая сможет помочь в бизнес-процессах компании. Также рекомендуется тщательно изучить, как именно работает система и насколько безопасно ее взаимодействие с данными.

И не забывайте — искусственный интеллект должен работать на пользу человеку, а никак не наоборот.

Что будем искать? Например,ChatGPT

Мы в социальных сетях