Данные как база для прогнозирования: почему ИИ не работает без культуры работы с данными

В России более 60% компаний считают, что искусственный интеллект (ИИ) повышает эффективность бизнеса. Однако, по мнению экспертов, необходимый набор возможностей, которые позволяют зарабатывать на использовании ИИ, есть только у четверти компаний. И один из ключевых факторов получения выгоды от этой технологии — качество данных в вашей организации. Почему это важно и как отличить «хорошие» данные от «плохих», рассказала экспертная группа «Сбер Бизнес Софт».

В России более 60% компаний считают, что искусственный интеллект (ИИ) повышает эффективность бизнеса. Однако, по мнению экспертов, необходимый набор возможностей, которые позволяют зарабатывать на использовании ИИ, есть только у четверти компаний. И один из ключевых факторов получения выгоды от этой технологии — качество данных в вашей организации. Почему это важно и как отличить «хорошие» данные от «плохих», рассказала экспертная группа «Сбер Бизнес Софт».

Данные в основе работы ИИ

Более 60% компаний не уверены в готовности своих данных к внедрению ИИ,  сообщают в Gartner. Нейросети и ML-модели усиливают то, что уже имеется, и если компания закладывает нерелевантную информацию, то не стоит обвинять искусственный интеллект в нерелевантном результате.

Наладить работу с данными бывает непросто. Появление некачественных данных может быть связано с недостатками их архитектуры, с отсутствием культуры управления информацией в компании или же с человеческой ошибкой. В отличие от сбоя системы, проблемы с данными могут быть невидимыми, и в результате организации годами неосознанно работают с некачественной информацией. 

Последствия этого варьируются от отправки документов по неверному адресу до финансовых потерь и ущерба репутации, при этом компания может списывать промахи на то, что «ИИ нельзя доверять».

Данные, которые подходят для обучения ИИ-моделей, должны быть полностью репрезентативными, без каких-либо ошибок, несоответствий и дубликатов. Если данные неточные, они становятся ненадежными и на их основе нельзя принимать правильные решения. Когда информация не оформлена в едином формате, это вызывает путаницу. В итоге модель выдает ошибочные результаты анализа.

Если одни записи в формате «ул. Ленина, д. 108», а другие — «ул. Ленина, дом 108», то модель просто запутается. Дубликаты данных — это еще одна проблема. Они повышают риск предвзятости в результатах. Повторяющиеся записи завышают для модели значимость содержащейся в них информации, и в итоге такие ошибки могут привести к реальным финансовым потерям. Например, в сфере кредитования из-за искаженной информации может быть одобрен заем тому, кто изначально не соответствует требованиям скоринговой модели.

 «Чистые» данные позволяют искусственному интеллекту эффективно обучаться и выполнять стоящие перед ним задачи. Например, в медицинских учреждениях точная информация о пациентах, результаты исследований и истории болезни позволяют нейросетям и моделям ставить диагнозы и давать рекомендации. 

В одной из больниц США внедрили ИИ для диагностики заболеваний на основе данных пациентов. Однако результаты работы решения не устроили компанию. Во время аудита были выявлены пробелы и несоответствия в наборе данных. После того как больница пересмотрела и стандартизировала процессы сбора информации, точность диагностики заболеваний нейросетью выросла на 30%.

Чек-лист зрелости работы с данными

Перед внедрением ИИ-решений стоит проверить, насколько зрелой является культура работы с данными в вашей компании.

Стандарты работы с данными

У сотрудников должны быть четкие правила обновления и проверки данных. В компании должны быть политики управления и стандарты качества информации. 

Доступ к данным должен быть централизованным, а формы ввода и метрики едиными. Например, может использоваться CRM-система (customer relationship management, система управления взаимоотношениями с клиентами), в которой данные из разных источников интегрируются с использованием искусственного интеллекта. 

В таком случае все отделы работают с одной и той же базой, а не с локальными документами — это снижает риск того, что у разных подразделений будут «свои» цифры. Кроме того, такой подход уменьшает объем ручных правок, которые невозможно проконтролировать.

Минимизация ручного ввода

Нужно стремиться к тому, чтобы данные попадали в систему автоматически, например, подгружались из счетов или переписок. Сокращение ручного ввода данных минимизирует вероятность ошибок и ввода неверных данных ради соответствия показателям результативности (KPI).

Регулярные проверки

В компании должен быть налажен процесс проверки введенных данных. Здесь требуется соблюсти баланс: с одной стороны, важно вовремя выявлять ошибки в базе, а с другой — верификация требует дополнительных ресурсов и отдаляет момент, когда данные могут помочь в принятии решений. Особенно важно отслеживать качество информации, если источник или процесс сбора данных меняются.

Очистка данных

Выявлять ошибки и дубликаты данных можно с помощью автоматизированных инструментов очистки. Лучше сделать это на этапах ввода и хранения данных, так как очистка после обнаружения ошибок в моделях ИИ более трудоемкий и дорогостоящий процесс.

Культура работы с данными — приоритет

Вопрос, применять нейросети или нет, в 2026 году уже не стоит — ИИ доступен всем и настолько интегрирован в нашу жизнь, что откатиться назад не получится. Конкурентное преимущество в ближайшие годы будет состоять в том, насколько эффективно в вашей компании используется этот инструмент. И здесь выиграют те организации, где есть многолетняя культура работы с данными и зрелая архитектура управления.

Если же у вас дела обстоят иначе, то организация работы с информацией — задача более важная, чем выбор нового софта на базе ИИ. Определите порядок ввода и форматирования данных, минимизируйте ручной ввод, введите регулярный мониторинг качества данных и проводите обучения для работников. Сегодня вопрос работы с данными перестает быть задачей ИТ-отдела — он должен стать частью корпоративной стратегии и зоной ответственности каждого сотрудника.

Что будем искать? Например,ChatGPT

Мы в социальных сетях