Зачем компании создают «двойники» реальных данных для развития ИИ

Главный ресурс для развития искусственного интеллекта — данные. Но их все еще не хватает, особенно в чувствительных сферах вроде медицины и финансов. Решением становятся синтетические данные — искусственно созданные наборы. Сегодня эту технологию используют компании по всему миру, чтобы быстрее и безопаснее обучать модели ИИ, снижая затраты и снимая риски.

В статье расскажем, как синтетические данные помогают ускорять разработку ИИ, какие возможности открываются перед индустрией и почему Nvidia сделала на этом стратегическую ставку, вложившись в стартап Gretel.

Что такое синтетические данные 

Синтетические данные — это искусственно сгенерированные массивы информации, которые моделируют поведение и закономерности реальных данных. По сути, это инструмент, позволяющий воспроизвести структуру и динамику исходных наборов без прямого копирования конкретных записей. Например:

  • В медицине можно взять обезличенные наборы о симптомах и диагнозах, создать их синтетический аналог и спокойно использовать для обучения алгоритмов без риска раскрыть данные конкретных пациентов.
  • В финансах банки формируют искусственные транзакции, похожие на реальные, чтобы «тренировать» системы по борьбе с мошенничеством.
  • В маркетинге компании создают синтетические портреты клиентов, чтобы тестировать рекламные кампании, не прибегая к настоящим базам пользователей.

Главный плюс таких данных в том, что они ведут себя как настоящие, сохраняют закономерности и статистику, но при этом не нарушают приватность. Это безопасный и гибкий способ масштабировать обучение искусственного интеллекта.

Рост рынка

Рынок синтетических данных демонстрирует впечатляющий рост и привлекает все больше внимания со стороны инвесторов и крупных технологических компаний. По данным Global Market Insights, в 2024 году его объем оценивался примерно в $310,5 млн, а в период с 2025 по 2034 год ожидается среднегодовой темп роста (CAGR) около 35,2%. 

Спрос на синтетические данные стремительно увеличивается, поскольку компании ищут новые способы масштабировать обучение ИИ без риска для конфиденциальности.

Согласно другому отчету Allied Market Research, к 2031 году рынок синтетических данных может достигнуть $3,1 млрд, что подтверждает растущую коммерческую ценность этой технологии. 

Более долгосрочные прогнозы от Research Nester указывают на еще более впечатляющие цифры: к 2037 году рынок может вырасти до $18,24 млрд при среднем CAGR более 36,9%. Такой динамичный рост отражает не только технологический интерес, но и необходимость индустрии ИИ находить новые источники обучающих данных, безопасные и масштабируемые.

Синтетические данные как стратегия Nvidia

Одним из самых заметных шагов в сторону синтетических данных стала покупка Nvidia стартапа Gretel за $320 млн. Компания давно работает на стыке вычислений и искусственного интеллекта, и инвестиция в генерацию данных выглядит логичным продолжением этой стратегии.

Gretel специализируется на создании платформы и API для генерации синтетических наборов — от таблиц и текстов до временных рядов. Суть технологии в том, что данные воспроизводят статистические свойства реальных массивов, но при этом не содержат персональных записей.

В медицине это позволяет работать с «двойниками» историй болезни, в финансах — моделировать транзакции, в государственном секторе — использовать имитацию гражданских баз без риска утечки.

Для разработчиков это инструмент, который открывает пространство для экспериментов: обучать и тестировать ИИ можно на безопасных массивах, которые ведут себя как настоящие. Для Nvidia — способ построить инфраструктуру, где рост искусственного интеллекта не упирается в нехватку или закрытость данных.

Опыт крупных игроков

Nvidia — далеко не единственный игрок, который делает ставку на синтетические данные. Сегодня многие ведущие технологические компании активно интегрируют их в свои разработки, чтобы ускорять обучение ИИ, масштабировать проекты и обеспечивать защиту конфиденциальной информации.

Например, Meta* подключила синтетические данные при обучении своей модели Llama 3* — это позволило расширить набор для обучения, не прибегая к использованию реальных пользовательских данных.

Amazon пошла другим путем: ее платформа Bedrock дает разработчикам возможность генерировать синтетические выборки с помощью модели Claude от Anthropic, что заметно упрощает подготовку данных для обучения.

OpenAI активно применяет синтетические данные для обучения своих GPT-моделей, а Salesforce запустила платформу CRMArena-Pro, где ИИ-агенты можно тестировать в виртуальной среде с синтетическими данными, имитирующими реальные бизнес-ситуации.

И чем активнее компании учатся их использовать, тем быстрее ИИ перестает быть экспериментом и становится рабочим инструментом.

Преимущества и риски

Синтетические данные могут быстро расширять обучающие наборы, не подвергая риску персональную информацию пользователей и клиентов. 

В медицине, например, компания Gretel предлагает готовый синтетический набор, имитирующий данные пациентов — с событиями, симп­томами и диагностикой — который можно использовать для отработки ML-приложений и исследований без риска нарушения приватности.

Другие проекты, например, EVA (Electronic Health Records Variational Autoencoder), умеют генерировать последовательности электронных историй болезни для сотен тысяч пациентов — и исследования показали, что модели, обученные на таких синтетических данных, показывают не хуже, а иногда даже на 8% лучше результаты.

Финансовый сектор тоже активно использует синтетические данные. Например, банки создают искусственные транзакции, которые по статистике почти не отличаются от настоящих. Это помогает тренировать системы по выявлению мошенничества: алгоритмы учатся видеть подозрительные операции на большом объеме данных, не используя при этом реальные истории клиентов. 

В одном из проектов (Conditional GAN) такие синтетические транзакции позволили увеличить точность обнаружения мошенничества и сократить потери почти на 40% — экономия для банка составила десятки миллионов долларов в год.

Но у этой технологии есть и свои подводные камни. Исследование, опубликованное в Nature в 2024 году, показало, что если обучать модели исключительно на синтетических данных, созданных другими моделями, качество ИИ может существенно снизиться. Этот эффект называют Model Autophagy Disorder. Модель начинает повторять собственные ошибки и теряет способность генерировать новые, точные результаты.

Стоит ли использовать  синтетические данные? 

Да, но как дополнение, а не как замену реальным наборам. Синтетика позволяет ускорить обучение моделей, снизить затраты и снять риски, связанные с конфиденциальностью. Но полностью отказаться от «живых» данных нельзя: именно они обеспечивают проверку качества и актуальность моделей. Оптимальным решением становится гибридный подход — сочетание реальных и синтетических выборок, их регулярное обновление и контроль разнообразия.

В таком формате синтетические данные превращаются в инструмент масштабирования: они делают разработку ИИ быстрее, гибче и безопаснее, а компаниям дают пространство для экспериментов и роста без ограничений, связанных с дефицитом информации.

* Meta признана в России экстремистской организацией и запрещена.

Что будем искать? Например,ChatGPT

Мы в социальных сетях