Главный ресурс для развития искусственного интеллекта — данные. Но их все еще не хватает, особенно в чувствительных сферах вроде медицины и финансов. Решением становятся синтетические данные — искусственно созданные наборы. Сегодня эту технологию используют компании по всему миру, чтобы быстрее и безопаснее обучать модели ИИ, снижая затраты и снимая риски.
В статье расскажем, как синтетические данные помогают ускорять разработку ИИ, какие возможности открываются перед индустрией и почему Nvidia сделала на этом стратегическую ставку, вложившись в стартап Gretel.
Что такое синтетические данные
Синтетические данные — это искусственно сгенерированные массивы информации, которые моделируют поведение и закономерности реальных данных. По сути, это инструмент, позволяющий воспроизвести структуру и динамику исходных наборов без прямого копирования конкретных записей. Например:
- В медицине можно взять обезличенные наборы о симптомах и диагнозах, создать их синтетический аналог и спокойно использовать для обучения алгоритмов без риска раскрыть данные конкретных пациентов.
- В финансах банки формируют искусственные транзакции, похожие на реальные, чтобы «тренировать» системы по борьбе с мошенничеством.
- В маркетинге компании создают синтетические портреты клиентов, чтобы тестировать рекламные кампании, не прибегая к настоящим базам пользователей.
Главный плюс таких данных в том, что они ведут себя как настоящие, сохраняют закономерности и статистику, но при этом не нарушают приватность. Это безопасный и гибкий способ масштабировать обучение искусственного интеллекта.
Рост рынка
Рынок синтетических данных демонстрирует впечатляющий рост и привлекает все больше внимания со стороны инвесторов и крупных технологических компаний. По данным Global Market Insights, в 2024 году его объем оценивался примерно в $310,5 млн, а в период с 2025 по 2034 год ожидается среднегодовой темп роста (CAGR) около 35,2%.
Спрос на синтетические данные стремительно увеличивается, поскольку компании ищут новые способы масштабировать обучение ИИ без риска для конфиденциальности.
Согласно другому отчету Allied Market Research, к 2031 году рынок синтетических данных может достигнуть $3,1 млрд, что подтверждает растущую коммерческую ценность этой технологии.
Более долгосрочные прогнозы от Research Nester указывают на еще более впечатляющие цифры: к 2037 году рынок может вырасти до $18,24 млрд при среднем CAGR более 36,9%. Такой динамичный рост отражает не только технологический интерес, но и необходимость индустрии ИИ находить новые источники обучающих данных, безопасные и масштабируемые.
Синтетические данные как стратегия Nvidia
Одним из самых заметных шагов в сторону синтетических данных стала покупка Nvidia стартапа Gretel за $320 млн. Компания давно работает на стыке вычислений и искусственного интеллекта, и инвестиция в генерацию данных выглядит логичным продолжением этой стратегии.
Gretel специализируется на создании платформы и API для генерации синтетических наборов — от таблиц и текстов до временных рядов. Суть технологии в том, что данные воспроизводят статистические свойства реальных массивов, но при этом не содержат персональных записей.
В медицине это позволяет работать с «двойниками» историй болезни, в финансах — моделировать транзакции, в государственном секторе — использовать имитацию гражданских баз без риска утечки.
Для разработчиков это инструмент, который открывает пространство для экспериментов: обучать и тестировать ИИ можно на безопасных массивах, которые ведут себя как настоящие. Для Nvidia — способ построить инфраструктуру, где рост искусственного интеллекта не упирается в нехватку или закрытость данных.
Опыт крупных игроков
Nvidia — далеко не единственный игрок, который делает ставку на синтетические данные. Сегодня многие ведущие технологические компании активно интегрируют их в свои разработки, чтобы ускорять обучение ИИ, масштабировать проекты и обеспечивать защиту конфиденциальной информации.
Например, Meta* подключила синтетические данные при обучении своей модели Llama 3* — это позволило расширить набор для обучения, не прибегая к использованию реальных пользовательских данных.
Amazon пошла другим путем: ее платформа Bedrock дает разработчикам возможность генерировать синтетические выборки с помощью модели Claude от Anthropic, что заметно упрощает подготовку данных для обучения.
OpenAI активно применяет синтетические данные для обучения своих GPT-моделей, а Salesforce запустила платформу CRMArena-Pro, где ИИ-агенты можно тестировать в виртуальной среде с синтетическими данными, имитирующими реальные бизнес-ситуации.
И чем активнее компании учатся их использовать, тем быстрее ИИ перестает быть экспериментом и становится рабочим инструментом.
Преимущества и риски
Синтетические данные могут быстро расширять обучающие наборы, не подвергая риску персональную информацию пользователей и клиентов.
В медицине, например, компания Gretel предлагает готовый синтетический набор, имитирующий данные пациентов — с событиями, симптомами и диагностикой — который можно использовать для отработки ML-приложений и исследований без риска нарушения приватности.
Другие проекты, например, EVA (Electronic Health Records Variational Autoencoder), умеют генерировать последовательности электронных историй болезни для сотен тысяч пациентов — и исследования показали, что модели, обученные на таких синтетических данных, показывают не хуже, а иногда даже на 8% лучше результаты.
Финансовый сектор тоже активно использует синтетические данные. Например, банки создают искусственные транзакции, которые по статистике почти не отличаются от настоящих. Это помогает тренировать системы по выявлению мошенничества: алгоритмы учатся видеть подозрительные операции на большом объеме данных, не используя при этом реальные истории клиентов.
В одном из проектов (Conditional GAN) такие синтетические транзакции позволили увеличить точность обнаружения мошенничества и сократить потери почти на 40% — экономия для банка составила десятки миллионов долларов в год.
Но у этой технологии есть и свои подводные камни. Исследование, опубликованное в Nature в 2024 году, показало, что если обучать модели исключительно на синтетических данных, созданных другими моделями, качество ИИ может существенно снизиться. Этот эффект называют Model Autophagy Disorder. Модель начинает повторять собственные ошибки и теряет способность генерировать новые, точные результаты.
Стоит ли использовать синтетические данные?
Да, но как дополнение, а не как замену реальным наборам. Синтетика позволяет ускорить обучение моделей, снизить затраты и снять риски, связанные с конфиденциальностью. Но полностью отказаться от «живых» данных нельзя: именно они обеспечивают проверку качества и актуальность моделей. Оптимальным решением становится гибридный подход — сочетание реальных и синтетических выборок, их регулярное обновление и контроль разнообразия.
В таком формате синтетические данные превращаются в инструмент масштабирования: они делают разработку ИИ быстрее, гибче и безопаснее, а компаниям дают пространство для экспериментов и роста без ограничений, связанных с дефицитом информации.
* Meta признана в России экстремистской организацией и запрещена.

