Как и зачем VK запустила массовую виртуальную примерочную

Технологии виртуальной примерки знакомы рынку уже несколько лет, но в реальности ими почти не пользовались. Проблема в том, что красивые демо работали только в лабораторных условиях. В жизни приложение загружается слишком долго, искажает позы, а одежда отображается с ошибками и выглядит неестественно. В социальных сервисах такой опыт не приживался — пользователь закрывает экран, если примерка занимает больше пары секунд или выглядит странно.

VK проанализировала аудиторию и поняла, что пользователи хотят пробовать образы здесь и сейчас, без задержек и искажений. Поэтому компания решила сделать виртуальную примерку не экспериментом, а полноценной функцией внутри VK Mini Apps — быстрой, понятной и массовой. Как создавали примерочную, которая выдает результат за секунду и работает для миллионов пользователей, — рассказываем в кейсе.

Как и зачем VK запустила массовую виртуальную примерочную

Скорость — это эмоция, а не технический параметр

VK — крупная экосистема соцсетей и сервисов, где любое новое решение сразу попадает в поле зрения миллионной аудитории. Если функция подтормаживает хотя бы на секунду, пользователи просто закрывают вкладку. 

С виртуальной примеркой условия были еще жестче. Сервис должен был корректно работать на тысячах фотографий с разными позами, телосложениями, типами одежды, и при этом выдавать результат практически мгновенно. 

VK хотела быстрые генерации (не более одной секунды на изображение) и реалистичный результат, без артефактов, «женских» анатомических добавлений для мужчин и искажений позы. Были и дополнительные ограничения: 

  • короткие сроки на R&D и прототип;
  • работа в закрытом, безопасном контуре VK;
  • соответствие стандартам приватности фото;
  • интеграция с внутренними сервисами экосистемы;
  • оптимизация под разумные вычислительные ресурсы;
  • корректная работа с одеждой разных брендов, типами фигур и пользовательскими позами.

Для реализации проекта компания обратилась к ZeBrains — технологической команде, которая специализируется на генеративных моделях, компьютерном зрении и построении сложных ML-систем под корпоративные задачи. В портфолио разработчика — проекты для ритейла, финансового сектора, промышленности, медицины и ИТ. 

Ранее ZeBrains уже реализовывала системы распознавания и сортировки материалов с точностью выше 87%, сервисы поиска объектов по визуальным признакам, а также цифровых ассистентов для работы с документами, которые уже сократили время обработки задач на 80% и т.д. 

Разработчик умеет работать с точными моделями, большими объемами данных и высокими нагрузками — эти компетенции и были необходимы для создания масштабируемой виртуальной примерочной.

«VK сразу обозначил, что в социальном продукте скорость — это эмоция, а не технический параметр. Даже 10 секунд — это потерянный пользователь. Это заставило полностью пересмотреть подход, отказаться от некоторых «классических» решений и буквально выжать максимум из архитектуры и модели».

Степан Игонин, руководитель отдела развития ИИ ZeBrains

Для ZeBrains это означало не просто сделать точный ML-пайплайн, а создать систему, которая выдержит реальный масштаб VK — миллионы пользователей и бесконечное разнообразие фотографий.

От 5 минут до 1 секунды

Работа над виртуальной примерочной началась с исследовательского этапа. Команде ZeBrains нужно было понять, возможна ли в принципе массовая VTO с реалистичным результатом и секундной скоростью. 

Инженеры протестировали архитектуры Outfit/AnimateAnyone, комбинированные пайплайны с ControlNet и разные модели сегментации и убедились, что готовые решения слишком медленные, зависимы от качества датасета и дают артефакты на реальных пользовательских позах. Поэтому систему решили строить с нуля и сразу под требования VK.

Самым трудным оказался не выбор модели, а работа с данными. Общедоступные наборы изображений для виртуальной примерки в основном содержат фото стройных людей в простых и статичных позах. Из-за этого алгоритм, не видя всего разнообразия тел и движений, начинал «фантазировать» и искажать анатомию на новых фотографиях: 

«У мужчин появлялась грудь, у женщин — нереалистичные пропорции, одежда «залипала» на тело, а некоторые позы приводили к артефактам на руках, талии или плечах. Артефакты преследовали нас на протяжении всего R&D. Практически каждый новый тип одежды открывал дополнительные слабые места модели, например, неправильные складки ткани, «смазанная» геометрия, рваные края, искажения в области ключевых точек тела».

Степан Игонин, руководитель отдела развития ИИ ZeBrains

Чтобы решить это, команде пришлось собрать собственный сбалансированный датасет с разными телосложениями, позами, гендерами и ракурсами вручную. Кроме того, нужно было пересобрать маски, улучшить human parsing, выделить проблемные зоны и переобучить модель, включая использование LoRA-адаптаций под разные типы одежды. Только после этого генерации стали стабильными. 

Параллельно команда проектировала архитектуру. VTO-система превратилась в набор из девяти микросервисов, каждый отвечал за свою часть цепочки — от препроцессинга изображений и выделения тела до формирования латентов (промежуточного представления изображения) и запуска диффузионной модели. Такой подход позволил параллелить вычисления, изолировать слабые места и добиться целевой скорости в одну секунду, чего было бы невозможно достичь в монолитном решение. 

Ключевым элементом этой цепочки стала кастомная модификация Stable Diffusion, созданная без использования ControlNet. ZeBrains разработали свою сегментацию, keypoint-детекцию, индивидуальные маски и обучили модель на собственном датасете. За счет этого скорость генерации снизили с пяти минут до секунды уже на этапе прототипа. 

Над проектом со стороны ZeBrains работали 10–12 человек — ML-инженеры, MLOps, backend, frontend, дизайнеры, проектный менеджер, а со стороны VK — продакт-команда, техлиды VK Mini Apps и специалисты по интеграциям, отвечающие за безопасность и работу в экосистеме. 

На весь путь ушло около полугода. В первый месяц команды проводили исследования и разрабатывали веб-демо, а оставшееся время отвели на интеграции, оптимизацию, настройку бренд зон и подготовку системы к реальной пользовательской нагрузке.

Виртуальная примерочная, как часть повседневности 

Так появилась итоговая версия виртуальной примерочной. Ее пользователи могут примерять верх и низ одежды от десятков брендов, комбинировать вещи разных производителей, менять тип и объект примерки, переключать пол для корректной генерации, удалять данные, создавать образы и делиться ими. А команда VK может отслеживать аналитику в административной панели. 

Главным достижением кейса стала скорость. Цепочку генерации довели до одной секунды за счет оптимизации диффузионной модели, отказа от тяжелых ControlNet-компонентов, собственного пайплайна сегментации и архитектуры из независимых микросервисов. Это позволило выдерживать высокую нагрузку и подтвердило гипотезу VK о том, что VTO может быть частью повседневного пользовательского поведения. На данный момент: 

  • сервисом воспользовались 60 959 человек;
  • было зафиксировано 97 203 запуска;
  • примерочная охватила 8,8 млн брендов.

«Скорость в 1 секунду — важнейшее достижение, но оно было бы ничем без качества. Когда модель перестала «ломать» людей и начала адекватно работать вне лабораторных условий, стало ясно, что VTO можно масштабировать. И именно этот момент — когда продукт стал давать стабильно реалистичный результат — мы считаем главным». 

Степан Игонин, руководитель отдела развития ИИ ZeBrains

Проект стал частью стратегии VK по развитию fashion-направления. Виртуальная примерочная доказала, что может работать устойчиво на массовой аудитории и создавать ценность одновременно для пользователей, брендов и самой платформы.

Планы на будущее

Развитие сервиса уже заложено в дорожную карту. Команда VK планирует расширить ассортимент до обуви и аксессуаров, проработать многослойные образы, 3D-компоненты и динамическую визуализацию ткани, а также подготовить рекомендательные механики и «умный гардероб». 

ZeBrains продолжает сопровождать сервис — обновляет модели и датасет, следит за стабильностью, устраняет артефакты и помогает VK подключать новые бренды и выдерживать растущую нагрузку. 

«E-commerce становится все более персонализированным, и AI-примерочные — лишь первый шаг. В ближайшие годы магазины перестанут быть статичными каталогами. Каждый пользователь будет видеть свои образы и рекомендации, сформированные ИИ. Карточка товара превратится в интерактивный визуальный опыт, а покупка будет происходить через «вижу на себе → выбираю → оформляю» в одном сценарии. В перспективе AI приведет к тому, что онлайн-шоппинг станет не просто удобнее — он станет личным, визуальным и эмоциональным опытом для каждого пользователя».

Рамиль Зайнеев, генеральный директор ZeBrains

Масштабируемые и быстрые ИИ-инструменты, подобные этой примерочной, постепенно превращают онлайн-шопинг из статичного каталога в интерактивный и персонализированный опыт.

Что будем искать? Например,ChatGPT

Мы в социальных сетях