Alibaba представляет сервис Live Avatar, предназначенный для генерации интерактивных видео с цифровыми аватарами в реальном времени. Система работает в потоковом режиме и способна создавать видео неограниченной продолжительности.

В основе технологии лежит диффузионная модель с 14 миллиардами параметров. Она обеспечивает генерацию видео со скоростью 20 кадров в секунду, используя для этого пять графических процессоров H800. Ключевой особенностью является поддержка поблочной авторегрессионной обработки, что позволяет создавать потоковое видео длительностью до 10 000 секунд и более, что эквивалентно почти трем часам.
Live Avatar обеспечивает взаимодействие в реальном времени: пользователи могут вести естественные беседы через микрофон и камеру, получая мгновенную визуальную обратную связь в виде реакции аватара. Система поддерживает как реалистичные человеческие образы, так и мультяшные персонажи, сохраняя качество и идентичность на протяжении всего видео.
Технология интегрирована с языковой моделью Qwen3-Omni для создания полностью интерактивных диалоговых агентов. На данный момент для тестирования доступен двухминутный диалог на сайте компании.
