Nvidia выпустила нейросеть для генерации видео

NVIDIA представила нейросеть для создания коротких видео по текстовому описанию.

Источник: https://research.nvidia.com/labs/toronto-ai/VideoLDM/

Что известно

Усовершенствованная нейросеть позволяет создавать ролики до 5 секунд в разрешении до 2048х1280 пикселей и с частотой 24 fps. Алгоритмы генерируют видео на основе как простых текстовых запросов вроде «медведь плывет», так и на базе более сложных, например, «рысь в лесу играет на рояле, пригласив лесных зверей на концерт». Клипы пока что получаются небольшими, но детализированными. На сайте есть вся информация по ИИ, а тут примеры, уже созданные нейросеткой от Nvidia.

Однако для широких масс нейросеть пока недоступна, но обещают открыть доступ в скором времени.

Почему это важно

Latent Diffusion Models (LDMs) позволяют синтезировать высококачественные изображения, избегая при этом чрезмерных вычислительных затрат за счет обучения диффузионной модели в сжатом низкоразмерном латентном пространстве. Компания применяет LDM для генерации видео высокого разрешения, что является особенно ресурсоемкой задачей. Сначала они предварительно обучают LDM только на изображениях, а затем превращают генератор изображений в генератор видео путем введения временного измерения в модель диффузии латентного пространства и точной настройки на закодированных последовательностях изображений, т.е. видео.

 

Что будем искать? Например,ChatGPT

Мы в социальных сетях