Несмотря на то, что первые видео от нейросети Make-A-Video получились довольно сюрреалистичными и размытыми, Марк Цукерберг считает проделанную работу над программой «удивительным прогрессом». Дело в том, что создавать видео по текстовому описанию для алгоритма намного сложнее, чем генерировать изображения.
Инженеры по машинному обучению из компании Meta* представили новую нейросеть для генерации видео по текстовому описанию под названием «Make-A-Video». Она позволяет генерировать короткие ролики разного стиля по текстовому описанию, предложенным картинкам и другому видео.
По заявлению создателей, нейросеть была обучена на парах изображений и подписей, а также на миллионах видеороликах. В наборе учебных данных содержится сотни тысяч часов видеоматериала, стоковые ролики и рандомные файлы из всемирной сети.
Make-A-Video умеет выводить 16 кадров с разрешением 64 на 64 пикселя. Затем этот размер увеличивается до масштаба 768 на 768 с помощью отдельной модели. Видео пока что получаются довольно размытыми и сюрреалистичными. Например, в ролике ниже — как нейросеть видит гиперреалистичную посадку космического корабля на Марс.
В компании отмечают, что инструменты для создания видео помогут художникам и создателем контента. Однако когда Meta* предоставит открытый доступ к новой технологии, не сообщается.
[cut]
* Российские государственные органы считают экстремистской организацией.
[/cut]