Для обучения алгоритма его создатели использовали 3,1 миллиона кадров 255 человек разного пола, расы и возраста.
В компании Meta* придумали сеть, которая позволяет генерировать анимированные 3D-аватары с помощью камеры смартфона, сообщает издание N+1. Разработка будет представлена на конференции SIGGRAPH 2022. Авторы использовали iPhone 12, чья фронтальная камера помимо RGB-слоя также выдает слой глубины.
Алгоритм состоит из двух основных частей: универсальной сети, выучивающей общую модель головы и мимики, и персонализированной, которая создается на базе первой и выучивает модель для конкретного человека.
Для обучения универсальной сети инженеры использовали сферический стенд с 40 цветными и 50 монохромными камерами. В центре сферы под равномерным освещением во время съемки находился человек. Он должен был выполнить 65 мимических движений, посмотреть глазами в 25 разных направлений, прочитать 50 фонетически сбалансированных предложений и свободно подвигать частями лица.
Авторы отмечают, что пока у алгоритма есть недостатки. Например, после съемки персонализированной сети требуется несколько часов для обучения. Кроме того, модель плохо работает с очками и необычными прическами.
Разработка подобных технологий, во многом, нацелена на их использование в виртуальной реальности. В апреле 2022 года Meta* показала работу алгоритма на прототипе VR-шлема с пятью камерами, направленными на разные части лица. Это позволило алгоритму в реальном времени воссоздавать модель лица, которую можно показывать другим пользователям.
* Российские государственные органы считают компанию экстремистской организацией.