Инструмент Point-E с открытым исходным кодом позволяет создавать 3D-объекты по текстовому запросу. По словам создателей, модель способна за одну-две минуты сгенерировать модель на одном графическом процессоре Nvidia V100.
На данный момент Point-E генерирует 3D-объекты в виде облаков точек в пространстве — так «молодому» искусственному интеллекту легче синтезировать объемные фигуры. Нейросеть состоит из двух моделей: одна отвечает за преобразование текста в изображения, вторая — за создание 3D-модели по картинке. Первая модель, похожая на DALL-E 2 и Stable Diffusion, обучалась на парах «Текст»—«Изображение», а вторая училась на наборах изображений, сопряженных с 3D-объектами.
В «комплекте» к Point-E также идет дополнительная модель, которая преобразует точки в наборы вершин, ребер и граней. Однако пока что она иногда искажает форму объекта или даже стирает части фигуры.
По словам исследователей OpenAI, после обучения на наборе данных из «нескольких миллионов» 3D-объектов и связанных с ними метаданных Point-E может создавать цветные облака точек, которые часто совпадают с текстовыми подсказками. Работает модель, конечно, далеко не идеально. Тем не менее, при получении текстового запроса, например, «очень реалистичная 3D-модель корги», нейросеть может сгенерировать объект, визуально похожий на собаку.
Пока дополнительная модель преобразования точек в сетки находится на этапе доработки, Point-E может использоваться для изготовления объектов реального мира, например, с помощью 3D-печати. В будущем же этот искусственный интеллект сможет легко найти применение в разработке игр и дизайне.