«Сбер» презентовал нейросеть, генерирующую изображения на основе слов

Искусственный интеллект ruDALL-E от «Сбер» умеет самостоятельно создавать иллюстрации по словесному описанию пользователя. При этом нейросеть понимает слова на русском языке. По словам представителей компании, на сегодняшний день у новой технологии нет аналогов во всем мире.

Новинка ruDALL-E умеет создавать картинки без каких-либо ограничений, при этом одновременно происходит обучение искусственного интеллекта на сервисе ML Space на базе суперкомпьютера «Кристофари». Для обучения нейросети используются два типа данных: картинки и тексты. Благодаря этому искусственный интеллект может создать любое количество новых иллюстраций по заданному описанию.

Всего в создании картинок задействованы три нейросети. Одна обрабатывает слова и вычисляет, сколько изображений можно для них сгенерировать. Вторая нейросеть занимается сортировкой и выбирает среди всех иллюстраций те которые максимально подходят под заданные параметры. И, наконец, третья нейросеть масштабирует изображения без потери качества.

Как рассказали сотрудники «Сбера» обучение ruDALL-E потребовало 23 000 GPU-часов. То есть суммарных часов работы нескольких графических процессоров. Это стало самым масштабным вычислительным проектом для нейросетей в России и странах СНГ. В настоящее время 1,3 миллиарда параметров ruDALL-E XL размещены в свободном доступе на GitHub. Планируется, что уже в ближайшем времени система будет размещена на ML Space в хабе моделей и датасетов DataHub от SberCloud. Туда же планируют поместить и другой вариант нейросети — ruDALL-E 12B с 12 миллиардами параметров.

Ранее OpenAI анонсировала нейросеть DALL-E, которая работала со словами на английском языке. Однако проект так и не появился в открытом доступе.

«Генерация изображений закрывает две важных потребности современного бизнеса — возможность получить уникальную картинку под собственное описание, а также в любой момент создавать необходимое количество licence-free-иллюстраций», — комментирует исполнительный вице-президент «Сбербанка» Давид Рафаловский.

По словам создателей проекта, возможности новой нейросети можно будет задействовать для работы на дизайнерскими и маркетинговыми проектами. Например, с ее помощью можно разрабатывать дизайна интерьеров, создавать стоковые иллюстрации, рекламные продукты, а также использовать при работе над объектами архитектурного и промышленного дизайна.

В настоящее время идет тестирование ruDALL-E. Любой желающий может ввести собственное слово и сгенерировать изображение на официальном сайте проекта. Правда, нужно приготовиться к долгому ожиданию.

Что будем искать? Например,ChatGPT

Мы в социальных сетях