Нейросеть научилась рисовать образы по сложному описанию

Группа Microsoft Research представила генеративно-состязательную нейросеть, которая способна генерировать изображения с несколькими объектами на основе текстового описания, пишет IKSMEDIA.

В отличие от более ранних подобных text-to-image алгоритмов, способных воспроизводить изображения только базовых объектов, эта нейросеть может справляться со сложными описаниями более качественно.

Сложность создания подобного алгоритма заключалась в том, что, во-первых, ранее бот был не способен в хорошем качестве воссоздавать все базовые объекты по их описаниям, и, во-вторых, не мог проанализировать то, как несколько объектов могут относиться друг к другу в рамках одной композиции. Эти проблемы удалось решить, обучив нейросеть на основе открытого дата-сета COCO, содержащего разметку и данные сегментации для более 1,5 млн объектов.

В основе алгоритма лежит объектно-ориентированная генеративно-состязательная нейросеть ObjGAN (Object-driven Attentive Generative Adversarial Newtorks). Она анализирует текст, выделяя из него слова-объекты, которые необходимо расположить на изображении.

В отличие от обычной генеративно-состязательной сети, состоящей из одного генератора, который создает изображения, и одного дискриминатора, который оценивает качество сгенерированных изображений, ObjGAN содержит два различных дискриминатора. Один анализирует, насколько реалистичен каждый из воспроизведенных объектов и насколько он соответствует имеющемуся описанию. Второй определяет, насколько вся композиция реалистична и соотносится с текстом.

Предшественником алгоритма ObjGAN стал AttnGAN, также разработанный исследователями Microsoft. Он способен генерировать изображения объектов по более простым текстовым описаниям. Технология преобразования текста в изображения может применяться для помощи дизайнерам и художникам в создании эскизов. Алгоритм ObjGAN находится в открытом доступе на GitHub.

Тем временем интеллектуальные алгоритмы решают и более практические задачи. На днях Microsoft представила четыре новых расширения для инструмента «Конструктор» в PowerPoint. Все они работают на основе технологии искусственного интеллекта и автоматически генерируют варианты дизайна, значительно упрощая и оптимизируя рабочие процессы.

Искусственный интеллект в PowerPoint поможет сотрудникам:

  • Быстрее находить идеи для оформления. Теперь после добавления ключевых слов на пустой шаблон презентации, «Конструктор» в Power Point будет предлагать подборку высококачественных фотографий, отражающих смысл введенного сообщения, а также варианты стилей, тем и цветового оформления. Эта функция уже доступна для подписчиков Office 365 и поддерживают 20 языков, в том числе русский.
  • Придерживаться корпоративного стиля. Сотрудники компаний будут получать от «Конструктора» рекомендации по оформлению презентаций в соответствии с фирменным стилем компании, а также с учетом предыдущих сохраненных шаблонов. В настоящее время функция доступна подписчикам Office 365 Insiders на Windows 10 и Mac. «Конструктор» PowerPoint для корпоративных шаблонов доступен на всех языках, которые поддерживает Office (включая русский).
  • Наглядно иллюстрировать свои мысли. Новая функция Perspective Engine в «Конструкторе» автоматически распознает в презентации сложные для восприятия большие числа и помогает проиллюстрировать их примерами. Это позволяет сделать информацию понятнее, а докладчику – эффектнее представить свой проект. Расширение разработано исследовательским подразделением Microsoft Research. В настоящее время оно доступно для подписчиков Office 365 на английском языке. Поддержка других языков появится позже.
  • Эффективнее подготовиться к презентации своего проекта. Функция Presenter Coach позволяет активировать режим репетиции выступления: во время проговаривания презентации пользователь видит на экране статистику скорости речи, уведомления об использовании слов-паразитов и ненормативной лексики, и даже замечания о том, что он просто читает текст со слайда, если такое происходит. В конце каждой репетиции докладчик получает подробный отчет для дополнительной практики. Presenter Coach будет доступен на английском языке в веб-версии PowerPoint летом 2019 года. Количество поддерживаемых языков в ближайшее время будет увеличено.

«Конструктор» появился в приложении в 2018 году, а уже к апрелю 2019-го с помощью него был создан 1 миллиард слайдов.

Что будем искать? Например,ChatGPT

Мы в социальных сетях