Спустя год после внедрения первой функции генерации изображений, OpenAI выпустила масштабное обновление ChatGPT Images 2.0. Компания позиционирует новую систему не просто как генератор картинок, а как интерактивный творческий инструмент, способный редактировать изображения в процессе диалога и сохранять контекст между изменениями.

ChatGPT Images 2.0, по заявлению компании, решает не только эстетические задачи, но и задачи визуализации сложной информации: объяснение механизмов, проверку идей и обоснование аргументов. Ключевые улучшения включают более точное следование инструкциям, размещение объектов, рендеринг плотного текста и поддержку различных соотношений сторон.
Впервые модель получила возможность рассуждать. При выборе соответствующих настроек в ChatGPT она может искать информацию в интернете в реальном времени, создавать несколько изображений по одному запросу и проверять собственные результаты. Разрешение изображений в API достигает 2K.
Модель теперь лучше работает с нелатинскими шрифтами: японским, корейским, китайским, хинди и бенгальским. Текст на изображениях отображается корректно и становится частью дизайна, что делает инструмент полезным для глобальных задач — от плакатов до комиксов и диаграмм.
Images 2.0 точнее воспроизводит заданные визуальные стили: фотореализм, кинематографичные кадры, пиксельную графику, мангу. Поддерживаются соотношения сторон от 3:1 до 1:3, что позволяет создавать изображения для баннеров, презентаций, мобильных экранов и соцсетей.
В режиме рассуждения модель тратит больше времени на анализ задачи, может искать информацию в интернете и преобразовывать загруженные материалы в визуальные пояснения. Впервые в ChatGPT появилась возможность генерировать до восьми разных изображений за раз с сохранением согласованности персонажей и объектов — для манги, серий концептов или адаптации под разные языки и форматы.
Модель может испытывать трудности с задачами, требующими полной физической симуляции (оригами, кубик Рубика), с очень плотными или повторяющимися деталями, а также с точными схемами и диаграммами. Возможности вывода текста более 2000 символов в API находятся в бета-тестировании и могут давать нестабильные результаты.