Stability AI выпустила обновление — Stable Diffusion XL 1.0

Разработчики позиционируют новинку Stable Diffusion XL 1.0 (SDXL) как «самую продвинутую» модель для генерации изображений.

Что известно

Стартап Stability AI объявил о выпуске нейросетевой модели преобразования текста в изображении Stable Diffusion XL 1.0 (SDXL). Stable Diffusion XL 1.0 содержит 3,5 млрд параметров и позволяет создавать изображения с разрешением 1 Мп (720p) за считанные секунды.

Детали

Кроме того, Stability AI представила сервис, который создает изображения по эскизам — Stable Doodle. С его помощью небрежные наброски можно превратить в полноценные изображения. Для того, чтобы создать изображение, необходимо нарисовать простой эскиз, ввести промт и выбрать 1 из 14 стилей (аниме, неон, оригами, объемная модель, фэнтези-арт и другое), остальное нейросеть сделает самостоятельно. Попробовать можно по ссылке.

Также Stability выпустили StableSwarmUI. Это модульный веб-интерфейс для Stable Diffusion. Swarm (рой) подразумевает, что большое количество машин будут работать вместе, чтобы сгенерировать для пользователя картинку. В StableSwarm есть несколько слоев, которые работают независимо и их можно кастомизировать: бэкенд, мидл, и фронтенд. Например, установленное расширение может заменить источник генерации на бэкенде, без необходимости менять что-либо еще. Фронт сделан на HTML/JS для полной кастомизации и, чтобы не упираться в ограничения Gradio. Бэкенд написан на C# для максимальной производительности, минимизации сложности кода, а также многопоточности, которой нет в Python. При установке можно выбрать подход к генерации (локально или через API), интерфейс (ComfyUI, A1111, DreamStudio, или другой), загрузить модели (SD 1.5/ 2.1/ SDXL 1.0) и ещё пару вещей. Позже подъедет возможность редактировать изображение, ControlNet и работа с LoRA. Попробовать тут.

Почему это важно

SDXL 1.0 должен эффективно работать на потребительских GPU с 8 ГБ VRAM или на доступных облачных инстансах. SDXL может генерировать концепции, которые, как известно, являются сложными для визуализации моделями изображений, например, руки и текст или пространственные композиции (например, женщина на заднем плане, преследующая собаку на переднем плане).

С SDXL 1.0 дообучение модели под пользовательские данные стала проще, чем когда-либо. Пользовательские LoRA или чекпойнты могут быть сгенерированы с меньшими затратами на данных. Команда Stability AI разрабатывает следующее поколение элементов управления структурой, стилем и составом, специфичных для конкретной задачи, с T2I / ControlNet, специализированных для SDXL. В настоящее время эти функции находятся в стадии предварительной бета-версии, но следите за обновлениями, связанными с их доработкой.

Подписывайтесь на наш Telegram Читать