В открытом доступе появилась новая ИИ-модель Kandinsky для сжатия видео и картинок

Команда разработчиков Kandinsky опубликовала в открытом доступе семейство токенизаторов KVAE-2.0. Эти инструменты предназначены для использования в диффузионных моделях, которые генерируют изображения и видео. Решение распространяется по лицензии MIT, позволяющей применять его как в исследованиях, так и в коммерческих проектах.

В открытом доступе появилась новая ИИ-модель Kandinsky для сжатия видео и картинок

Согласно заявлению разработчиков, новая версия позволяет сжимать видео до четырех раз сильнее по сравнению с предыдущей. Утверждается, что при этом качество восстановления изображения не ухудшается, а улучшается. Для исследователей это означает ускорение обучения моделей, повышение качества их работы и снижение требований к вычислительным мощностям.

По ключевым техническим показателям KVAE-2.0, как сообщается, превосходит аналогичные решения компаний Tencent и Alibaba. Особенностью токенизатора является создание семантически устойчивых представлений — кодов, которые точно отражают смысл изображения, включая текст, лица и структурные объекты. Модель также дополнительно обучали для корректной работы с русским текстом в кадре.

Руководитель проекта Денис Димитров отметил, что новый инструмент делает качественную видеогенерацию более доступной для стартапов, университетов и независимых разработчиков. По его словам, это позволяет обучать модели с нуля быстрее и дешевле, не завися от зарубежных решений, а также открывает сценарии от создания рекламных роликов до учебных материалов.

 

Что будем искать? Например,ChatGPT

Мы в социальных сетях