Команда разработчиков Kandinsky опубликовала в открытом доступе семейство токенизаторов KVAE-2.0. Эти инструменты предназначены для использования в диффузионных моделях, которые генерируют изображения и видео. Решение распространяется по лицензии MIT, позволяющей применять его как в исследованиях, так и в коммерческих проектах.

Согласно заявлению разработчиков, новая версия позволяет сжимать видео до четырех раз сильнее по сравнению с предыдущей. Утверждается, что при этом качество восстановления изображения не ухудшается, а улучшается. Для исследователей это означает ускорение обучения моделей, повышение качества их работы и снижение требований к вычислительным мощностям.
По ключевым техническим показателям KVAE-2.0, как сообщается, превосходит аналогичные решения компаний Tencent и Alibaba. Особенностью токенизатора является создание семантически устойчивых представлений — кодов, которые точно отражают смысл изображения, включая текст, лица и структурные объекты. Модель также дополнительно обучали для корректной работы с русским текстом в кадре.
Руководитель проекта Денис Димитров отметил, что новый инструмент делает качественную видеогенерацию более доступной для стартапов, университетов и независимых разработчиков. По его словам, это позволяет обучать модели с нуля быстрее и дешевле, не завися от зарубежных решений, а также открывает сценарии от создания рекламных роликов до учебных материалов.