Без технологии сжатия сложно представить себе современный интернет: она позволяет людям обмениваться высококачественными фото-, видео- и аудиофайлами. Однако доступ к сегодняшним мультимедийным возможностям все равно требует скоростного подключения к Сети и достаточного объема памяти. Разработчики Meta* решили обойти эти ограничения.
Корпорация представила EnCodec — технологию на базе искусственного интеллекта, которая способна сжать аудио в 10 раз сильнее, чем MP3 без потери качества. По словам разработчиков, кодек способен работать с данными в режиме реального времени на одном ярде процессора без ущерба для него.
EnCodec описывается как трехступенчатая система:
- Кодер — преобразует несжатые данные в формат с более низким битрейтом.
- Квантизатор — сжимает данные до необходимого размера, сохраняя самую важную информацию.
- Декодер — преобразует сжатые данные обратно в аудио в режиме реального времени, используя нейронную сеть.
Услышать, как работает новый кодек по сравнению с существующими можно в этом видео.
https://www.youtube.com/watch?v=cLgzXYPo_qg
Meta не единственная, кто придумал использовать нейросети для сжатия и декодирования звука. Однако, по словам разработчиков, они первыми применили ИИ к стереозвуку с частотой дискретизации 48 килогерц – под эту категорию попадают практически все музыкальные CD и большинство музыки в интернете.
* Российские государственные органы считают экстремистской организацией