«Яндекс» представил ультрамалую ИИ-модель для носимых ИИ-устройств

Компания «Яндекс» разработала ультрамалую нейросетевую модель для голосовой активации в носимых устройствах. Размер модели составляет около 200 КБ — меньше объема одной фотографии на смартфоне — что позволяет ей работать локально на компактных гаджетах без потери качества распознавания и без существенного расхода заряда батареи.

«Яндекс» представил ультрамалую ИИ-модель для носимых ИИ-устройств

Подход к голосовой активации в носимых устройствах, таких как наушники или умные часы, принципиально отличается от подхода, используемого в умных колонках или смартфонах. Компактные гаджеты имеют жесткие ограничения по емкости аккумулятора, объему памяти и вычислительной мощности процессора. При этом система голосовой активации должна постоянно анализировать звуковой поток в режиме реального времени, обрабатывать его локально, не отправляя данные в облако, и при этом не создавать заметной нагрузки на устройство, чтобы не сокращать время его автономной работы.

Для решения этой задачи инженеры «Яндекса» разработали двухэтапную систему обработки аудиосигнала. На первом этапе легкая, малозатратная модель определяет, есть ли в звуковом потоке речь. Эта модель практически не нагружает устройство. И только если речь обнаружена, запускается основная нейросеть, которая проверяет, была ли произнесена ключевая команда активации. Такой подход позволяет снизить постоянные вычислительные затраты и экономить энергию.

Команда сократила количество параметров основной нейросетевой модели примерно в 10 раз — за счет применения более компактной архитектуры, требующей меньше вычислений. Это позволило выполнять распознавание голосовой команды локально, без постоянной передачи аудиопотока в облачные сервера, что дополнительно снижает энергопотребление и уменьшает задержку при обработке команд.

Еще одним решением стало использование чипов с NPU — специализированным нейропроцессором, который ускоряет вычисления нейросетей с меньшим энергопотреблением по сравнению с обычным центральным процессором. Предложенный подход может применяться в различных устройствах, требующих обработки речи в реальном времени, включая наушники, умные часы и другие компактные носимые гаджеты с функциями искусственного интеллекта.

Что будем искать? Например,ChatGPT

Мы в социальных сетях