В Microsoft создают адаптивную систему объёмного звука

Реалистичный звук мог бы стать отличным дополнением для систем виртуальной реальности, подобных Oculus Rift. Пока всё внимание их разработчиков сосредоточено на повышении детальности изображения, скудная звуковая картина и лёгкая рассинхронизация изрядно портят впечатление. Новая технология объёмного звучания от Microsoft призвана решить эту проблему. Она рассчитывает изменение относительного положения каждого источника звука. Программа учитывает даже те из них, которые в данный момент находится вне поля зрения. Постоянная подстройка звуковой панорамы происходит по мере движений игрока, выполнения им поворотов и наклонов головы.

Секрет в том, что перед началом работы пользователь, расположившись в наушниках перед датчиком движения Kinect, калибрует систему. Программа строит трёхмерную модель головы и постоянно пересчитывает звуковую картину, приводя её в соответствие с положением игрока. Это сильно отличается от простейших алгоритмов балансировки громкости правого и левого канала, когда трудно уловить разницу между объектом впереди и позади человека. Данную проблему хорошо иллюстрирует следующий видеоролик.

Новая методика Microsoft может использоваться для систем как виртуальной, так и дополненной реальности. Чтобы показать это наглядно, в исследовательском центре Microsoft создали испытательную комнату, наполненную физическими моделями разных объектов. Среди них были как простейшие (картонные макеты), так и довольно сложные (чучела животных). Во время демонстрации прототипа на территории кампуса в Кремниевой долине присутствовал редактор издания MIT Technology Review, которого впечатлил уровень создаваемой реалистичности звучания.

«Я надел пару беспроводных наушников, и демонстрационные объекты вокруг меня буквально ожили, – комментирует свои ощущения Том Саймонайт (Tom Simonite). — Казалось, что голос действительно исходит из картонной модели рации, а имитация музыкального центра Hi-Fi звучала очень убедительно. Даже чучело птицы щебетало реалистично — как живая птица, парящая над землёй. Когда я стал ходить по комнате, звуки изменялись настолько естественно, что иллюзия ни на секунду не покидала меня. Положение объектов и звук от них передавались очень точно».

Перспективная технология объёмного звучания от Microsoft использует новую реализацию хорошо известного эффекта под названием HRTF (head related transfer function). Его суть в том, что характер воспринимаемого человеком звука зависит от формы его ушей и от того, как расположена голова. Пытаясь лучше расслышать что-то, мы рефлекторно поворачиваем голову, направляя ухо в сторону источника. В виртуальной реальности этот приём пока не работает.

Упрощённая оценка эффектов HRTF (по материалам: theheadphonelist.com).

Максимум, что способны учитывать системы 3D-аудио сейчас, — это примерное направление. Однако если аудиосистему запрограммировать на корректировку звука с учётом индивидуальных анатомических параметров и движений головы, то даже с парой наушников она сможет обмануть человека и заставить его воспринимать звук так, как если бы он действительно исходил из определённой точки пространства.

Четырёхканальный HRTF-микрофон (фото: Sonic Studios).

До настоящего времени основная техническая проблема подобных систем была в том, что данные HRTF крайне сложно считывать в режиме реального времени. Не было ни подходящих сенсоров, ни программных алгоритмов. Перед звуковыми проекторами приходилось сидеть неподвижно, а наушники с функцией 3D-звучания чаще оказывались маркетинговой уловкой, чем работающей системой.

Сколько тестовых систем ни перепробовали исследователи ранее — результат получался компромиссным, а универсальности достичь не удавалось.

Наиболее точный способ предполагал использование массива направленных микрофонов, которые фиксировали то, что именно достигает ушей человека. Аналогичным образом располагался десяток–другой динамиков. Проблема была в том, что установка получалась слишком сложной, громоздкой и непригодной для использования вне лабораторий.

Установка для изучения HRTF. На дуге с радиусом 1,6 м установлено 19 динамиков. Ошибка позиционирования источника звука составляет менее половины градуса (фото: University of Southampton). — Установка для изучения HRTF.
На дуге с радиусом 1,6 м установлено 19 динамиков. Ошибка позиционирования источника звука составляет менее половины градуса (фото: University of Southampton).

Разработчики видеоигр каждый год создавали упрощённые модели систем объёмного звучания с частичным использованием HRTF, но их приходилось перенастраивать каждый раз, и большинству людей они просто не подошли.

На продолжение попыток в этом направлении группу из Microsoft Research вдохновил контроллер Kinect, который давно применяют для захвата движений с самими разными целями. «Компьютерра» уже писала о таком его использовании, как управление космическими роботами и охрана государственных границ. Его применение для более точной передачи звука — ещё один интересный и органичный аспект.

Авторами этого алгоритма стали программист Дэвид Джонстон (David Johnston) и бывший доцент Технического университета Софии Иван Ташев, ныне занимающий в исследовательском центре Microsoft должность главного разработчика.

Иван Ташев (слева) и Дэвид Джонстон (по материалам: MIT / microsoft.com).

Новую технологию высоко оценил профессор Кентерберийского университета (Новая Зеландия) Марк Биллингхёрст (Mark Billinghurst), руководящий лабораторией человеко-машинных интерфейсов.

По его словам, разработанный в Microsoft подход может оказать огромное влияние на множество современных направлений в ИТ, если процесс сканирования будет достаточно быстрым и точным. Технологию можно будет адаптировать даже для мобильной и носимой электроники, добавив ей новые персональные черты.

К примеру, часто окружающие слышат мелодию смартфона раньше, чем его владелец реагирует на звонок, а эффекты в играх кажутся слишком громкими всем, кроме самого игрока. Более точная звуковая картина решит проблему позиционирование звука, также облегчив использование «умных» часов, Google Glass и других гаджетов.

«Вероятно, в случае мобильного применения не стоит ожидать таких точных результатов, как от реализации HRTF в комнате, где пользователь находится перед большим контроллером, — говорит Биллингхёрст. — Однако это всё ещё может оказаться намного лучше альтернативных схем, предлагаемых сегодня в мобильных играх и других сферах».

Пока новая система проходит этап расширенного тестирования. Выполнено точное сканирование головы двухсот пятидесяти добровольцев. Эти цифровые модели используются для создания первого приближения при работе с новым пользователем. В результате такой уловки в большинстве случаев характеристики HRTF получаются изначально достаточно хороши, чтобы точно позиционировать источники звука в пространстве.

«По сути, мы можем предсказывать то, как вы услышите звук, анализируя вашу пространственную модель, – поясняет Иван Ташев. – Мы моделируем физический процесс распространения звука вокруг вашей головы и знаем, что именно достигнет ваших ушей».

В настоящее время коллектив работает над совершенствованием алгоритмов захвата движения. Основная цель — сделать их в достаточной степени точными и быстрыми. В идеале запаса скорости должно хватать, чтобы рассчитывать корректировку звука быстрее, чем человек перед контроллером Kinect может изменить своё положение.