Реалистичный звук мог бы стать отличным дополнением для систем виртуальной реальности, подобных Oculus Rift. Пока всё внимание их разработчиков сосредоточено на повышении детальности изображения, скудная звуковая картина и лёгкая рассинхронизация изрядно портят впечатление. Новая технология объёмного звучания от Microsoft призвана решить эту проблему. Она рассчитывает изменение относительного положения каждого источника звука. Программа учитывает даже те из них, которые в данный момент находится вне поля зрения. Постоянная подстройка звуковой панорамы происходит по мере движений игрока, выполнения им поворотов и наклонов головы.

Секрет в том, что перед началом работы пользователь, расположившись в наушниках перед датчиком движения Kinect, калибрует систему. Программа строит трёхмерную модель головы и постоянно пересчитывает звуковую картину, приводя её в соответствие с положением игрока. Это сильно отличается от простейших алгоритмов балансировки громкости правого и левого канала, когда трудно уловить разницу между объектом впереди и позади человека. Данную проблему хорошо иллюстрирует следующий видеоролик.

Новая методика Microsoft может использоваться для систем как виртуальной, так и дополненной реальности. Чтобы показать это наглядно, в исследовательском центре Microsoft создали испытательную комнату, наполненную физическими моделями разных объектов. Среди них были как простейшие (картонные макеты), так и довольно сложные (чучела животных). Во время демонстрации прототипа на территории кампуса в Кремниевой долине присутствовал редактор издания MIT Technology Review, которого впечатлил уровень создаваемой реалистичности звучания.

«Я надел пару беспроводных наушников, и демонстрационные объекты вокруг меня буквально ожили, – комментирует свои ощущения Том Саймонайт (Tom Simonite). – Казалось, что голос действительно исходит из картонной модели рации, а имитация музыкального центра Hi-Fi звучала очень убедительно. Даже чучело птицы щебетало реалистично – как живая птица, парящая над землёй. Когда я стал ходить по комнате, звуки изменялись настолько естественно, что иллюзия ни на секунду не покидала меня. Положение объектов и звук от них передавались очень точно».

Перспективная технология объёмного звучания от Microsoft использует новую реализацию хорошо известного эффекта под названием HRTF (head related transfer function). Его суть в том, что характер воспринимаемого человеком звука зависит от формы его ушей и от того, как расположена голова. Пытаясь лучше расслышать что-то, мы рефлекторно поворачиваем голову, направляя ухо в сторону источника. В виртуальной реальности этот приём пока не работает.

Упрощённая оценка эффектов HRTF (по материалам: theheadphonelist.com).
Упрощённая оценка эффектов HRTF (по материалам: theheadphonelist.com).

Максимум, что способны учитывать системы 3D-аудио сейчас, – это примерное направление. Однако если аудиосистему запрограммировать на корректировку звука с учётом индивидуальных анатомических параметров и движений головы, то даже с парой наушников она сможет обмануть человека и заставить его воспринимать звук так, как если бы он действительно исходил из определённой точки пространства.

Четырёхканальный HRTF-микрофон (фото: Sonic Studios).
Четырёхканальный HRTF-микрофон (фото: Sonic Studios).

До настоящего времени основная техническая проблема подобных систем была в том, что данные HRTF крайне сложно считывать в режиме реального времени. Не было ни подходящих сенсоров, ни программных алгоритмов. Перед звуковыми проекторами приходилось сидеть неподвижно, а наушники с функцией 3D-звучания чаще оказывались маркетинговой уловкой, чем работающей системой.

Сколько тестовых систем ни перепробовали исследователи ранее – результат получался компромиссным, а универсальности достичь не удавалось.

Наиболее точный способ предполагал использование массива направленных микрофонов, которые фиксировали то, что именно достигает ушей человека. Аналогичным образом располагался десяток–другой динамиков. Проблема была в том, что установка получалась слишком сложной, громоздкой и непригодной для использования вне лабораторий.

Установка для изучения HRTF. На дуге с радиусом 1,6 м установлено 19 динамиков. Ошибка позиционирования источника звука составляет менее половины градуса (фото: University of Southampton).
Установка для изучения HRTF.
На дуге с радиусом 1,6 м установлено 19 динамиков. Ошибка позиционирования источника звука составляет менее половины градуса (фото: University of Southampton).

Разработчики видеоигр каждый год создавали упрощённые модели систем объёмного звучания с частичным использованием HRTF, но их приходилось перенастраивать каждый раз, и большинству людей они просто не подошли.

На продолжение попыток в этом направлении группу из Microsoft Research вдохновил контроллер Kinect, который давно применяют для захвата движений с самими разными целями. «Компьютерра» уже писала о таком его использовании, как управление космическими роботами и охрана государственных границ. Его применение для более точной передачи звука – ещё один интересный и органичный аспект.

Авторами этого алгоритма стали программист Дэвид Джонстон (David Johnston) и бывший доцент Технического университета Софии Иван Ташев, ныне занимающий в исследовательском центре Microsoft должность главного разработчика.

Иван Ташев (слева) и Дэвид Джонстон (по материалам: MIT / microsoft.com).
Иван Ташев (слева) и Дэвид Джонстон (по материалам: MIT / microsoft.com).

Новую технологию высоко оценил профессор Кентерберийского университета (Новая Зеландия) Марк Биллингхёрст (Mark Billinghurst), руководящий лабораторией человеко-машинных интерфейсов.

По его словам, разработанный в Microsoft подход может оказать огромное влияние на множество современных направлений в ИТ, если процесс сканирования будет достаточно быстрым и точным. Технологию можно будет адаптировать даже для мобильной и носимой электроники, добавив ей новые персональные черты.

К примеру, часто окружающие слышат мелодию смартфона раньше, чем его владелец реагирует на звонок, а эффекты в играх кажутся слишком громкими всем, кроме самого игрока. Более точная звуковая картина решит проблему позиционирование звука, также облегчив использование “умных” часов, Google Glass и других гаджетов.

“Вероятно, в случае мобильного применения не стоит ожидать таких точных результатов, как от реализации HRTF в комнате, где пользователь находится перед большим контроллером, – говорит Биллингхёрст. – Однако это всё ещё может оказаться намного лучше альтернативных схем, предлагаемых сегодня в мобильных играх и других сферах”.

Пока новая система проходит этап расширенного тестирования. Выполнено точное сканирование головы двухсот пятидесяти добровольцев. Эти цифровые модели используются для создания первого приближения при работе с новым пользователем. В результате такой уловки в большинстве случаев характеристики HRTF получаются изначально достаточно хороши, чтобы точно позиционировать источники звука в пространстве.

“По сути, мы можем предсказывать то, как вы услышите звук, анализируя вашу пространственную модель, – поясняет Иван Ташев. – Мы моделируем физический процесс распространения звука вокруг вашей головы и знаем, что именно достигнет ваших ушей”.

В настоящее время коллектив работает над совершенствованием алгоритмов захвата движения. Основная цель – сделать их в достаточной степени точными и быстрыми. В идеале запаса скорости должно хватать, чтобы рассчитывать корректировку звука быстрее, чем человек перед контроллером Kinect может изменить своё положение.