Реалистичный звук мог бы стать отличным дополнением для систем виртуальной реальности, подобных Oculus Rift. Пока всё внимание их разработчиков сосредоточено на повышении детальности изображения, скудная звуковая картина и лёгкая рассинхронизация изрядно портят впечатление. Новая технология объёмного звучания от Microsoft призвана решить эту проблему. Она рассчитывает изменение относительного положения каждого источника звука. Программа учитывает даже те из них, которые в данный момент находится вне поля зрения. Постоянная подстройка звуковой панорамы происходит по мере движений игрока, выполнения им поворотов и наклонов головы.
Секрет в том, что перед началом работы пользователь, расположившись в наушниках перед датчиком движения Kinect, калибрует систему. Программа строит трёхмерную модель головы и постоянно пересчитывает звуковую картину, приводя её в соответствие с положением игрока. Это сильно отличается от простейших алгоритмов балансировки громкости правого и левого канала, когда трудно уловить разницу между объектом впереди и позади человека. Данную проблему хорошо иллюстрирует следующий видеоролик.
http://youtu.be/3b5J1OaP3pU
Новая методика Microsoft может использоваться для систем как виртуальной, так и дополненной реальности. Чтобы показать это наглядно, в исследовательском центре Microsoft создали испытательную комнату, наполненную физическими моделями разных объектов. Среди них были как простейшие (картонные макеты), так и довольно сложные (чучела животных). Во время демонстрации прототипа на территории кампуса в Кремниевой долине присутствовал редактор издания MIT Technology Review, которого впечатлил уровень создаваемой реалистичности звучания.
«Я надел пару беспроводных наушников, и демонстрационные объекты вокруг меня буквально ожили, – комментирует свои ощущения Том Саймонайт (Tom Simonite). — Казалось, что голос действительно исходит из картонной модели рации, а имитация музыкального центра Hi-Fi звучала очень убедительно. Даже чучело птицы щебетало реалистично — как живая птица, парящая над землёй. Когда я стал ходить по комнате, звуки изменялись настолько естественно, что иллюзия ни на секунду не покидала меня. Положение объектов и звук от них передавались очень точно».
Перспективная технология объёмного звучания от Microsoft использует новую реализацию хорошо известного эффекта под названием HRTF (head related transfer function). Его суть в том, что характер воспринимаемого человеком звука зависит от формы его ушей и от того, как расположена голова. Пытаясь лучше расслышать что-то, мы рефлекторно поворачиваем голову, направляя ухо в сторону источника. В виртуальной реальности этот приём пока не работает.
Максимум, что способны учитывать системы 3D-аудио сейчас, — это примерное направление. Однако если аудиосистему запрограммировать на корректировку звука с учётом индивидуальных анатомических параметров и движений головы, то даже с парой наушников она сможет обмануть человека и заставить его воспринимать звук так, как если бы он действительно исходил из определённой точки пространства.
До настоящего времени основная техническая проблема подобных систем была в том, что данные HRTF крайне сложно считывать в режиме реального времени. Не было ни подходящих сенсоров, ни программных алгоритмов. Перед звуковыми проекторами приходилось сидеть неподвижно, а наушники с функцией 3D-звучания чаще оказывались маркетинговой уловкой, чем работающей системой.
Сколько тестовых систем ни перепробовали исследователи ранее — результат получался компромиссным, а универсальности достичь не удавалось.
Наиболее точный способ предполагал использование массива направленных микрофонов, которые фиксировали то, что именно достигает ушей человека. Аналогичным образом располагался десяток–другой динамиков. Проблема была в том, что установка получалась слишком сложной, громоздкой и непригодной для использования вне лабораторий.
Разработчики видеоигр каждый год создавали упрощённые модели систем объёмного звучания с частичным использованием HRTF, но их приходилось перенастраивать каждый раз, и большинству людей они просто не подошли.
На продолжение попыток в этом направлении группу из Microsoft Research вдохновил контроллер Kinect, который давно применяют для захвата движений с самими разными целями. «Компьютерра» уже писала о таком его использовании, как управление космическими роботами и охрана государственных границ. Его применение для более точной передачи звука — ещё один интересный и органичный аспект.
Авторами этого алгоритма стали программист Дэвид Джонстон (David Johnston) и бывший доцент Технического университета Софии Иван Ташев, ныне занимающий в исследовательском центре Microsoft должность главного разработчика.
Новую технологию высоко оценил профессор Кентерберийского университета (Новая Зеландия) Марк Биллингхёрст (Mark Billinghurst), руководящий лабораторией человеко-машинных интерфейсов.
По его словам, разработанный в Microsoft подход может оказать огромное влияние на множество современных направлений в ИТ, если процесс сканирования будет достаточно быстрым и точным. Технологию можно будет адаптировать даже для мобильной и носимой электроники, добавив ей новые персональные черты.
К примеру, часто окружающие слышат мелодию смартфона раньше, чем его владелец реагирует на звонок, а эффекты в играх кажутся слишком громкими всем, кроме самого игрока. Более точная звуковая картина решит проблему позиционирование звука, также облегчив использование «умных» часов, Google Glass и других гаджетов.
«Вероятно, в случае мобильного применения не стоит ожидать таких точных результатов, как от реализации HRTF в комнате, где пользователь находится перед большим контроллером, — говорит Биллингхёрст. — Однако это всё ещё может оказаться намного лучше альтернативных схем, предлагаемых сегодня в мобильных играх и других сферах».
Пока новая система проходит этап расширенного тестирования. Выполнено точное сканирование головы двухсот пятидесяти добровольцев. Эти цифровые модели используются для создания первого приближения при работе с новым пользователем. В результате такой уловки в большинстве случаев характеристики HRTF получаются изначально достаточно хороши, чтобы точно позиционировать источники звука в пространстве.
«По сути, мы можем предсказывать то, как вы услышите звук, анализируя вашу пространственную модель, – поясняет Иван Ташев. – Мы моделируем физический процесс распространения звука вокруг вашей головы и знаем, что именно достигнет ваших ушей».
В настоящее время коллектив работает над совершенствованием алгоритмов захвата движения. Основная цель — сделать их в достаточной степени точными и быстрыми. В идеале запаса скорости должно хватать, чтобы рассчитывать корректировку звука быстрее, чем человек перед контроллером Kinect может изменить своё положение.