Мобильное

В окружении виртуального звука. Применение в Android

Современные системы домашних развлечений разрабатываются и создаются для того, чтобы вызвать у человека максимальный эмоциональный отклик, погрузить его в действие кинофильма, прослушиваемую музыку или компьютерную игру настолько, чтобы он на время забыл о реальности окружающего мира и полностью погрузился в реальность "виртуальную". Естественно, для достижения данной задачи необходимо, чтобы действие, происходящее на экране, вызывало у человека эмоциональный отклик, качество изображения также должно быть максимальным, приближенным к тем картинам, которые мы привыкли видеть в реальной жизни. Хорошо известно также и то, что значительная часть информации об окружающем мире (более 25%) приходится на звук. Качественное объемное звучание - залог того, что человек получит максимальный эмоциональный заряд от кинофильма или музыкального исполнения.

Традиционным решением задачи по созданию объемного звучания в комнате прослушивания является построение многоканальных систем, в которых звук передается фронтальными, центральным и тыловыми громкоговорителями. С их помощью можно добиться очень равномерной и правдоподобной звуковой панорамы, при которой эффекты будут окружать слушателя именно таким образом, как задумал звукорежиссер. Для того, чтобы повысить достоверность воспроизведения многие производители аудио техники предлагают идти по пути увеличения количества каналов (и соответственно громкоговорителей), строя уже не пяти-, а шести-, семи- и даже девятиканальные системы домашнего кинотеатра. Резоны производителей понятны. Построение многоканальных аудиосистем действительно является самым верным способом повысить достоверность воспроизведения. Кроме того, увеличение количества каналов, естественно, требует увеличения количества акустических систем, длины коммутационных проводов, применения более сложных и более дорогих усилителей, а, следовательно, позволяет увеличивать прибыль от продажи оборудования.

НЕ УВЕЛИЧИВАТЬ, А УМЕНЬШАТЬ!

Впрочем, находятся компании, которые идут по другому пути, предлагая не увеличивать, а наоборот уменьшать количество каналов воспроизведения. Они совершенно справедливо считают, что далеко не всем потребителям необходимы многоканальные аудиосистемы. Для кого-то это неприемлемо по экономическим соображениям, кто-то не может выделить под систему домашних развлечений специальную комнату, в которой можно было бы проложить все необходимые коммутационные провода и выделить место для установки тыловых громкоговорителей, у кого-то уже есть "нормальная" большая система домашнего кинотеатра, и он хочет построить дополнительную (резервную) систему в маленькой комнате - спальне, кабинете или детской комнате, в которой также хочется "малой кровью" получить объемное звучание.

Казалось бы, что получение объемного звука без использования тыловых громкоговорителей не возможно. Если сзади нет звукового источника, то и звуку там неоткуда взяться. Впрочем, очевидность данного утверждения можно поставить под сомнение одним простым утверждением. У человека всего лишь два уха, которые обеспечивают его всей необходимой информацией о расположении источника звукового сигнала, а это значит что для ее передачи по идее достаточно всего лишь двух громкоговорителей (наушников или акустических систем), воспроизводящих аудио сигнал, в котором эта информация содержится. Не следует забывать о том, что наш слух - это не просто какое-то абстрактное, ничем не объяснимое качество. Слух имеет свои механизмы, в том числе и механизмы локализации звуковых источников в пространстве, изучением которых не один десяток лет занимаются не самые глупые люди. Понимание этих механизмов в теории позволяет "обмануть" нашу слуховую систему путем введения в акустический сигнал, воспроизводимый фронтальными громкоговорителями, дополнительных частотных и фазовых составляющих. Кроме того, воспроизведение звука в большинстве случаев происходит не в чистом поле, а в помещении. Помещение имеет стены и потолок, которые отражают звуковые волны. Правильно рассчитав конструкцию акустических систем, можно добиться того, что отраженный звуковой сигнал будет приходить к слушателю сбоку и сзади - т.е. имитировать звучание тыловых громкоговорителей.

"Избавиться" же от центрального громкоговорителя не представляет особой сложности - достаточно лишь соответствующим образом "подмешать" его сигнал в звучание правого и левого фронтальных каналов и звук локализуется в пространстве посередине между ними.

Конечно, реализация этих методов на практике представляет собой значительные трудности, но попытки создания позиционированного трехмерного звука при помощи только фронтальных громкоговорителей ведутся уже давно и определенные результаты достигнуты. В том числе и в серийно выпускаемых домашних аудио-видео комплектах. Для того чтобы лучше понимать особенности их работы, давайте разберемся, как же устроен наш слух, каким образом он позволяет нам производить локализацию звуковых источников, т.е. определять направление и расстояние до них.

ЧЕЛОВЕЧЕСКИЙ СЛУХ

Основной особенностью нашего слуха, которая позволяет определить место расположения звукового источника в пространстве, является его бинауральное строение - т.е. тот неопровержимый факт, что человек имеет 2 приемника звуковой информации (уха). Звуковые сигналы, воспринимаемые нашими ушами, обрабатываются в периферической части слуховой системы, подвергаются спектрально-временному анализу, после чего информация поступает в соответствующие отделы головного мозга, где на основе сравнения сигналов, поступивших с каждого из слуховых каналов, делаются выводы о месте расположения звукового источника.
Человеческий слуховой аппарат представляет собой очень эффективное устройство, созданное природой. Удивительным является то обстоятельство, что для большинства звуковых сигналов мы можем определить месторасположение источника с очень высокой степенью достоверности. Конфигурация ушной раковины позволяет осуществлять пространственное декодирование поступающих сигналов и подавать на барабанную перепонку звуковой сигнал, в котором уже содержится информация о месторасположении источника в пространстве.

Очень интересным является то обстоятельство, что для определения места расположения звукового источника в пространстве слуховая система использует не один, а несколько механизмов, каждый из которых наиболее эффективен при решении определенной задачи.

Механизмы слухового восприятия принято делить на основные и вспомогательные. К основным механизмам обычно относят локализацию по разнице амплитуд приходящих сигналов, временной разнице, а также спектральным различиям звука в правом и левом слуховых каналах. К вспомогательным механизмам обычно относят отражения звука от туловища и плеч человека, анализ реверберационных эффектов, а также эффект психологического восприятия, приводящий слышимое расположение звукового источника в соответствие с его расположением, которое мы видим глазами.

СТРОЕНИЕ ЧЕЛОВЕЧЕСКОГО УХА. 1.Слуховой канал 2.Барабанная перепонка 3.Молот 4.Наковальня 5.Стремечко 6.Овальное окно 7.Евстахиева труба 8.Улитка 9.Слуховой нерв

ОСНОВНЫЕ МЕХАНИЗМЫ СЛУХОВОГО ВОСПРИЯТИЯ

Локализация по уровню интенсивности звукового сигнала

Этот механизм основан на том, что при излучении звука источником, расположенным под определенным углом к фронтальному направлению, уровень звукового давления на барабанные перепонки в разных ушах будет различным. Это связано с тем, что одно ухо будет находиться как бы "в тени", которую создает голова и туловище. Естественно разница в уровнях звукового давления на барабанные перепонки будет зависеть от угла расположения источника. Анализируя эту разницу наш мозг способен сделать вывод о направлении на источник звука. Данный механизм, основанный на разнице уровней интенсивности сигналов, поступающих к ушам, является достаточно эффективным, но лишь на звуковых частотах более 2000 Гц. Дело в том, что при длине звуковой волны, сравнимой с диаметром человеческой головы, дальнее от источника ухо перестает находиться в "акустической тени", что обусловлено явлением дифракции звуковой волны на поверхности головы.

Локализация по временной разнице звуковых сигналов

На более низких частотах в действие вступает механизм анализа фазового сдвига звуковых сигналов, приходящих к разным ушам. За счет "разнесенности" ушей в пространстве звуковой сигнал, приходящий от источника, расположенного под некоторым углом к фронтальному направлению, затрачивает различное время для достижения барабанных перепонок в разных ушах. Это приводит к появлению фазового сдвига в сигналах, пришедших от одного и того же источника к разным ушам. Данный фазовый сдвиг может быть проанализирован нашим мозгом и на основании этого анализа делается вывод о направлении на звуковой источник.

С повышением частоты (а соответственно, с уменьшением длины звуковой волны) фазовый сдвиг сигналов, пришедших от одного и того же источника к разным ушам, увеличивается, и как только он достигает значения близкого к половине длины звуковой волны, данный механизм локализации перестает работать, поскольку наш мозг не может однозначно определить отстает ли звуковой сигнал в одном из слуховых каналов от другого или наоборот опережает его. Естественно, чем больше угол между направлением на звуковой источник и плоскостью симметрии человеческой головы, тем больше фазовый сдвиг в пришедших к ушам сигналах. Соответственно с повышением частоты звука угол, в котором мы можем локализовать источник, пользуясь данным механизмом, уменьшается.

Конус неопределенности

Кроме того, данный метод локализации страдает еще одним ограничением. Представьте себе, что источник звука находится под углом 30 градусов к фронтальному направлению головы. При восприятии звукового сигнала мы получим определенный фазовый сдвиг в левом ухе относительно правого, и на основе анализа этого сдвига наш мозг сделает вывод о расположении источника. Рассмотрим теперь звуковой источник, расположенный под углом 30 градусов к направлению в котором "смотрит" затылок или (что то же самое) под углом 150 градусов к фронтальному направлению. Для этого источника фазовый сдвиг будет точно такой же, как и для первого. Если не ограничиваться только теми источниками, которые находятся на одном уровне с ушами, а рассмотреть также те, которые располагаются выше или ниже, то можно продолжить наши рассуждения и получить конус с вершиной, расположенной в слуховом канале. На основании этого конуса могут расположиться звуковые источники, для которых разность фаз в правом и левом ушах будет одинаковой. Этот эффект, мешающий точному и однозначному определению местоположения звуковых источников с помощью анализа разности фаз для правого и левого слуховых каналов, получил название "конуса неопределенности".

Для того чтобы устранить эту неопределенность человек пользуется третьим, пожалуй, наиболее эффективным механизмом пространственной локализации звука.

Локализация по спектральным различиям звуковых сигналов

Еще один механизм локализации звука человеком, который, кстати, является наиболее точным, относится к сложным звуковым сигналам и импульсам, и основывается на возможности анализа спектрального состава звука нашим мозгом. При излучении сложного звукового сигнала (т.е. такого сигнала, в спектре которого присутствуют различные частоты) источником, расположенным под определенным углом к плоскости симметрии головы, спектральный состав звука в правом и левом ушах будет различным. Это связано, во-первых, с экранирующим воздействием головы, которое проявляется сильнее на высоких частотах (поэтому в дальнем от излучателя ухе высокочастотных составляющих будет меньше). Кроме того, ушная раковина человека не зря имеет такую сложную форму - по сути, она является точно рассчитанным частотным фильтром, которым наделила нас природа.

Фильтрация звуков различной частоты ушной раковиной зависит от направления на источник. При изменении направления звуковой сигнал по-разному отражается от участков ушной раковины и соответственно происходит усиление и ослабление различных участков спектра принимаемого звукового сигнала. Анализ спектрального состава звукового сигнала, поступающего в слуховые каналы, является также основным механизмом при определении того, находится ли звуковой источник спереди или сзади. По вполне очевидным причинам, механизмы, основанные на оценке разницы интенсивности и фазового сдвига, о которых мы написали выше, в данном случае практически не работают. Ушная же раковина по-разному фильтрует сигналы, приходящие спереди и сзади, поэтому мы и можем сделать вывод об их месторасположении.

Сложный спектральный состав для простоты локализации

В целом, можно сказать, что наилучшим образом определяется местоположение звуковых источников, которые излучают сигнал со сложным спектральным составом. Чистые тона, которые, кстати, практически не встречаются в природе, поддаются локализации с большим трудом и разрешающая способность человеческого слуха при этом крайне невелика. Высокие частоты (свыше 8000 Гц) практически не поддаются локализации, точно так же невозможно определить и местоположение источников звука очень низкой частоты (менее 150 Гц) - не зря же производители рекомендуют размещать сабвуферы в домашнем кинотеатре в любом, наиболее удобном для вас месте комнаты прослушивания. Аккуратная спектральная обработка воспроизводимого сигнала является одной из приоритетных задач производителей систем пространственного звучания.
Важно понимать, что наш мозг - это не совсем вычислительная машина, которая, воспринимая импульсы, формируемые в слуховых каналах, производит вычисления по какому-то сложнейшему алгоритму. На самом деле мозг производит не вычисления, а скорее сравнения. Он сравнивает информацию, полученную от ушей, с той информацией, которая уже хранится в нашей памяти. Иными словами, механизм локализации источника основывается, прежде всего, на личном опыте человека. В нашей памяти хранится информация о том, как звучат те или иные источники в разных точках пространства. Когда мы слышим звук, то наш мозг сравнивает поступающую информацию с той, что хранится в памяти, выбирает наиболее подходящую и на основании этого делает вывод о расположении источника в пространстве.Е

ще один момент, на который хотелось бы обратить внимание, это то, что точность определения месторасположения звукового источника в пространстве существенно возрастает, когда источник не является неподвижным, а перемещается в пространстве. Это дает нашему мозгу дополнительную информацию, которую он может проанализировать. Если источник является неподвижным, то для его локализации человек подсознательно совершает микроперемещения головы (например, еле заметно поводит ей из стороны в сторону). Этих микроперемещений вполне достаточно, для того, чтобы мозг получил информацию, на порядок повышающую точность определения положения источника в пространстве.

ДОПОЛНИТЕЛЬНЫЕ МЕХАНИМЫ ПРОСТРАНСТВЕННОГО ВОСПРИЯТИЯ ЗВУКА

Отражение и экранирование звука плечами и туловищем

При описании процессов пространственной локализации звукового источника необходимо учитывать то, что наши уши находятся в непосредственной близости от плеч и туловища. Распространяющийся звук может отражаться от них или поглощаться, вследствие чего спектральные и временные характеристики звука будут меняться. Человеческий мозг анализирует эти изменения и на их основании делает дополнительные выводы о направлении на звуковой источник. Наибольшее значение данный эффект имеет при определении расположения источников, находящихся выше или ниже головы слушателя.

Реверберация

Как известно, при воспроизведении звука в помещении мы слышим не только прямой звуковой сигнал, но и сигналы, отраженные от стен. Эти сигналы являются результатом многократных переотражений и имеют достаточно сложную структуру. Эффект, при котором затухание звука происходит не сразу, а постепенно, за счет этих самых переотражений, носит название реверберации. Время, за которое уровень звука в помещении снижается на 60 дБ, носит название времени реверберации. Оно характеризует, как размеры помещения (в малых помещениях за единицу времени происходит большее количество переотражений, и звук затухает быстрее, чем в больших), так и отражающие свойства его поверхностей (стен, пола и потолка).

Спектральный состав отраженных сигналов в больших и малых помещениях также отличается, поэтому реверберация несет в себе информацию о размере помещения. Помимо размеров спектр реверберационного сигнала характеризует материалы, из которых изготовлены отражающие поверхности. Например, реверберация, в которой высок уровень высокочастотных составляющих, ассоциируется с комнатой с твердыми стенами, хорошо отражающими высокие частоты. Если же звук реверберации глухой, то слушатель приходит к выводу, что стены комнаты покрыты коврами, драпировками и прочими абсорберами высоких частот.

Помимо определения характеристик помещения, включение реверберационного сигнала в состав воспроизводимого звука полезно и для определения расстояния до звукового источника. Оценивая отношение уровня прямого звука к отраженному, мы можем сделать выводы о том, находится ли он близко (слабая реверберация) или далеко (сильная реверберация).Имитация реверберации в системах позиционированного объемного звука необходима для передачи пространственного контента. Она дает информацию о размере и характеристиках помещения, расстоянии до звукового источника и таким образом существенно добавляет реализма воспроизводимой записи.

Для имитации реверберационных эффектов зачастую используют геометрическую модель воспроизводимого звукового пространства. Эта модель учитывает позицию слушателя, звукового источника и отражающих поверхностей. Вводя коэффициенты отражения, геометрическая модель позволяет построить систему мнимых источников, уровень которых ослаблен в соответствии с этими коэффициентами и получить достаточно правдоподобную реверберационную картину, учитывающую ранние отражения звука от стен.

Особенности психоакустического восприятия

Создание 3-мерного позиционируемого звука с помощью 2 громкоговорителей является весьма сложной, практически невыполнимой на сегодняшний день задачей. Это утверждение было бы справедливо, если бы не одна важнейшая особенность нашего слуха. Дело в том, что при недостатке информации или же при поступлении такой информации, которая не соответствует той, что хранится у нас в памяти, человеческий мозг самостоятельно достраивает звуковую картину до той, которая укладывается в его представления о звуках, существующих в реальном мире. Иными словами, для того, чтобы "обмануть" наш мозг совершенно не обязательно в точности воссоздавать желаемый звуковой образ. Достаточно лишь "намекнуть" ему, чтобы он "извлек из памяти" ту 3-мерную картину, которая нам нужна. В качестве аналогии можно привести метод записи музыки в формате MP3. Всем известно, что в этих записях отсутствует множество информации, которая, казалось бы, просто необходима для адекватного восприятия музыки. Тем не менее, информации все же оказывается достаточно для более или менее достоверной передачи - недостающую звуковую информацию мозг достраивает самостоятельно.

Помимо этого, не следует забывать, что в домашнем кинотеатре кроме звука есть еще и изображение, т.е. наш мозг помимо звуковой получает еще и зрительную информацию. Это очень существенный момент, поскольку появление еще одного (кстати, основного) информационного канала позволяет существенно упростить процедуру "введения нашего мозга в заблуждение", а следовательно добиться пресловутого "эффекта присутствия" к которому мы собственно и стремимся, просматривая фильмы в домашнем кино.

КАКИЕ ЗАДАЧИ ДОЛЖНЫ РЕШАТЬ СИСТЕМЫ ОКРУЖАЮЩЕГО ЗВУКА?

Итак, наш слуховой аппарат использует различные механизмы для определения местоположения источника звука в пространстве. Поскольку все эти механизмы строятся на сравнении поступающих в головной мозг сигналов с теми, что "хранятся" у него в памяти, то, используя определенные алгоритмы обработки звука можно "обмануть" его и заставить поверить в то, что звуковой источник расположен там, где на самом деле его нет. Именно на этом и построены современные алгоритмы построения 3-мерного звукового пространства в компьютерных играх и, что более важно для нашего издания, домашних аудио-видео системах.

Прежде чем перейти к рассмотрению конкретных алгоритмов построения виртуального звукового окружения, мы рассмотрим основные задачи, которые этим системам приходится решать.

Определение направления на звуковой источник

Как уже упоминалось выше, для определения направления на источник звукового сигнала используются все три основных алгоритма пространственной локализации: - по амплитудной разнице сигналов в слуховых каналах, по фазовой задержке звука, пришедшего к правому и левому уху, а также по оценке спектрального состава звука, трансформированного ушной раковиной в зависимости от направления его распространения.

Вертикальная (высотная) локализация

Все, о чем мы говорили выше, относилось в первую очередь к локализации звукового источника в горизонтальной плоскости. Однако, как нам кажется, мы не раскроем особой тайны, если скажем, что человек может определять направление на звуковой источник не только в горизонтальной, но и в вертикальной плоскости. Механизм определения высоты источника имеет некоторые отличия от способов, описанных выше. Если при оценке угла в горизонтальной плоскости основополагающим инструментом является бинауральное свойство слуха (т.е. наличие двух приемников звукового сигнала - ушей), то определение высоты в основном моноауральное - используется в первую очередь строение ушной раковины. Как уже упоминалось, ушная раковина представляет собой своеобразный частотный фильтр с параметрами фильтрации, зависящими от направления на источник. В сложном звуковом сигнале определенные частоты усиливаются ушной раковиной, а другие наоборот ослабляются. При изменении высоты источника частотная характеристика сигнала поступающего в слуховой канал также будет меняться.

Определение расстояния до источника

Помимо того, что человек может определять направление на звуковой источник, свойства слуха позволяют ему оценивать и расстояние до него. Одним из механизмов определения расстояния является оценка интенсивности звукового сигнала. Например, при относительно небольших расстояниях увеличение расстояния до источника в 2 раза соответствует изменению уровня звукового давления на 6 дБ. Однако данный механизм не всегда оказывается работоспособным, поскольку уровень звука от слабого, но близко расположенного источника может быть таким же, как от мощного, но удаленного на значительное расстояние.

При малых расстояниях до источника в действие вступает механизм оценки изменения спектральных составляющих сложного сигнала, которое происходит в связи с искажением фронта звуковой волны головой и ушными раковинами.Одним из важнейших механизмов, позволяющих нам определять расстояние до источника в помещении, является сравнение прямых сигналов и отраженных от стен и потолка. Таким образом, эффект реверберации позволяет использовать один из наиболее точных механизмов локализации звукового источника в помещении.

Воспроизведение звука движущихся объектов

Для того чтобы правдоподобно передать звук от движущегося источника недостаточно только тех механизмов, которые были описаны выше. В соответствии с эффектом Доплера частота звука движущегося источника изменяется (звук становится более высоким при приближении объекта и более низким при его удалении). При прохождении объекта мимо позиции слушателя его звук резко меняет тональность.

Поглощение звука в воздухе

При передаче звучания удаленных объектов необходимо учитывать, что воздух поглощает высокие частоты значительно сильнее, чем низкие. Это означает, что чем дальше от вас находится виртуальный звуковой источник, тем более глухим должен быть его звук.

Огибание препятствий

Сюжеты кинофильмов зачастую подразумевают, что звук приходит к слушателю из-за препятствия, расположенного на пути к его источнику. Для того чтобы симулировать звук, доносящийся из-за препятствия, необходимо учитывать, что волны с малыми по сравнению с размерами препятствия длинами не смогут его обогнуть, и будут эффективно гаситься. Таким образом, высокочастотные составляющие звука источника, расположенного за препятствием, будут сильно ослаблены по сравнению с низкочастотными.

МЕТОДЫ ПОСТРОЕНИЯ СИСТЕМ ВИРТУАЛЬНОГО ЗВУКОВОГО ОКРУЖЕНИЯ

Бинауральное воспроизведение звука

Одним из методов построения 3-мерного звукового пространства с помощью 2 громкоговорителей являются так называемые бинауральные звуковые системы. Идея бинауральной записи и воспроизведения появилась достаточно давно, что, однако, не мешает нам рассмотреть ее более подробно.

Давайте предположим, что у нас есть возможность расположить два микрофона с абсолютно линейной амплитудно-частотной характеристикой непосредственно в слуховых каналах головы человека. В этом случае звуковые сигналы, воспринимаемые этими микрофонами будут содержать в себе всю информацию, необходимую для определения месторасположения звукового источника головным мозгом (об этом мы писали выше). Предположим, что нам удалось без изменений записать эти сигналы. Если затем подать их на головные телефоны (наушники) которые мы смогли бы поместить на место микрофонов, т.е. опять непосредственно в слуховые каналы, то воспринимаемый нами звук соответствовал бы первичному звуковому полю источника и также содержал бы всю необходимую информацию для локализации его источника в 3-мерном пространстве.

Эксперименты по созданию бинауральных звуковых систем проводились с помощью специального манекена, имитирующего человеческую голову, и продолжаются по сей день. Нужно отметить, что в этом направлении были достигнуты значительные успехи. Например, отмечено, что при бинауральной схеме звуковоспроизведения значительно повышается способность слушателя к локализации звуковых источников в 3-мерном пространстве, усиливается так называемый "эффект присутствия", который и является нашей целью в домашних развлекательных системах.
Однако, как легко догадаться, не все так гладко, иначе про обычную стереофонию и многоканальные системы домашнего кинотеатра мы бы уже давно забыли.

Во-первых, все люди разные и все они отличаются формой головы, тела, ушной раковины и т.д., поэтому записи, сделанные с использованием "искусственной головы" носят более чем усредненный характер, а этого порой бывает недостаточно для того, чтобы ввести в заблуждение наш мозг и создать иллюзию трехмерности.

Во-вторых, даже произведя идеальную запись сигнала непосредственно в ушных каналах "искусственной головы", мы не можем воспроизвести записанные сигналы непосредстевенно в слуховых каналах реального слушателя.

В-третьих, не существует аппаратуры, которая могла бы абсолютно точно записывать и воспроизводить звук (любая аппаратура вносит свои изменения, а в данном случае важны мельчайшие нюансы).

Наконец, многие просто не любят прослушивать музыку в наушниках, испытывая при этом значительный дискомфорт. Этот дискомфорт в частности связан еще и с тем, что при использовании качественных студийных или Hi-Fi наушников закрытого типа наши ушные раковины оказываются прижатыми к голове, а такое положение является для них неестественным, что приводит к снижению точности пространственного восприятия и быстрой утомляемости.
Широкому распространению бинауральных звуковых систем мешает также и то, что записи для них, очевидно, должны быть сделаны специальным образом (обычные стерео записи не подойдут, поскольку они не несут всей необходимой для пространственной локализации информации). Такие записи в принципе есть, но их крайне немного, да и стоят они достаточно дорого, поэтому их следует рассматривать скорее как демонстрационный материал, нежели реальную возможность для использования в системах домашнего развлечения.

Функции HRTF

Идея записи и воспроизведения 3-мерного звука с помощью бинауральных систем получила свое развитие с появлением и совершенствованием процессоров звуковой обработки. Действительно звуковой сигнал, поступающий в слуховые каналы человека, получается за счет определенной трансформации (по частоте, фазе и уровню) сигнала излучаемого источником звука. Функции, по которым производится данная трансформация, получили название HRTF (Head Related Transfer Function или Передаточная Функция Головы). Стоит ли говорить, что эти функции слишком сложны для того, чтобы их можно было получить обычными вычислительными методами. Как правило, эти функции получают экспериментальным путем, измеряя параметры звукового сигнала с использованием описанных выше манекенов.

Проведение многочисленных экспериментов позволило разработчикам пространственных звуковых систем создать обширные базы данных, использование которых в современных звуковых процессорах позволяет добиться впечатляющих результатов. Действительно, если звуковой процессор, занимающийся обработкой сигнала, обладает достаточным быстродействием для расчета звуковых характеристик с использованием HRTF в реальном времени, то система, в которой он работает, сможет создавать 3-мерное звучание без использования специальных бинауральных записей и головных телефонов в слуховых каналах. Кстати, библиотека HRTF фильтров создается в результате лабораторных измерений, производимых с использованием манекена, носящего гордое название KEMAR (Knowles Electronics Manikin for Auditory Research) или с помощью специального "цифрового уха".

Алгоритм Crosstalk Cancelation

Современные процессоры позволяют обходиться вообще без наушников, а использовать обычные акустические системы, используя так называемый алгоритм Crosstalk Cancellation. Суть этого алгоритма в следующем. Предположим, что мы используем сигнал, обработанный звуковым процессором с использованием функций HRTF на обычные акустические системы. Предположим также, что используемые в процессоре функции позволяют учесть тот факт, что звуковые сигналы излучаются не наушниками, а удаленными от слушателя громкоговорителями. Однако даже при этом мы не сможем просто так получить желаемый результат. Дело в том, что наушники без проблем позволяют подвести сигнал, предназначенный для правого уха именно к этому уху и только к нему, левое ухо его слышать не будет. То же самое можно проделать с сигналом, предназначенным для левого уха. В случае использования обычных громкоговорителей это, к сожалению, невозможно. Сигнал, излучаемый левым громкоговорителем, будет восприниматься обоими ушами - и левым и правым, и наоборот.

Предположим, что при помощи 2 акустических систем необходимо спозиционировать виртуальный звуковой источник, находящийся в определенной точке слева от слушателя. Если запись звука этого источника производилась двумя микрофонами, разнесенными на расстояние эквивалентное расстоянию между ушами, то вполне вероятна ситуация, когда правое ухо вначале услышит кросстолк-сигнал с левого громкоговорителя и лишь затем полезный сигнал с правого. В силу эффекта Хааса (или иначе эффекта предшествования) полезный сигнал правой колонки в этом случае будет полностью проигнорирован. Эффект Хааса, кстати, заключается в том, что при обработке пакета аудио информации, состоящего из отдельных звуковых импульсов, слегка разделенных во времени, наш мозг использует только первый импульс для вычисления направления на источник, приписывая всем последующим те же самые пространственные координаты.

В рассмотренной выше ситуации слушателю будет казаться, что звучит только левая (т.е. ближайшая к записанному виртуальному источнику) колонка. Пространственной звуковой панорамы в этом случае получить не удастся.Для того чтобы устранить негативное влияние кросстолк сигнала в том или ином канале на восприятие аудио информации был разработан алгоритм Crosstalk Cancellation, который подразумевает "подмешивание" в левый громкоговоритель сигнала, предназначенного для правого громкоговорителя, но с определенной задержкой во времени. Эта задержка подбирается таким образом, чтобы звук, пришедший к правому уху от левого громкоговорителя, оказался в противофазе с "подмешанным" сигналом от правого громкоговорителя. При этом они нейтрализуют друг друга, и левое ухо будет воспринимать только сигнал с левой колонки, а правое - только с правой.

Даже в теории, как видите, все получается достаточно непросто, на практике же построение 3-D звука с помощью двух акустических систем является архисложной задачей. В частности, все расчеты, о которых мы написали выше, можно произвести только для конкретной области прослушивания, которая называется Sweet Spot (дословно - "сладкое пятно"). Как только слушатель покинет пределы этой области, алгоритм Crosstalk Cancellation естественно перестанет работать, поскольку требуемые сигналы перестанут приходить в противофазе. Естественно, очень многое зависит и от характеристик самого звуковоспроизводящего тракта и в первую очередь от акустических систем.

Большинство производителей все же пока ограничивается использованием упрощенных алгоритмов построения 3-D звука с применением усредненных (подходящих для большинства людей) функций HRTF. К сожалению, в результате, создаваемая звуковая картина также получается весьма усредненной либо же не получается вовсе.

Системы, работающие по принципу отражения от стен

Для того, чтобы создать эффект виртуального звукового окружения вовсе не обязательно производить сложную процессорную обработку аудиосигнала. Можно воспользоваться тем обстоятельством, что аудиосистемы в большинстве своем работают в закрытых комнатах, в которых есть отражающие звук поверхности - стены, пол и потолок. Именно этот принцип использует, к примеру, английская компания KEF, выпустившая систему громкоговорителей, состоящих из традиционного для этой компании модуля UniQ, обеспечивающего звучание фронтальных и центрального каналов, а также плоских звуковых панелей NXT, расположенных по бокам акустических систем и излучающих звук тыловых каналов. При корректном расположении акустических систем относительно места прослушивания и стен помещения звук тыловых каналов, отраженный от стен помещения придет к слушателю не спереди, а сбоку, обеспечив таким образом правдоподобное окружение.

Системы использующие только процессорную обработку

В принципе, к системам, использующим процессорную обработку для создания эффекта виртуального окружения, можно отнести практически любой современный AV-ресивер. Почти все эти аппараты имеют тот или иной алгоритм для имитации тыловых эффектов при помощи только двух громкоговорителей. Интересное решение предложила немецкая компания Audica, производящая стильные дизайнерские акустические системы. К примеру, в одном из наших тестов приняла участие 2-канальная система виртуального окружения, однако в ней были использованы не 2 фронтальных громкоговорителя, а фронтальный и тыловой. Эти акустические системы располагаются горизонтально (наподобие АС центрального канала в обычных 5-канальных театральных системах) и имеют возможность подключения сразу нескольких каналов (правого, левого и центрального для фронтальной АС и левого и правого тыла для задней колонки). При этом каждый канал звуковоспроизведения использует свой собственный набор динамических головок, заключенных в едином корпусе. Данные АС требуют подключения к обычному AV-ресиверу, и как показал дальнейший тест их желательно использовать с теми или иными алгоритмами расширения звукового пространства.

Системы с особой конфигурацией динамиков и процессорной обработкой

Как мы уже упоминали разработка и применение комплекса функций HRTF для системы, воспроизводящей звук через обычные громкоговорители, является очень сложной задачей. В связи с этим многие производители идут на определенный компромисс, проводя обработку звука по упрощенному алгоритму, но зато используя специальную конфигурацию установки динамиков в громкоговоритель.

Например, компания Polk Audio предложила горизонтальный громкоговоритель Surround Bar, в котором основной сигнал виртуального тыла подается на один комплект динамиков, а корректирующий сигнал для устранения кросстолк-эффекта - на другой комплект динамиков, отстоящих от основных на расстояние, примерно равное расстоянию между человеческими ушами.

Компания Aleks Digital Technology предложила использовать комплект, состоящий из горизонтальной АС с тремя комплектами фронтальных динамиков и двумя боковыми, расположенными на торцах колонки. Эффект виртуального окружения достигается за счет аналоговой обработки аудиосигнала, которая манипулируя фазовыми сдвигами позволяет подать необходимый сигнал на тот или иной комплект динамических головок.

Очень интересное решение предложила датская компания Final Sound, известная производством электростатических громкоговорителей самого высокого уровня. В системе Final звук, подвергаясь процессорной обработке, подается на 2 фронтальные электростатические системы. Как известно, электростаты имеют биполярную характеристику направленности. Подавая на них дополнительный сигнал с фазовой задержкой, можно получить практически однородное звуковое пространство, окружающее слушателя в любой точке комнаты прослушивания.

Японская компания Yamaha, известная своими многочисленными достижениями в области цифровой обработки звука, продолжает развивать направление звуковых проекторов, которые стали весьма успешным коммерческим продуктом в ряде стран мира. Идея звукового проектора заключается в размещении большого количества динамических головок в одной плоскости громкоговорителя. Каждый из динамиков имеет собственный усилитель и управляется цифровым процессором, который может производить фазовые манипуляции.

Совсем недавно можно было наблюдать, как в мир коммерческих и домашних кинотеатров пришло стереокино, а сейчас на очереди уже стоит видео сверхвысокого разрешения 4K. От изображения не отстает и звук: в домашний кинотеатр пришло 3D Audio, полное звуковое окружение зрителя — не только в горизонтальной плоскости, но и в третьем измерении. В английском языке для этого применяется термин immersive, «погружающий».

Глас божий и другие аудиоканалы

Формат Auro-3D был представлен в мае 2006 года бельгийской компанией Galaxy Studios. Первым массовым фильмом, записанным в данном формате, стала лента Red Tails («Красные хвосты»), снятая в 2012 году Джорджем Лукасом. Принципиальное отличие Auro-3D от преобладавших на тот момент форматов Dolby Surround EX и DTS заключалось в том, что кроме традиционных каналов 7.1, расположенных в одной плоскости, разработчики предложили использовать третье измерение — то есть разместить акустические системы (АС) не просто вокруг слушателя, но и сверху, вторым «слоем», под углом в 30 градусов к фронтальным акустическим системам и каналам окружающего звучания.

Дальнейшее усовершенствование формата привело к появлению еще одного «слоя» — над головами слушателей, который символично назвали voice of god («глас божий»). Максимальное количество каналов (не стоит путать с количеством акустических систем) при этом достигло 13.1, то есть фактически стало в два раза больше, чем в применяемых тогда форматах 7.1 и 6.1. Внедрение верхних каналов позволило более точно передать ряд событий в звуковой дорожке фильма, таких как пролеты объектов над зрителями (шум вертолета или реактивного истребителя), атмосферные эффекты (завывание ветра, раскаты грома).

Если потолок расположен слишком низко, акустика будет слишком близко к зрителю. В этом случае Dolby рекомендует использовать специальные акустические системы, работающие «на отражение» от потолка — по утверждению компании, результат будет более качественным.

Объектный подход

Старейший игрок на рынке кинотеатрального звука, компания Dolby Laboratories, использует в своем новом формате Dolby Atmos два «слоя» акустических систем. Первый располагается вокруг слушателя по классической схеме, а второй на потолке — попарно слева и справа. Но самое главное — принципиально новый подход к микшированию саундтреков. Вместо привычного поканального сведения в студии используется метод «объектной» записи. Режиссер работает со звуковыми файлами, указывая место в трехмерном пространстве, откуда эти звуки должны воспроизводиться, когда и с какой громкостью. К примеру, если необходимо воспроизвести шум движущейся машины, то режиссер указывает время появления, уровень громкости, траекторию движения, место и время прекращения звучания «объекта».

Более того, из студии в кинозал звук попадает не в виде записанных дорожек, а как набор звуковых файлов. Эта информация обрабатывается процессором, который в реальном времени каждый раз просчитывает саундтрек фильма с учетом количества АС в зале, их типа и расположения. Благодаря точной калибровке нет привязки к какому-то «типовому» количеству каналов, и можно использовать в разных залах разное количество АС (каждый зал калибруется и настраивается индивидуально) — процессор сам просчитает, как и куда нужно отправить звук для получения оптимальной звуковой панорамы. Максимальное количество одновременно обрабатываемых звуковых «объектов» составляет 128, а количество одновременно поддерживаемых независимых АС — до 64.

Формат Dolby Atmos не привязан к конкретному количеству аудиоканалов. Звуковая картина формируется процессором в реальном времени из «объектов» и по «программе», составленной звукорежиссером фильма. При этом процессор учитывает точное расположение акустических систем, их тип и количество — все это заранее прописывается в настройках при калибровке каждого конкретного зала. Правда, как такой подход реализовать в домашнем кинотеатре, пока не совсем понятно.

Профессионалы и любители

Вслед за появлением в коммерческих кинозалах оба формата трехмерного звука начали завоевание домашнего рынка. Auro-3D стартовал чуть раньше, несколько производителей домашней электроники представили первые процессоры и ресивер с поддержкой формата еще в начале 2014 года. Dolby Laboratories не заставила себя долго ждать, и в середине сентября прошлого года представила весьма доступные решения на базе недорогих ресиверов. Кроме того, в начале 2015 года еще один крупный игрок, американская компания DTS, анонсировала свой формат трехмерного звучания — DTS: X (о котором известно пока только то, что он, как и Dolby Atmos, является объект-но-ориентированным и будет поддержан многими производителями бытовой электроники).

Между тем, коммерческое и домашнее кино в некоторых аспектах имеют серьезные отличия. Бобины с кинопленкой ушли в далекое прошлое, и в кинопрокате в настоящее время практически повсеместно используются цифровые копии фильмов. Саундтрек к фильму «выходит» из сервера в виде потока цифрового аудио с высоким битрейтом и практически без сжатия. Серверы, на которых хранятся фильмы, могут передавать до 16 цифровых каналов таких данных параллельно.

Самый популярный носитель для домашнего кино — Blu-ray диск. Как правило, он содержит саундтрек, записанный в одном из двух самых популярных форматов — DTS HD Master Audio или Dolby True HD. Встречаются и диски, записанные с использованием старых кодеков DTS и Dolby Digital со звуком 2.1 (лево-право и LFE). Если дорожка к фильму изначально была записана в студии в формате 5.1 или 7.1, перенести ее на диск довольно просто, отличие лишь в дополнительной компрессии данных, связанной с ограниченной емкостью цифрового носителя. А как же будут адаптироваться новые форматы Auro-3D и Dolby Atmos при переносе их из профессионального кино в домашний кинозал?

Путь домой

Для Auro-3D перенос будет практически «бесшовным». Если фильм изначально записан в студии в формате 13.1 или 11.1, ровно с таким же количеством каналов он и будет переноситься на диски Blu-ray. Для обратной совместимости в Auro-3D используется специальный алгоритм, который умеет «дописывать» верхние каналы в кодек DTS HD MA, официально поддерживающий максимум 7.1 каналов — например, в левый канал инкапсулируется информация для верхнего левого канала, в центральный — для верхнего центрального и т. д. Если в ресивере или процессоре есть поддержка декодирования кодека Auro-3D, то он «вынет» вложенную информацию и подаст ее на соответствующие каналы. Если нет — просто декодирует данные как обычную дорожку 7.1, пропустив «лишнюю» информацию. Таким образом, диск с фильмом в формате Auro-3D в любом случае будет корректно прочитан любым современным плеером и распознан любым из процессоров или ресиверов, поддерживающих DTS HD MA. А если процессор или ресивер обладает встроенным декодером Auro-3D, то на выходе можно получить саундтрек из 9.1, 11.1 или даже 13.1 каналов. Существует и возможность «апмиксинга» (upmixing) — процессор, умеющий работать с Auro-3D, может пересчитать даже обычную двухканальную стереозапись, скажем, в 13.1.

В Auro-3D используется трехслойное расположение акустических систем и более традиционный подход с многоканальной записью звука. Это обеспечивает отличную обратную совместимость стандарта с текущими форматами и переносимость на домашние системы.

Ситуация с Dolby Atmos в домашнем кинотеатре намного более сложная: процессор в реальном времени обсчитывает довольно большой поток данных и выдает звук на соответствующие акустические каналы (с учетом того, сколько их в конкретной инсталляции). На текущий момент спецификациями Dolby Atmos для домашнего применения предлагается использовать конфигурации АС от 5.1.2 до 7.1.4, где первая цифра — это количество «обычных» каналов: левый-центр-правый-боковые-тылы, вторая — это канал низкочастотных эффектов, а третья — так называемые «верхние» каналы (overhead). При этом единственный процессор для коммерческого применения (Dolby CP850) стоит более миллиона рублей, а стоимость домашних ресиверов с поддержкой Atmos начинается всего от 30−40 тысяч. Тем не менее даже для самых доступных по цене домашних ресиверов заявлены и декодирование, и поддержка «апмиксинга», хотя как именно это сделано, не совсем понятно.

Еще один не очень ясный момент заключается в том, что для правильного обсчета звукового поля необходимо знать точное местоположение всех акустических систем. В коммерческом кинотеатре этот вопрос решается калибровкой аппаратуры, а вот в домашних ресиверах, насколько известно, такой возможности не предусмотрено. Как в таком случае решается вопрос о получении дома полноценного звучания Atmos «как в кино», пока неясно. Правда, формат пока еще не обрел окончательные черты. Несколько производителей процессоров премиум-класса даже отложили выпуск обновлений с поддержкой Dolby Atmos из-за изменений в алгоритме обработки сигнала, вносимых, по их словам, разработчиками Dolby. Так что можно предположить, что в последующих обновлениях Dolby может внести коррективы в процесс обработки звука и/или калибровки системы под конкретное расположение акустических систем.

Вопросы совместимости

Поскольку Auro-3D использует традиционный метод поканального сведения, а Dolby и DTS — объектно-ориентированный монтаж звука, переконвертировать один формат в другой невозможно. Кроме того, построить домашний кинотеатр, умеющий правильно работать со всеми форматами, тоже непросто. Проблема совместимости заключается в различных требованиях к установке акустических систем. В Dolby Atmos используется два «слоя» акустики, а в Auro-3D — три. Можно было бы предположить, что саундтрек Dolby Atmos может быть воспроизведен через часть АС для проигрывания Auro-3D, но вряд ли это будет корректно. Требования для расположения АС весьма жесткие у обоих форматов, а учитывая чувствительность к точному позиционированию для получения плавных переходов, это может стать проблемой для проектировщиков и инсталляторов домашних кинозалов (информации по расположению акустики DTS: X пока нет).

Перспективы

Несмотря на все неясности описания Dolby Atmos, нужно признать, что этот формат имеет больший потенциал, чем Auro-3D. Во‑первых, объектно-ориентированный подход к записи однозначно более перспективен, чем традиционный поканальный. Во вторых, поддержка Dolby Atmos в массовых моделях AV-ресиверов таких фирм, как Yamaha, Pioneer, Onkyo, Integra, Denon, доступна «в базе», в то время как лицензию на Auro3D придется покупать как опциональное программное обновление за $199, что ощутимо для бюджетных моделей.

В более дорогом сегменте процессоров для построения домашних кинозалов о поддержке всех форматов 3D Audio заявили и такие производители, как Trinnov Audio и Datasat Digital, работающие в том числе и на коммерческом кинорынке. Их опыт может весьма благотворно сказаться на реализации Dolby Atmos для домашнего кинотеатра: например, Trinnov для калибровки своих процессоров использует уникальный трехмерный микрофон, позволяющий точно определить место каждой АС в пространстве и применять эти данные для дополнительной коррекции звукового поля.

Редакция благодарит журнал avreport.ru за помощь в подготовке статьи.

Все права в отношении данного документа принадлежат автору. Воспроизведение данного текста или его части разрешается только с письменного разрешения автора.

Ч то такое трехмерный звук и почему по этому поводу возникает так много споров? Как соотносится понятие "трехмерное, пространственное звучание" со способностью человека воспринимать звук двумя ушами? Эти вопросы часто задают себе как пользователи так и профессионалы. Дело в том, что повсеместное использование понятий 3D (3D графика, 3D звук) вносят сумятицу и неразбериху в головы простых пользователей. Зачастую эти понятия используются, мягко говоря, не совсем уместно, что вносит дополнительный раздор в их употребление и правильное понимание. 3D графика - тема не этой статьи. Здесь же мы остановимся на трехмерном звуке.

Реализация пространственного звучания (3D звука) в том или ином виде, применительно к компьютерной технике, используется для придания естественности звуку в компьютерных играх или фильмах, для создания полного ощущения погружения в процесс игры или просмотра фильма. Такая постановка задачи делает недостаточным использование обычного стереофонического звучания. Это связано с тем, что стерео сигнал, приходящий к слушателю от двух физических источников звука, не обеспечивает объемного звучания, а определяет расположение мнимых (слышимых) источников лишь в той плоскости, в которой расположены реальные (физические) источники звука. Кстати, как ни парадоксально, "stereophonic" на самом деле обозначает "трехмерный звук" (от греч. "stereos" - пространственный, трехмерный, цельный). Таким образом, обычного стерео сигнала не достаточно для создания полного реализма звучания, когда источники звука могут находиться в трехмерном пространстве. Также заблуждением является мысль, что объемное звучание обеспечивается квадрофонической системой (два источника перед слушателем и два сзади). Дело в том, что также, как и в стереофонической системе, здесь все четыре источника находятся в одной плоскости, что не позволяет создать полное ощущение трехмерного звучания.

В целом можно обозначить три основных способа реализации пространственного звучания:

расширение стерео базы (Stereo Expansion) - специальная обработка уже имеющегося стерео сигнала и, таким образом, расширение кажущегося звукового поля (имитация расширения расстояния между источниками);

позиционирование звучания (Positional 3D Audio) - оперирование с множеством отдельных звуковых потоков и расположение каждого из них в пространстве вокруг слушателя;

виртуальный (мнимый) окружающий звук (Virtual Surround Sound) - использование определенного числа звуковых потоков с целью воспроизведения истинного звучания с помощью ограниченного числа физических источников звука.

Что это все означает на практике? На практике это означает, что метод расширения стерео базы относительно прост в реализации и очень часто находит применение в стерео фонической бытовой технике. Однако, в той же степени, на сколько проста его реализация, сам метод не дает ощущения "трехмерного звучания" в том понимании, в котором мы его себе представляем, по причине обеспечения звучания лишь в одной плоскости. Не достаточно также и применения так называемого панорамирования. Панорамирование (panning) - это управление уровнем сигнала в каналах, в не зависимости от частоты сигнала. Панорамирование позволяет создавать иллюзию перемещения мнимого источника сигнала где-то между физическими источниками (разумеется, в одной с ними плоскости).

Для создания более или менее реалистичного объемного звучания необходимо что-то принципиально другое. Попытаемся в этом разобраться.

Как ни странно, но вся проблема в устройстве слухового аппарата человека. Оказывается, что он на столько не совершенен, что даже в реальной жизни мы можем столкнуться с трудностями, связанными с неточностью восприятия звуковых сигналов и определения их пространственного месторасположения. Все дело в том, что все мы живем на планете Земля и все время существования человека его основная пища и враги находились в плоскости, параллельной земле. Поэтому, два уха, расположенные по обеим сторонам головы, позволяют нам определять расположение источников звука только лишь в горизонтальной плоскости (бинауральный эффект). При этом мы очень плохо различаем звук идущий спереди и сзади. Способность оценки человеческим ухом (слуховым аппаратом) расположения источников звука в вертикальной плоскости также крайне ограничена. Кроме того, тело слушателя, в частности, голова, уши и туловище, является, как известно, препятствием на пути распространения звуковых колебаний. Взаимодействуя с телом звук отражается, затухает и искажается, что приводит к восприятию слушателем не исходного, а измененного звучания. Все это создает трудности имитации пространственного звучания.

Что же происходит внутри нас? Приемником сигнала в человеке является барабанная перепонка, скрытая ушной раковиной. При восприятии звука, мозг как бы декодирует получаемый от барабанной перепонки сигнал, интерпретируя его определенным образом для правильного определения пространственного местоположения источника/ков звука. И именно это рассуждение взято в основу всех существующих на сегодня технологий создания пространственного звучания.

Оказывается, если произвести специальную обработку звукового потока с учетом максимального числа особенностей восприятия звука слуховым аппаратом, то, возможно, удастся имитировать пространственное звучание даже с использованием всего двух источников (колонок или наушников). Необходимо подчеркнуть, что любой алгоритм создания 3D звука реализовывается с помощью алгоритмов фильтрации (оперирующих с амплитудой и частотой звукового сигнала) той или иной сложности, которые определенным образом "обманывают" слуховой аппарат, "заставляя его считать", что то, что он слышит, расположено в трехмерном пространстве вокруг слушателя.

Одним из таких алгоритмов (способов) является HRTF - Head Related Transfer Function. Посредством этого алгоритма звук можно преобразовать специальным образом, что обеспечит прекрасное 3D звучание, рассчитанное на прослушивание в наушниках (пояснение этому можно найти чуть ниже). Следует отметить, что HRTF (в том или ином виде) является основой создания множества существующих на сегодня методов создания объемного звучания. Однако мы не даром заговорили о HRTF как об одном из алгоритмов, так как этот алгоритм в чистом виде (впрочем, как и все остальные) не является единственным и совершенным. Все дело в том, что HRTF неодинаков для различного слушателя и, тем более, для различных положений головы (если речь идет о воспроизведении не через наушники). Безусловно, есть способы найти сбалансированный HRTF для всех слушателей, но такой подход не обеспечивает высокочеткое восприятие звука для каждого, и уж тем более не решает проблему с поворотами головы. Наверное, именно поэтому стандарт на HRTF не существует до сих пор.

Конечно, если в качестве источников звука будут выступать наушники, закрепленные на голове слушателя, то их расположение относительно головы слушателя не будет изменяться, какие бы повороты головы не производились. В этом случае, как мы сказали, с использованием HRTF может быть достигнуто высококачественное пространственное звучание. В случае же, если источниками являются, например, две колонки, то, кроме всего прочего, для создания естественного пространственного звучания необходимо, в частности, точно отслеживать повороты слушателем головы для соответствующей корректировки сигналов от каждого физического источника. Кроме того, при воспроизведении звука через наушники, сигнал от каждого канала попадает только в соответствующее ухо, а при воспроизведении через колонки сигналы могут смешиваться, в результате чего появляются перекрестные искажения. Этот недостаток частично устраняется с помощью специального устройства - бифонического процессора.

Итак, как мы сказали выше, при использовании в качестве источников звука колонок, возникает проблема необходимости расположения слушателя строго в определенной области пространства между источниками звука. Эта область называется Sweet Spot. При отсутствии возможности контролировать положение слушателя в пространстве относительно источников звука при прочих равных условиях, Sweet Spot накладывает строгие ограничения на расположение слушателя. Это значит, что как только слушатель покидает область Sweet Spot, звучание, создаваемое источниками, перестает восприниматься слушателем как пространственное. Поэтому, при создании технологий объемного звучания перед разработчиками возникает проблема расширения области Sweet Spot.

Одним из эффективных методов решения этой проблемы является введение дополнительного третьего источника звука, когда слушатель становится независимым от области Sweet Spot. Трехканальные системы объемного звучания часто используются в бытовой аудио и видео аппаратуре. Существуют также многоканальные (трех-, четырех- и более) расширения этого метода.

Однако наряду с проблемами реализации трехмерного звучания с помощью HRTF, у любой системы звуковоспроизведения есть проблемы другого плана. Так, например, наушники слабо справляются с воспроизведением фронтальных сигналов. При использовании наушников также возникает проблема локализации звукового сигнала внутри головы слушателя, а также эффект бесконечного расширения стерео базы. Конечно, существуют способы борьбы с этими эффектами, однако всех проблем это не решает. Двухканальные системы плохо обеспечивают восприятие слушателем звучания сзади. В реализации многоканальных систем слабым местом является необходимость достаточно точного расположения источников сигнала, потому что как раз это зачастую сделать затруднительно. Кроме того, здесь также существует проблема звучания в одной плоскости.

Таким образом, создание настоящего качественного пространственного звучания затруднено как необходимостью учитывать все особенности слухового аппарата человека, так и необходимостью динамического отслеживания положения слушателя относительно источников звука, а также учета особенностей звукопередачи последних. По этому, сложно сказать, какая схема создания 3D звука более совершенна. Гораздо легче сказать, что все существующие схемы далеки от совершенства, и все технологии 3D звука, построенные на использовании HRTF или других алгоритмов, имеют массу недостатков, так как просто невозможно создать универсальную схему, учитывающую все вышеперечисленные особенности слуха, источников звука и их расположения относительно слушателя.

В качестве справки отметим, что для создания библиотек HRTF используется искусственный манекен KEMAR (Knowles Electronics Manikin for Auditory Research) или специальное "цифровое ухо". В случае использования манекена суть измерений состоит в следующем. В уши манекена встраиваются микрофоны. Звук воспроизводится источниками, расположенными вокруг манекена, а запись производится с микрофонов. В результате, запись от каждого микрофона представляет собой звук, "прослушанный" соответствующим ухом манекена с учетом всех изменений, которые звук претерпел на пути к уху. Расчет HRTF производится с учетом исходного звука и звука, "услышанного" манекеном.

Следует сказать также, что мы рассмотрели лишь одну сторону реализации полноценного пространственного звучания. Дело в том, что на ряду со сложностями, связанными с "правильной" передачей объемности звучания, при создании игр возникают также проблемы корректной имитации различных физических свойств звука (эффектов отражения от различных поверхностей, поглощения и искажения звука). Грамотная реализация этих свойств также коренным образом влияет на ощущение слушателем пространственности звучания. Однако, эта проблема в основном касается аккуратности механизмов, закладываемых разработчиками в игры. Что же касается рассмотренной нами выше проблемы <донесения> трехмерного звука до пользователя (а вернее, до его нервной системы), то она остается не решенной, так как идеальные модели реализации трехмерного звучания еще не найдены.

Вы знаете о компании Fraunhofer ? Нет? А должны бы, ведь она причастна к изобретению сверхпопулярного формата MP3! Возможно, у нее получится стать популярней с ее последней технологией, которая привнесет качественный объемный звук в наши планшеты и смартфоны.

Новый Nexus 7 стал первым устройством, который использует новую разработку Faunhofer, позволяющую смотреть кино в объемном звучании через свои обычные наушники, или встроенные стереодинамики. Но почему это так важно?

Возможно, некоторые заметили, что когда вы что-то слушаете через наушники, то вам очень трудно определить глубину звучания. Другими словами, вам сложно сказать, как далеко впереди или позади от вас то, что вы слышите. В некоторых случаях, это может немного подпортить вам впечатления от фильма, просмотренного на планшете.

Чтобы решить эту проблему, Fraunhofer создали Cingo – технологию, неправленую на создание объемного звука, похожего на тот, что используется в 5.1 аудио-системах.

Как это работает

Лучший способ объяснить реализацию данной системы можно на примере из реальной жизни. Каждый источник звука, такой как машина или телевизор, находится на разном расстоянии, отражается от разных поверхностей, и достигает вашего уха под уникальным для всех остальных углом. Эти незначительные задержки при отражении от поверхностей благодаря строению нашей головы и ушей позволяют мозгу понимать расположение звука, придавая ему «глубины».

Cingo, по сути, создает «цифровое пространство» для нескольких каналов звука (источников), применяя различные цифровые фильтры и другие алгоритмы, для того, чтобы повторить слышимое нами в реальном мире. Этот процесс называется «бинауральная обработка звука», которая, в сочетании с более традиционными методами обработки, обеспечивает лучшие впечатления от прослушивания.

Применение в Android

От теоретических расчетов, Cingo быстро нашла практическое применение в новом Android 4.3. Технология объемного звучания уже присутствует в новом Nexus 7, а затем появится и на Nexus 10.

Но не Nexus’ами едиными. Cingo сможет работать на любых Android-устройствах, которые используют High Efficiency AAC (HE-AAC) аудио-кодек, так как именно он позволяет управлять несколькими источниками звука на наших портативных девайсах.

Однако объемный звук будет работать только с исходными файлами, которые содержат несколько звуковых каналов. Другими словами, для того чтобы услышать объемный звук, мы должны смотреть фильм с поддержкой 5.1-звучания. То есть на обычных звуковых дорожках эта функция работать не будет.

А если вам интересно насколько потрясающим может быть бинауральное аудио, то вот вам ссылка , наслаждайтесь!

И его перспективах.

В этом материале вы узнаете об особенностях воспроизведения звука и музыки в VR, с какими проблемами сталкиваются аудиоспециалисты и как их можно решить.

«Реально то, что осознаешь»

Есть два способа передачи информации с помощью VR-технологий. В первом случае разработчики стремятся воссоздать картинку, максимально приближенную к реальности. Во втором – сгенерировать совершенно другой мир и атмосферу, создать иллюзию, в которой все происходящее логически связано.

Со вторым способом все просто: если обстановка, персонажи и их действия ненастоящие, значит, и законы этого мира отличаются от реальности. Гораздо сложнее воссоздать то, что само по себе реально. Трудность заключается в том, что в некоторых играх или видеосюжетах возникают странные моменты, которые «выдергивают» человеческое сознание из этой иллюзии.

Разработчикам игр и мультипликаторам знакома гипотеза, которая носит название эффекта «зловещей долины» (uncanny valley). Суть гипотезы в том, что персонаж, который выглядит или действует почти как человек, но все же немного от него отличается, вызывает у нас страх или неприязнь. Нечто похожее происходит и со звуком в VR.

В отличие от зрительного восприятия, определить, какой объект находится перед нами, на слух, гораздо сложнее. Узнать его приблизительные размеры и относительную дистанцию до него можно, только если объект издает звуки. Благодаря тому, что у нас есть богатый «слуховой» опыт восприятия мира, в виртуальной реальности мозг сравнивает новую информацию с тем, что происходит с нами в действительности.

Человеческий голос в данном случае – наиболее «знакомый» для нас фактор: поэтому его наличие в звуковом оформлении игры заметно облегчает наше «слуховое погружение» в виртуальную реальность. Но голос, как и человекоподобный персонаж, подвержен эффекту «зловещей долины». Например, слишком высокая компрессия звука вызовет «недоверие» у нашего сознания.

Видео ниже помогает понять, на что способен наш мозг. Всю информацию о перемещении объектов мозг получает только из звукового сигнала. Эту и следующие видеозаписи рекомендуется прослушивать в наушниках и с закрытыми глазами.

Звук в этом видео был создан с помощью метода бинауральной записи: она осуществляется через два микрофона, а итоговый фрагмент необходимо прослушивать в наушниках.

Помимо специального расположения микрофонов, в записи участвует либо манекен, имитирующий реальную голову, либо так называемый диск Джеклина (на фото ниже). Не путайте понятия «бинауральный» и «стерео». Обычная стереозапись не учитывает расстояние между ушами и отражение звука от головы и ушных раковин – факторы, влияющие на распространение звука.

В современных шлемах виртуальной реальности эти условия, к сожалению, не учитываются. Более того, такие компании, как Project Morpheus и HTC Vive, поставляют VR-шлемы без наушников, предлагая покупателям воспользоваться своей техникой. В комплекте Oculus Rift есть фирменные наушники, но и здесь предполагается замена на модель «более высокого качества».

У геймеров большой популярностью пользуются наушники с технологией Surround Sound 7.1. На сайте сообщества геймеров Kotaku проводилось голосование за лучшие игровые наушники. Самыми популярными моделями оказались беспроводные наушники Astro A50 и Logitech G930 , поддерживающие эту технологию. Другими словами, само сообщество определило, что «высокое качество» подразумевает наличие эффекта объемного звучания.

Итак, бинауральное звучание отличается от стерео. Стерео (2.0), в свою очередь, отличается от объемного звука (7.1): Если для бинаурального и стереозвучания требуются специальные способы звукозаписи, то для того, чтобы добиться эффекта пространственного звучания, звук нужно проигрывать через большое количество источников звука. Именно за счет числа динамиков создается эффект погружения.

Однако для VR в первую очередь важно не погружение, а «реалистичность» звучания. Если бинауральную запись подвергнуть обработке через гарнитуры формата 7.1, то конечная запись вряд ли оправдает ожидания слушателя. Это значит, что стандартными методами эту проблему решить не удастся.

Главное – реалистичность

Чтобы добиться реалистичности звучания, нужно учитывать положение тела в пространстве, а также следить за взаимодействием с передаточной функцией головы (HRTF).

В VR у пользователя есть возможность перемещаться и совершать движения головой в любом направлении. Соответственно, если голова, а точнее уши, изменят свое положение, то входящий звуковой сигнал тоже должен измениться. Бинауральная запись может усилить эффект погружения в виртуальную реальность, подчеркнув глубину происходящих событий.

Помимо звуков, которые мы привыкли слышать – так называемых диегетических звуков, существуют также недиегетические звуки: мы не слышим их в повседневной жизни, но они могут быть частью компьютерной игры или фильма. Пример – фоновая музыка или речь повествователя.

В компьютерной игре нас не интересует, откуда исходит голос и музыка. Другое дело –виртуальная реальность. Чтобы вписать недиегетические звуки в виртуальный мир, необходимо использовать связующие объекты. К примеру, логично будет смотреться, если повествователь говорит по радио или в телефонную трубку.

Что касается музыки, то здесь возникают другие вопросы. Конечно, ее можно привязать к радиоприемнику, чтобы было понятно, откуда исходит звук. Но этого не достаточно: музыка, исходящая из него, будет звучать неравномерно.

Одно из возможных решений – применение динамической компрессии вместе с усилением нижних частот, вызывающие «эффект близости». На видео ниже Александр Джей Тернер (Alexander J Turner) подробно разбирает это явление. Оно тесно связано с устройством микрофона: чем ближе к нему говорящий, тем ярче на выходе нижние частоты и тем звук будет более насыщенным.

В играх зачастую используются композиции, записанные в студиях или других акустических пространствах. Эти пространства передают «живость» звучания благодаря тому, что звучание инструментов смешивается со звуковыми отражениями в помещении. Так, на концерте в консерватории не возникает ощущения, что музыка давит или вторгается в личное пространство. Наоборот, мы чувствуем, что она находится на расстоянии от нас.

Однако в VR не используются «слишком живые» записи: слушателю будет непонятно, откуда исходит звук. Альтернативным решением этой проблемы будет запись музыки в нейтральной среде с последующей обработкой, чтобы не нарушать органичность звучания. Также, возможно, стоит отказаться от стереозвучания и свести все к более центрированному звуку. Его можно немного сжать, а затем применить к нему настройки эквалайзера. Тогда музыка будет звучать так, будто она играет не «где-то там», а «у нас в голове».

Эффекта реалистичности можно также добиться за счет ненавязчивого акцента на окружающей ситуации. Например, в следующем видео чувствуется как визуальная, так и звуковая напряженность. Стоит отметить, что эффект от диегетических звуков в этой записи сильнее, чем от недиегетических, и больше акцента делается на обстановке, чем на звуке.

Еще один пример того же подхода. Всего несколько звуков создают нагнетающую и напряженную атмосферу.

Таким образом, звук, выверенный слишком чисто и аккуратно, может показаться искусственным. В то же время, даже если он «грязный», но создает реалистичную картину – с помощью дополнительных звуковых эффектов или динамичной окружающей среды – впечатление от прослушивания будет в разы сильнее.

Иными словами, не надо стремиться сделать звук идеальным. Нужно сделать его как можно реалистичнее, чтобы слушатель мог ощутить те эмоции, которые задумывал создатель того или иного произведения.

Мы постоянно разбираемся в новинках и просто изучаем интересные материалы о звуке. Совсем недавно мы начали готовить тематические