Со времени первых экспериментов по звукозаписи бинауральных сигналов предпринимались попытки их воспроизведения через громкоговорители, поскольку при этом восприятие звука происходит более естественно, что приводит к меньшей утомляемости слушателя. Однако при воспроизведении через громкоговорители возникают перекрестные связи, что приводит к сжатию виртуального источника во фронтальной плоскости с потерей пространственного образа. Первые системы, реализующие подавление перекрестных связей, назывались TRADIS (true reproduction of all direction stereophony) и были основаны на технологии, разработанной B. Atal и M. Schroeder [1]. Дальнейшие исследования в области воспроизведения бинауральных записей через громкоговорители обусловили появление отдельного направления, повлиявшего на развитие бинауральных технологий, которое получило название трансауральная стереофония.
Трансауральная стереофония – система воспроизведения бинауральных записей (сделанных на голове слушателя или на искусственной голове) через два громкоговорителя. Принципиальным отличием трансауральной от обычной стереофонии является то, что с ее помощью воспроизводится трехмерная звуковая картина, в то время как при стереофоническом воспроизведении слышимые звуковые источники располагаются в плоскости между громкоговорителями.
Если бинаурально записанные сигналы (внутри слухового канала) прямо воспроизводить через два громкоговорителя, то пропадает пространственный эффект (из-за наличия перекрестных связей), получается очень узкий стереообраз (особенно на низких частотах из-за малого расстояния между микрофонами, расположенными на голове), заметны значительные искажения тембра (поскольку сигналы уже обработанные ушной раковиной слушателя (или ИГ) при записи и имеющие достаточно большую неравномерность (рис.1), еще раз обрабатываются ушными раковинами слушателя, что еще больше увеличивает неравномерность на высоких частотах). Именно это – плохая совместимость бинауральных записей с прослушиванием через громкоговорители и необходимость четко фиксировать положение головы слушателя и были основными причинами, сдерживающими развитие трансауральной стереофонии.
Для того чтобы добиться ощущения пространственности при воспроизведении бинауральных записей через громкоговорители, необходимо решение целого ряда технических проблем:
- устранение сигналов, попадающих на противоположные уши, т.е. «перекрестных связей» (cross-talkcancellation), что соответствует передаточным функциям HLR, HRL рис. 2. Устройство, выполняющее такие функции, получило название «бифонический процессор»;
- эквализация (выравнивание) прямых связей – HLL,HRR (рис. 2–9), чтобы устранить вторичную обработку сигнала ушными раковинами слушателя (они уже были включены в сигнал при записи на искусственной голове) и влияние отраженных сигналов во вторичном помещении (желательно чтобы помещение было достаточно хорошо заглушено).
В матричной форме эта задача может быть записана следующим образом [3]:
[H] [A]=[1], (2)
где матрица Н определяется передаточными функциями правого и левого канала (рис. 2):
H=;
матрица А состоит из коэффициентов корректирующих фильтров:
A=
Матрица 1 представляет собой единичную матрицу равную
Таким образом, как следует из формулы (2), необходимо создать инверсные фильтры, с помощью которых должны быть обработаны входные сигналы на левый и правый громкоговоритель с тем, чтобы на слуховые каналы слушателя поступили сигналы, точно совпадающие с бинауральными сигналами, записанными в первичном поле на ИГ (или естественной голове). Тогда у слушателя восстанавливается пространственная звуковая картина, как и при прослушивании через стереотелефоны. Необходимо отметить, что через два громкоговорителя восстанавливается в основном переднее полупространство в отличие от стереотелефонов.
Следует выбирать громкоговорители с минимально возможными искажениями, в т.ч. с гладкой АЧХ, или необходимо производить их эквализацию, иначе они будут вносить искажения в сигналы, которые могут привести к потере пространственности.
Общая теория трансауральной стереофонии для нескольких громкоговорителей была развита в трудах Bauck J., Cooper D. [3].
Искажения тембра могут возникать за счет погрешностей при расчете инверсных фильтров (устраняющих перекрестные связи), поэтому иногда используются специальные алгоритмы, позволяющие в известных пределах сгладить пики-провалы передаточных функций без потери пространственности, чтобы несколько снизить эти искажения [6].
Рассчитанные параметры инверсных фильтров подходят только для одного фиксированного положения головы. При сдвиге или повороте головы надо пересчитывать параметры фильтров, иначе ощущение пространственности теряется. В настоящее время разработано достаточно много систем, позволяющих отслеживать движение головы (headtracker), при этом используются акустические, оптические, механические и др. датчики, регистрирующие повороты головы [4,6], что дает возможность пересчитать характеристики инверсных фильтров, причем было показано, что порог заметности задержки пересчета от реального движения составляет 85мс [7].
Оригинальная идея была предложена в работе G.Thiele и др. [5] – воссоздать с помощью системы WFS два виртуальных громкоговорителя, положение которых будет меняться при поворотах головы, тогда параметры инверсных фильтров будут постоянными.
В настоящее время трансауральная стереофония находит применение для воспроизведения пространственного звука через два компьютерных громкоговорителя для различных мультимедийных приложений и игр, когда положение головы слушателя относительно стабильно.
Бинауральный синтез
Бинауральным синтезом (VAD) называется процесс моделирования бинауральных сигналов, при котором вместо записанных в слуховом канале звуковых сигналов создаются сигналы с помощью процесса обработки монофонического сигнала от звукового источника двумя фильтрами, которые моделируют передаточные функции (HRTF) для левого и правого уха [6].
Во временной области это может быть представлено как операция свертки сигнала источника p0(t) с импульсными передаточными функциями
hL и hR (рис.3): pL(r,θ,φ,t)=hL(r,θ,φ,t)*p0(t);
pR(r,θ,φ,t)=hR(r,θ,φ,t)*p0(t).
Техника бинаурального синтеза начала развиваться с 80-х годов прошлого века и в настоящее время активно расширяется.
Параметры фильтров могут быть вычислены как из измеренных передаточных функций (банки данных для таких функций, измеренные для любого положения источника, с большой разрешающей способностью имеются в сети Интернет на ресурсе [8]), так и из рассчитанных HRTF (HRIR). Расчет производится численными методами с учетом дифракции на голове, торсе и ушных раковинах [4,6].
Для моделирования глубины (расстояния до источника) используются передаточные функции ближнего поля, они могут быть измерены или вычислены из стандартных HRTF [6]. Для учета отражений в помещении в процессе синтеза должны использоваться импульсные бинауральные функции BRIR (рассчитанные или измеренные) с последующей их сверткой с монофоническим сигналом. Поскольку реальный пространственный слух позволяет локализовать не только единичный, но и множественные источники, а также формировать общее пространственное впечатление, в том числе с учетом движения головы и источников, то в настоящее время развивается техника бинаурального синтеза, формирующая все эти свойства, она получила название VAE – virtual acoustical environment display.
Проблемы реализации алгоритмов бинаурального синтеза сталкиваются со значительными трудностями, обусловленными точностью аппроксимации передаточных функций с помощью фильтров, выбором длины импульсной характеристики в помещении (при большой длине требуются слишком большие объемы вычислений, при малой удается учесть только несколько первых отражений и др.). Все проблемы, перечисленные выше для бинауральной и трансауральной стереофонии, остаются и в процессе бинаурального синтеза, а именно – необходимость калибровки стереотелефонов, подавление перекрестных связей между громкоговорителями, учет движения головы, требующий пересчета параметров бинауральных фильтров в реальном времени и т.д.
Техника бинаурального синтеза активно развивается и совершенствуется и уже находит применение в процессах преобразования многоканальных стереосигналов в бинауральные и, наоборот, в аурализации помещений, в научных исследованиях, в различных направлениях и сферах аудиального искусства. В этой связи необходимо отметить, что современная процессорная обработка звука с помощью цифровых и компьютерных технологий, новых видов тембральной обработки звукового сигнала (морфинг, вокодинг и др.) открыли огромные возможности изменения и обогащения звуковой сферы за счет управления различными характеристиками звука. Новые методы управления параметрами звукового поля – за счет создания новых алгоритмов и принципов построения многоканальных систем пространственной передачи звука, таких как матричная стереофония, системы волнового синтеза, адаптивная фильтрация и аурализация, и наконец, бинауральная стереофония и ее производные – бинауральный синтез и трансауральная стереофония, стали новыми сильнейшими средствами художественной звуковыразительности в формировании и передаче пространственного звукозрительного образа.
Таким образом, научное и практическое развитие направления трансауральная стереофония открывает уникальные возможности и решения принципиально новых творческих задач в процессе записи, передачи и воспроизведении звука с погружением реципиента в трехмерные пространственные системы виртуальной реальности с заданными и регулируемыми параметрами звукового поля с учетом взаимодействия аудио-визуального и тактильного восприятия.
Рецензенты:
Денисов А.В., доктор искусствоведения, профессор кафедры теории и истории культуры Российского государственного педагогического университета им. Герцена, г. Санкт-Петербург;
Соломонова Н.А., доктор искусствоведения, профессор кафедры звукорежиссуры Негосударственного образовательного учреждения высшего профессионального образования «Санкт-Петербургский гуманитарный университет профсоюзов», г. Санкт-Петербург.