VR中的声音（spatial audio）听起来体验如何？和传统音频有什么区别？-520吉他网

当前位置：首页 > 头条 > VR中的声音（spatial audio）听起来体验如何？和传统音频有什么区别？

时间：2019-12-05 来源：网络资源标签：看见你的声音2

不請自來本文不會提到任何基於物理建模的算法，主要會提到基於數據採樣的模擬方式任何一個基於Binaural Stereo的短徑錄音結構都可以做出類似於VR音頻的概念。

目前來說最接近真實音響效果的是被稱作ASMR的人頭錄音運用。

在提到ASMR之前首先提出兩個概念，靜態聲源與動態聲源：靜態聲源是指在一個空間隨著時序內保持同一個位置的聲源，只涉及到距離，障礙物，方向（因為人耳的結構導致不同方向對頻段有衰減）導致的頻段共振與衰減；以及位置導致的相位差。

而動態聲源是在靜態聲源以上加上由於聲源位置改變導致直達聲（Direct sound）與反射聲（Echo）多普勒效應（Doppler）等較為複雜的聲學現象。

而接收器（receiver）的運動也會使全局的聲源改變運動狀態。

簡單介紹一下，ASMR是包含人耳物理模型的一對咪，它所包含的人耳物理模型以及接近雙耳位置的特徵比起傳統立體聲micing（ORTF，AB，XY等），擁有更多缺陷與色彩。

其缺陷與色彩的來源主要是耳廓與頭部的遮罩（Masking）與外耳產生的共振（Resonance），以及聲源位置不同產生的相位變化。

首先同時提到一下Masking與Resonance：動物在進化過程中，聽覺一直是不可或缺的一部分。

作為食物鏈中的消費者，靈敏的，能判斷其餘捕食者或獵物位置的耳朵讓他們獲取食物與保命如虎添翼。

即使在社會化中的人類也仍然保留了這樣的特質。

（圖1 兇猛捕食者的耳朵）唯一能讓人類感受到不同位置導致的音色變化的方式，就是一個精心設計過的耳廓。

假如不同位置的聲源都能有自己最明顯的頻域，人類很快就能判斷出聲源的具體方向與距離＊1。

人耳為了迎合這點，通過皮膚，耳骨與頭骨使得不同方向的聲源都有自己可以輕鬆辨別的頻段。

假如聽眾有機會對比類似雙全向（Omni）咪擺開人頭距離的實例與人頭錄音的實例，聽眾很快就能判斷出哪組sample是人頭錄音。

通過ASMR發展之後，聲音設計師設計出一系列的解決方案，比如Quad Binaural，HRTF（BRIR）等。

由於內容的相關性，我將重點介紹HRTF這種實現方式。

HRTF全稱Head Related Transfer Function，是一種基於大量不同方向相同變量的IR採樣陣列實現的頭部模擬。

何謂IR：IR全稱Impulse Response（脈衝響應）。

在音頻方面是一種對於單一狀態的儀器/建築/拾音條件通過特定算法（Convolution相關的積分變換）來得到的PCM採樣，相當於把一個狀態下的效果器/房間採樣下來，然後再把新的信號輸入，模擬新信號通過該效果器/房間的音響效果。

IR在HRTF的應用即是把人頭用一個球圍起來，在每個點上都通過IR進行採樣，最後得到一個各個方向都擁有IR的採樣陣列。

（圖例1 HRTF採樣現場利用入耳式咪引用自 Midifan月刊 Spatial Audio的實現方式作者：许津玮）HRTF可以把點狀音頻信息轉換為通過座標，實現在一個在球狀物體上任何一個聲源都可以擁有獨立的頻段屬性（基於人的外耳masking與resonance）。

而在偏移特定採樣點的方位，通過對IR進行插值進行解決。

HRTF的缺陷僅僅在於運算量大，由於要處理大量線性IR，只有把IR轉換成類似VOCODER的EQ band才能有更高效率。

由於聲源變換產生的EQ變化本身微乎其微，所以在大動態的應用場景下，插值並Motion EQ化的HRTF並沒有更高的運算效率。

在一些商業的，更高級的HRTF算法中，會整合動態聲源中由於快速移動而產生的Doppler算法，並且利用圖形化的UI。

來自NoiseMaker的Ambi Head是一款把多重基於人性化HRTF算法整合在極簡化操作中的Binaural Encoder，它在小小的四個旋鈕＊2裏就包含了一切在虛擬球體中能夠實現的一切運動。

Waves NX同樣是一款基於HRTF的聲源模擬效果器，實際上還是基於HRTF的。

和上面提到的Ambi Head所利用的Google Jump Inspector不同，Waves提供了一個更專業的Tracker，但實際上還是通過Gyro等簡單的電路來實現低延遲的方向追蹤（不包含任何座標變化）由於多普勒效應的存在，以及兩耳之間確實有一定的距離，在聲源移動過程中的確會產生一部分相位差。

人類同樣通過相位差來判斷聲源位置以及其變化，作為一個與身俱來的特質，人耳不會在判斷過程中產生任何的遲疑。

以上兩個Plugin都或多或少地實現了這點。

（如圖由於距離導致的相位差）根據以上兩個位置，其實閱讀本篇文章的人一定已經發現HRTF並不涉及到任何的座標變化，而全都是一些方向上的變化。

如果要涉及到座標位置，無論是在接近VR的程度，還是在算法的複雜度上來說都不是HRTF大量的數據堆棧所能實現的東西了＊3。

由於本文作者長年浸淫混音產業，對聲場方面小有研究，這時候可能會更提到一些混音方面的概念。

在混音過程中，控制一個聲源的遠近一直是個很有意思的話題。

由於通過HRTF我們已經解決了斜向聲源產生的相位差，剩下的只有一個維度的座標，也就是前後。

無論在哪本混音教程中都會提到，影響一個點狀聲源的的因素有三個：回聲與直達聲的比率，音量衰減和特定頻段衰減。

基於這些，通過建立一些針對於不同空間的非線性函數可以做出很有說服力的距離實現。

頻段衰減：假設一個聲源夠遠，那麼由於高頻的能量缺失，通常會因為在空氣中的傳播而丟失高頻，而由於低頻的指向性，同時也會丟失一部分低頻。

音量衰減：因為距離，所有頻段都會進行衰減。

回聲與直達聲的比率：因為在聲音的傳達中，會產生大量的反射聲，同时原声的比率减少。