不請自來本文不會提到任何基於物理建模的算法,主要會提到基於數據採樣的模擬方式任何一個基於Binaural Stereo的短徑錄音結構都可以做出類似於VR音頻的概念。
目前來說最接近真實音響效果的是被稱作ASMR的人頭錄音運用。
在提到ASMR之前首先提出兩個概念,靜態聲源與動態聲源:靜態聲源是指在一個空間隨著時序內保持同一個位置的聲源,只涉及到距離,障礙物,方向(因為人耳的結構導致不同方向對頻段有衰減)導致的頻段共振與衰減;以及位置導致的相位差。
而動態聲源是在靜態聲源以上加上由於聲源位置改變導致直達聲(Direct sound)與反射聲(Echo)多普勒效應(Doppler)等較為複雜的聲學現象。
而接收器(receiver)的運動也會使全局的聲源改變運動狀態。
簡單介紹一下,ASMR是包含人耳物理模型的一對咪,它所包含的人耳物理模型以及接近雙耳位置的特徵比起傳統立體聲micing(ORTF,AB,XY等),擁有更多缺陷與色彩。
其缺陷與色彩的來源主要是耳廓與頭部的遮罩(Masking)與外耳產生的共振(Resonance),以及聲源位置不同產生的相位變化。
首先同時提到一下Masking與Resonance:動物在進化過程中,聽覺一直是不可或缺的一部分。
作為食物鏈中的消費者,靈敏的,能判斷其餘捕食者或獵物位置的耳朵讓他們獲取食物與保命如虎添翼。
即使在社會化中的人類也仍然保留了這樣的特質。
(圖1 兇猛捕食者的耳朵)唯一能讓人類感受到不同位置導致的音色變化的方式,就是一個精心設計過的耳廓。
假如不同位置的聲源都能有自己最明顯的頻域,人類很快就能判斷出聲源的具體方向與距離*1。
人耳為了迎合這點,通過皮膚,耳骨與頭骨使得不同方向的聲源都有自己可以輕鬆辨別的頻段。
假如聽眾有機會對比類似雙全向(Omni)咪擺開人頭距離的實例與人頭錄音的實例,聽眾很快就能判斷出哪組sample是人頭錄音。
通過ASMR發展之後,聲音設計師設計出一系列的解決方案,比如Quad Binaural,HRTF(BRIR)等。
由於內容的相關性,我將重點介紹HRTF這種實現方式。
HRTF全稱Head Related Transfer Function,是一種基於大量不同方向相同變量的IR採樣陣列實現的頭部模擬。
何謂IR:IR全稱Impulse Response(脈衝響應)。
在音頻方面是一種對於單一狀態的儀器/建築/拾音條件通過特定算法(Convolution相關的積分變換)來得到的PCM採樣,相當於把一個狀態下的效果器/房間採樣下來,然後再把新的信號輸入,模擬新信號通過該效果器/房間的音響效果。
IR在HRTF的應用即是把人頭用一個球圍起來,在每個點上都通過IR進行採樣,最後得到一個各個方向都擁有IR的採樣陣列。
(圖例1 HRTF採樣現場 利用入耳式咪 引用自 Midifan月刊 Spatial Audio的實現方式 作者:许津玮)HRTF可以把點狀音頻信息轉換為通過座標,實現在一個在球狀物體上任何一個聲源都可以擁有獨立的頻段屬性(基於人的外耳masking與resonance)。
而在偏移特定採樣點的方位,通過對IR進行插值進行解決。
HRTF的缺陷僅僅在於運算量大,由於要處理大量線性IR,只有把IR轉換成類似VOCODER的EQ band才能有更高效率。
由於聲源變換產生的EQ變化本身微乎其微,所以在大動態的應用場景下,插值並Motion EQ化的HRTF並沒有更高的運算效率。
在一些商業的,更高級的HRTF算法中,會整合動態聲源中由於快速移動而產生的Doppler算法,並且利用圖形化的UI。
來自NoiseMaker的Ambi Head是一款把多重基於人性化HRTF算法整合在極簡化操作中的Binaural Encoder,它在小小的四個旋鈕*2裏就包含了一切在虛擬球體中能夠實現的一切運動。
Waves NX同樣是一款基於HRTF的聲源模擬效果器,實際上還是基於HRTF的。
和上面提到的Ambi Head所利用的Google Jump Inspector不同,Waves提供了一個更專業的Tracker,但實際上還是通過Gyro等簡單的電路來實現低延遲的方向追蹤(不包含任何座標變化)由於多普勒效應的存在,以及兩耳之間確實有一定的距離,在聲源移動過程中的確會產生一部分相位差。
人類同樣通過相位差來判斷聲源位置以及其變化,作為一個與身俱來的特質,人耳不會在判斷過程中產生任何的遲疑。
以上兩個Plugin都或多或少地實現了這點。
(如圖 由於距離導致的相位差)根據以上兩個位置,其實閱讀本篇文章的人一定已經發現HRTF並不涉及到任何的座標變化,而全都是一些方向上的變化。
如果要涉及到座標位置,無論是在接近VR的程度,還是在算法的複雜度上來說都不是HRTF大量的數據堆棧所能實現的東西了*3。
由於本文作者長年浸淫混音產業,對聲場方面小有研究,這時候可能會更提到一些混音方面的概念。
在混音過程中,控制一個聲源的遠近一直是個很有意思的話題。
由於通過HRTF我們已經解決了斜向聲源產生的相位差,剩下的只有一個維度的座標,也就是前後。
無論在哪本混音教程中都會提到,影響一個點狀聲源的的因素有三個:回聲與直達聲的比率,音量衰減和特定頻段衰減。
基於這些,通過建立一些針對於不同空間的非線性函數可以做出很有說服力的距離實現。
頻段衰減:假設一個聲源夠遠,那麼由於高頻的能量缺失,通常會因為在空氣中的傳播而丟失高頻,而由於低頻的指向性,同時也會丟失一部分低頻。
音量衰減:因為距離,所有頻段都會進行衰減。
回聲與直達聲的比率:因為在聲音的傳達中,會產生大量的反射聲,同时原声的比率减少。
(先占个坑 現在暫時在國內,有之前mark的大量資源沒辦法訪問 主要是障礙物和音線追蹤方面的核彈廠的論文)1:單靠耳廓對頻段的影響是不能判斷出聲源位置的,人判斷聲源位置的信息處理實際上在這基礎上還複雜很多。
其中更多包含的是多普勒效應產生的音高全局變化,以及位置變化產生的頻段EQ快速變化(人類對於這種變化真的非常敏感)。
2:我不蝦,但是我不覺得那個Gain的旋鈕有什麼好提的。
3: 題外話,其實根據VSL所推出的MIR PRO這個Plugin完全能夠印證通過大量IR採樣以及其插值已經能夠實現不同位置模擬不同反射聲與混響的狀態。
無非是廠商願不願意再增加一個維度以及其帶來的多幾百萬個IR採樣的工作量來製造這樣一個吃力而不討好的商業插件了(MIR PRO是二維採樣)。
- 夏天的风 姑娘 老男孩 理想三旬 月半小夜曲 生日快乐 其实 那些年 光阴的故事 少年 后来遇见他 那女孩对我说 世界这么大还是遇见你 火红的萨日朗 想见你想见你想见你 冬眠 关键词 芒种 往后余生 关山酒 年轮说 小镇姑娘 烟雨行舟 记念 你笑起来真好看 来自天堂的魔鬼 学猫叫 你的酒馆对我打了烊 不仅仅是喜欢 浪人琵琶 卡路里 带你去旅行 红昭愿 纸短情长 最美的期待 体面 小跳蛙 悬溺 侧脸 山楂树之恋 我的名字 失眠飞行 有可能的夜晚 追光者 请先说你好 流浪 东西 星球坠落 我的将军啊 烟火里的尘埃 答案 心如止水 我们不一样 嘴巴嘟嘟 晴天 成都 告白气球 南山南 女儿情 天空之城
报歉!评论已关闭。