3D音频知识小百科上篇

2022.05.20 / 阅读：1854

3D音频知识小百科上篇

前⾔

沉浸式⾳频是⾳频⾏业的⼤势所趋。电影业、电视、虚拟现实/增强现实技术 (VR/AR)、电⼦游戏、⾳乐、博物馆等领域都已开始引进 3D ⾳频技术，让观众沉浸其中、改善体验。但这⼀趋势也带来了新概念和专业⼈⼠最初可能⽆法理解的新/旧技术，如 7.1.2 通道、幅度⽮量合成(VBAP)、22.2 通道、对象、beds、B-格式、AmbiX、ACN、SN3D、头相关传递函数 (HRTF)、头相关脉冲响应 (HRIR) 等流⾏词。

在撰写这个⼩册⼦的过程中，我根据⾃⼰在⾳频⼯程学会 (AES) ⼤会中所进⾏的⼏个演讲，试图总结关于该主题最相关的信息，包括基于通道⾳频、基于对象⾳频、Ambisonics以及双⽿⾳频。

祝您阅读愉快。欢迎来到 3D ⾳效的世界……

Nuno Fonseca

nuno.fonseca@soundparticles.com

2020年8月

关于 Nuno

Nuno Fonseca（博⼠）是 Sound Particles 公司的创始⼈兼⾸席执⾏官，是 Sound Particles 软件创始⼈，这款类似 3D 计算机⽣成图像 (CGI) 的⾳频制作软件曾⽤于许多知名影视作品之中，例如《星球⼤战 9》、《冰雪奇缘 2》、《海王》和《权⼒的游戏》。

N u n o 曾经担任⼤学教授（计算机科学与⾳乐技术领域），编写了葡萄⽛语《 Introdu ç ã o à E n g e n h aria de Som（声⾳⼯程导论）》，合著葡萄⽛语

《 Desenvolvimento em iOS（iOS 开发）》，发表 20 多篇关于⾳频研究的论⽂。

他是⾳频⼯程学会 (AES)、电影电视⼯程师协会 (SMPTE)、计算机技术学会 (CAS)、⾳效剪辑者协会 (MPSE)、电影声⾳协会 (AMPS) 以及⾳频⼯程学会 (AES)“电影⾳频”技术委员会的成员。

中⽂版简介

我是⽆意中在领英上看到Nuno关于3D audio⼩册⼦的链接，⼀读之下，觉得这个⼩册⼦的内容组织的由浅⼊深，条理清晰，是难得的总结了环绕声和沉浸式⾳频的⼊门读物。虽然他的⽬标读者是录⾳混⾳专业⼈⼠，但是对我这种重放端的⾳频专业⼈员⼀样有教育意义，帮我们理清了很多的相关的概念。

我当时就想把它翻译为中⽂，接触了Nuno后，原来他已经安排了中⽂版的翻译，问我愿不愿帮忙审阅⼀下翻译稿，我⽴刻欣然答应了。

今年8⽉份，Nuno把翻译稿寄给我。我发现因为译者不是⾳频专业⼈⼠，有很多专业术语不正确，很多地⽅因为对技术不理解，表达的意思错误。所以，我对译⽂进⾏了很多修正。

在这⾥我想对⼀些概念进⼀步说明⼀下：

Pan/Panning/Panner：它的意思就是调整声像在空间的位置的处理/信息/设备。最初在⽴体声录⾳中，就是调整左右的相对位置，后来环绕声和3D⾳频出现后，泛指调整到空间任何位置。
Bed: 在基于⽬标的⾳频发⾏格式⾥，并不是所有声⾳都是基于⽬标的，很多还是混⾳于固定的通道，⽤基于通道的传统⽅法发⾏，这⼀部分称为bed。中⽂还没有正式的术语。
Ambisonics：有中⽂翻译为“环境空间谐波”，⼤部分中⽂资料都是直接⽤英⽂术语。
麦克风的指向：当英⽂提到8字型麦克风指向两侧时，意思是它的两个主旁瓣指向两侧，⽽我们看到的棍状的麦克风整体从视觉上还是指向前⽅的。这种8字型麦克风⾥⾯拾⾳头的振膜是平⾏于棍状的麦克风整体的，和⼼型指向麦克风的振膜⽅向不同。
单声道（mono）：不管在中⽂还是英⽂中，这个词在不同情景下运⽤，有些许不同的意思。⽐如在基于⽬标的⾳频中，每个⽬标都是⼀个单声道⾳频，这⾥指它是⼀个独⽴通道的声⾳波形⽂件或⾳轨。又⽐如在ambisonics中提到的单声道成分，是指拾取所有的⽅向的声⾳，就好像混合⽴体声的左右通道变成了⼀个单声道⾳频⼀样。
Decode / Encode：除了我们熟悉的⾳频编码格式⾥的codec会⽤到编码和解码，这个词也被借⽤描述对声⾳的空间位置的处理的不同阶段。⽐如基于⽬标的⾳频⾥，某⼀个⾳轨和metadata在⼀起encode了声⽬标，在重放阶段，会因应本地的扬声器设置，decode到各个通道去。又⽐如，Ambisonics的录⾳encode了所有的空间⾳频的信息，到了重放阶段需要因应本地的扬声器设置，decode到各个通道去。有时候（没有包含在这个⼩册⼦⾥），重放的扬声器是⼀个个阵列，主处理器会把含有空间信息的⾳频数据encode后，打包传送给扬声器阵列，扬声器因应⾃⾝阵列的情况，decode出阵列内各通道的⾳频内容。
Render：这是经常在软件/⽹络专业上使⽤的词汇，指的是在⾳频重放阶段，把⾳频解码后，进⾏处理，如3D audio decode，应⽤⾳量调整，动态调整等，得到最终的各通道⾳频信号重放。有时翻译为合成或呈现。⽽进⾏解码，处理和重放的设备，称为renderer。

我还和Nuno讨论了为何⼩册⼦⾥缺少decode Ambisonics的部分。Nuno说，decode Ambisonics⾮常的复杂，远超出了这个⼩册⼦所覆盖的⽔平。因为⽬标的读者是录⾳混

⾳专业⼈⼠，他觉得应该让他们明⽩Ambisonics encoding的概念，可以在DAW上看到并操作正确的波形。⾄于decode的⼯作，会有专门的插件来处理。

如果有读者了解正式的中⽂术语，或有任何意见，评论，可以提供给我们。

希望这个⼩册⼦可以让你有所得益。

卢峰

TCL鸿鹄实验室⾼级声学和⾳频专家 fengflu@hotmail.com

Sound Particles：音频知识3D小百科

基于通道⾳频

许多⾳频格式都会预先定义⾳频通道数量和扬声器位置，如⽴体声或 5.1 通道，因此又被称为基于通道⾳频。在我们深⼊了解和探讨 3D 及沉浸式⾳效前，需要更好地理解⼀些基本的声⾳格式，以便为学习 3D ⾳频奠定基础，这⼀点⾄关重要。那么，我们先从最简单的格式开始。

⽴体声

⽴体声试图⽤两个扬声器重建前⽅声像。如果向这两个扬声器发送相同的信号，就会产⽣⼀个幻像声源，我们感觉声⾳就来⾃正前⽅。如果改变 2 个扬声器信号之间的增益关系，就可以让声⾳在左右扬声器之间 “移动”。

⽴体声设置中，我们会通常认为扬声器的⾓度应该为60 度。为什么？

⼀⽅⾯，我们希望声像越宽越好。如果⾓度太⼩（将两个扬声器放的很近），声像就会太窄、太⼩。另⼀⽅⾯，如果我们扩⼤⾓度⼤幅超过 60 度（将两个扬声器分得很远），就会造成前⽅声像不连续。我们将失去中间的幻像声源，变成两个独⽴的⾳源，可以清晰感受到⼀个声⾳来⾃左侧扬声器，另⼀个声⾳来⾃右侧扬声器。左右两侧声⾳产⽣⼀个中间空洞，我们感到那个位置没有声⾳。

中置扬声器

随着电影⾏业的发展，专业⼈员决定在左右扬声器之间添加⼀个中置扬声器，这就引出了⼀个问题： “如果能在⼀对⽴体声扬声器之间创建出声像，为什么还需要在中间添加⼀个中置扬声器？”

有时，我和⼀些世界顶尖混⾳师交流，他们在著名专辑的混⾳中有利⽤环绕⾳，我甚⾄听到他们表⽰根本不⽤中置扬声器，因为在创作中不觉得缺少中间的声像。那么我们为什么还要中置扬声器？

任何事情都不可能始终完美，在空间⾳频世界中，这意味着并⾮所有⼈都能坐在房间中的最佳聆听位（完美聆听位置）。如果您处于最佳聆听位，左右扬声器可以在他们之间形成前⽅声像，但在很多时候，听者不在最佳聆听位。

例如在电影院，只有少数⼈能荣幸坐在最佳聆听位。⼤多数听众的座位过于靠两侧、靠前或靠后。左右扬声器位于投影屏幕边缘附近的后⽅。可以想象，坐在前排的听众左右扬声器之间的⾓度必然⼤于 60 度，这会造成前⽅声像不连续，形成中间空洞。同样，两侧的听众会更靠近其中⼀侧扬声器，会造成声像“失真”（不是⾳频失真，⽽是声⾳的⽅向感扭曲）。

在上述所有情况下，我们都需要中置扬声器，它就像⼀个锚，帮助我们感觉到更明确稳定的声像，尤其是帮助没有坐到最佳聆听位的听者。所以中置扬声器被⼴泛⽤于电影⾏业，

因为在影院中，观众都分散在影厅中的不同位置，仅有少数幸运⼉才能坐在最佳聆听位。

环绕扬声器

为了改善观影体验，⼈们开始在电影院两侧增设扬声器。电影不再仅仅提供前⽅声像，还会通过两侧的声⾳提供其他⽅向的声⾳，让聆听体验更真实，听众更能沉浸于场景之中（⽐如战争场⾯）。

其中⼀种早期格式是LCRS（左通道、中置通道、右通道、环绕声通道）。通过 LCRS，我们开始有个 5 个扬声器和 4 个⾳频通道的布局。在这种情况下，环绕声通道只是⼀个⾳频通道，即左环绕扬声器和右环绕扬声器重放完全相同的⾳频。

后来，5.1 通道等格式出现，开始独⽴的左环绕通道和右环绕通道，每边都有⾃⼰独⽴的⾳频通道。

在电影院，各环绕声通道并⾮由单个扬声器重放，⽽是各由⼀组扬声器重放。在配备5.1 通道⾳频系统的电影院⾥，你会发现：两侧和后⽅的墙壁上安装着许多扬声器。但这些扬声器其实只重放两个⾳频通道。这意味着左墙的所有扬声器和后墙左侧的那些扬声器重放完全相同的⾳频通道，右侧扬声器也遵循同样原理，重放右环绕通道。

为什么我们需要设置如此多的扬声器，⽽不是每侧只摆放⼀个扬声器？

第⼀个原因：增加更多扬声器可以防⽌声像“空洞”。不错，现在的环绕声在空间位置的精确度降低了，变得更加扩散，⼏乎没有聚焦，但不会出现不连续的空洞，所有⽅向都有声⾳。

其次，世界并不完美，很多⼈都⽆法坐到最佳聆听位。通过这种扬声器阵列的⽅法，⽆论您坐在何处，周围都会有⼏个扬声器。如果电影院中每个环绕声通道只使⽤⼀个扬声器，就会导致部分听众感受到很⼤的“空洞”：对于后排听众，环绕扬声器在其两侧（可能会略微靠前），导致⽆法感知后⽅⾳效；两侧靠前听众可能会听到后⽅扬声器的声⾳，但却⽆法感知附近侧墙⽅向的声⾳。

低频效果通道 / 重低⾳扬声器

随着电影⾏业的发展，电影制作⽅会希望通过更低频率声⾳提供更震撼的效果，如爆炸或地震。低频声⾳的问题在于：⼈类对这些频率范围的声⾳不敏感。想要听到 80 赫兹以下的频率的声⾳，就必须将其加强，提⾼声压级 (SPL)，这就

需要⾮常强⼤的扬声器重放这些频率的信号。

重放这些频率的声⾳就需要⼤幅增加功率，以下 2 种⽅法将可能达到期望结果。

第⼀种显⽽易见的解决⽅案是：使⽤更⼤功率的扬声器即更强⼤的⾳响系统重放低频声⾳。这是⼀个昂贵的解决⽅案，因为我们必须把所有扬声器替换为更⼤功率的新扬声器。还有更重要的，我们必须处理动态范围的问题。那个时代使⽤的是模拟系统，其动态范围⽐较窄，这意味着系统最⼤声⾳和背景噪⾳之间的范围较⼩。虽然提⾼功率使得系统可以重放低频声⾳，但也提⾼了系统的背景噪⾳⽔平，这在伴⾳⾳量很⼩的段落中更加明显，⽐如对话场景。

第⼆种同时也更有优势的⽅法：只增加⼀个专门重放低频的扬声器，馈给它⼀个单独的通道。为什么？第⼀，⼈对低频声⾳的⽅向不灵敏，这意味着使⽤单⼀的扬声器（虽然物理上声⾳来⾃单⼀⽅向）不会影响⼈的空间感或损害声像。第⼆，其他所有扬声器可以保持在原本的功率范围⼯作，不会产⽣动态范围的问题，如噪⾳⽔平增加。第三，通过拥有独⽴的⾳频通道 (LFE)，系统可以预设以⽐其他通道更⾼的增益重放该通道（即在不影响其他通道动态范围的情况下，增加低频的功率）。第四，电影院只需要再买⼀个扬声器即可，⽆需替换所有扬声器。通过这种⽅法，5.1 通道中的“1”就产⽣了： 5 个主要通道（左通道、中置通道、右通道、左环绕声和右环绕声）以及 1 个⽤于低频效果的通道LFE（名称中的“1”部分）。

需要注意的是，LFE 和重低⾳扬声器是不同的概念，LFE 是传输这些低频的通道名称，重低⾳扬声器（低⾳炮）是重放这些频率的扬声器名称。

其他⽔平布局（6.1/7.1）

除了 5.1 通道之外，通过增加额外通道产⽣了其他布局。

索尼在 90 年代创建了 SDDS，将其设置为 7.1 通道，但在前⽅设置 5 个扬声器：左侧、中间偏左、中置、中间偏右、右侧，同时保留 2 个环绕通道。由于在前⽅增加了扬声器，SDDS 主要应⽤于⼤屏幕影院，因为在这样的影院中，即使设置 3 个扬声器也不⾜以满⾜前排观众的需要。

之后，杜⽐创建了Dolby Digital Ex，⾸次应⽤于《星球⼤战》第 1 部。这是⼀种带有⼀个后置环绕扬声器的 6.1 通道格式，能够增强后⽅的声⾳感知。

最终，⽬前已经是“传统”的 7.1 通道出现了，这种布局包含 3 个前⽅通道和 4 个环绕通道，提⾼了两侧/后⽅的空间分辨率。

沉浸式⾳频

“沉浸式⾳频”的概念通常是指：让听者感受⽔平⾯以外其他⽅向声⾳的⾳频系统。沉浸式系统不⽌将扬声器放在⽔平⾯（前⽅、两侧以及后⽅），还在例如天花板、甚⾄地板上增加扬声器，能产⽣声⾳在不同⾼度的⽅向感。

为了产⽣不同⾼度的声⾳⽅向感，出现了⼏种格式：Auro 11.1/13.1、IMAX 12.0、NHK 22.2等格式。

例如，Auro 11.1 / Auro 13.1设置了 3 层扬声器：在⽔平⾯设置⼀个传统的5.1通道或7.1 通道扬声器组，在仰⾓约呈 30°⾓的⾼度层增加⼀层5.0通道的扬声器组，然后在听众正上⽅设置⼀个扬声器（它有个很形象的⽐喻：“上帝之声”)。这意味着 5.1 + 5.0 + 1 = 11.1 或 7.1 + 5.0 + 1 = 13.1。

IMAX 12.0 采⽤的⽅法略有不同。这种格式设置 12 个通道，其中在⽔平⾯上设置传统的 7 个通道，再在⾼层设置 5 个通道提供不同⾼度⽅向的声⾳，没有 LFE 通道（“12.0”中的 0）。

NHK 22.2 通道是由⽇本⼴播公司创建的格式，更进⼀步，包含 2 个 LFE 通道（左右各⼀个），在低层设置 3 个扬声器（放在前⽅低于⽔平⾯的位置，声⾳将从地下⽅向传出），在⽔平层⾯设置 10 个通道（前⽅ 5 个，环绕声 5 个），在⾼层设置 8 个通道 + 1 个“上帝之声” (3.2 + 10 + 8 + 1 = 22.2)。

3D PANNING

在⽔平⾯布局，声⾳通常会在两个扬声器之间Panning，虚拟出扬声器之间不同⽅向的声⾳。同样的情况也适⽤于沉浸式⾳频布局。但现在我们考虑由 3 个扬声器形成的三⾓形 — 通过改变每个扬声器播放的声⾳强度，让听者可以感知来⾃扬声器三⾓形区域内任何位置的声⾳。这种Panning技术被称为幅度⽮量合成 (VBAP)。

优点与缺点

基于通道⾳频有利有弊。主要优点在于，如果我们已经明确知道⾳频重放的扬声器布局，就可以打造⼀个完美的制作+重放系统。例如，如果我事先知道混⾳作品会被重放到⼀个每个扬声器都会放在规定的位置的5.1 通道系统。那就好了！我可以在录⾳室中使⽤完全相同条件的布局，制作⼀个完美的混⾳。

基于通道⾳频的主要缺点是缺乏灵活性，因为此类⾳频制作固定于某个特定的扬声器布局，如果需要改变输出扬声器布局，就需要重新制作混⾳。例如，如果某部电影发⾏的格式有⽴体声、 5.1 通道、7.1 通道、11.1 通道和 22.2 通道，就需要 5 种不同的混⾳，每种格式各⼀种。这种情况就会带来⼀个问题：“我们能否创建⼀种不依赖于输出通道布局的格式？我们能否创建⼀种格式，只需⼀次混⾳就能⾃动适应不同的扬声器布局？”答案是：可以，我们需要采⽤基于对象⾳频或Ambisonics⾳频。

基于对象⾳频

随着杜⽐全景声的出现，基于对象⾳频开始受到关注。但到底什么是基于对象⾳频？

基于通道⾳频与基于对象⾳频

在开始了解基于对象⾳频前，让我们先来分析如何制作并发⾏基于通道⾳频。

基于通道⾳频的基础是⼀个预先设定的扬声器布局 — 例如⽴体声或 5.1 通道，这意味着我们已经知道重放混⾳⾳频时的布局。据此，我们为这些通道创建⼀个混⾳版本后发⾏（例如经流媒体，存储在⽂件、DVD 中）。在重放过程中，只需要将每个通道的⾳频信号发送到相应的扬声器即可。

在录⾳室，每个声⾳都要经过Panner，它控制在每个输出通道上应该分配的声⾳的相对幅度。例如在 5.1 通道混⾳中，如果我希望将某个声⾳设置在中置和右侧扬声器之间的某处，就会使⽤Panner进⾏控制，在中间和右侧通道引⼊正确幅度的信号，但不会引⼊到其余通道上。

之后，所有Panner输出的声⾳在发⾏前混⾳在⼀起（使⽤总线）：将所有panning到左通道输出的声⾳混合在⼀起，成为左通道混⾳，右通道也是⼀样，以此类推。

最后，我们发⾏的是混⾳后的信号（DVD、流媒体等），以供之后重放。

基于对象⾳频的概念略有不同。不同于在录⾳室中混合所有声⾳并发⾏最终的混⾳，基于对象⾳频，在发⾏时所有声⾳都是独⽴分开的，在重放的时候才进⾏混⾳。

在录⾳室中仍要使⽤Panner来定位声⾳，但不会将panning的信息应⽤到声⾳上：您只需要指明声⾳应该定位在何处。经过发⾏后，在重放过程中，这些panning信息将根据重放系统的实际情况应⽤到声⾳上。

从本质上说，在发⾏中，您是在发布您的⽬标，“我希望将这个声⾳出现在这⾥，另⼀个声⾳出现在那⾥。”重放⾳频系统知道其扬声器数⽬和每个扬声器位置的信息，它在重放中以这些信息为基础对所有的声⾳进⾏实时处理，确保将正确信号发送给每个扬声器，实现制作者的⽬标。

让我们来看⼀个实际应⽤的例⼦：假设您希望⼀个声⾳出现在“中置通道”和“右通道”之间。如果是基于对象⾳频，我们会发布这个声⾳的⾳频流以及理想的panning位置。然后在重放过程中，根据扬声器实际设置的不同，声⾳最终将会在正确的⼏个扬声器中 “呈现render”。如果影院有 3 个前置扬声器（“左侧”、“中置”、“右侧”)，声⾳将被发送到“中置”和“右侧”的扬声器，但如果电影院有 5 个前置扬声器（“左侧”、“中间偏左”、 “中置”、“中间偏右”、“右侧”），声⾳将被发送到“中置”和“中间偏右”或“右侧”和“中间偏右”的扬声器，这取决于声⾳的定位是否更接近正中间。

另⼀个例⼦：⼀辆汽车从左侧经过的场景。如果是基于通道⾳频，将完全在录⾳室完成混⾳。最终在 7.1 通道系统中，声⾳会从“左环绕后置”开始播放，逐渐移动到“左环绕侧⽅”，并在“左前置”通道终⽌。如果是基于对象⾳频，假设电影院在左墙设置 5 个扬声器，声⾳将从最后⾯的 5 号扬声器开始播放，依次移动到 4 号扬声器、3 号扬声器、2 号扬声器、1 号扬声器，最终移动到左前置通道。如果影院在左墙上设置了 8 个扬声器，顺序将为 8→7→6→5→4→3→2→1→左前置通道，利⽤额外的扬声器达到更⾼的空间分辨率。

当然，虽然我们说，仅在重放过程中完成混⾳，显⽽易见，混⾳师需要使⽤⾃⼰的重放系统来重放混⾳，在录⾳室/配⾳阶段听到他指定的⽬标重放后的效果。

对象

为某个特定声⾳发布的panning信息不是⼀个静态值，⽽是⼀个会随时间变化的值。还是⽤汽车经过的例⼦：我们只有⼀个（单声道）声⾳，但这个声⾳的panning信息会随时间⽽变化。此外，除了声⾳的位置，还可以考虑其他信息。例如，基于对象⾳频系统也可以使⽤“尺⼨”概念：声⾳是⼀个准确到点（仅使⽤ 1 到 2 个扬声器重放声⾳），还是声⾳散开些，覆盖⼤⼀些的区域（在极端情况下，声⾳可以被所有扬声器重放）。还是⽤汽车经过的例⼦，对后⾯⼀种情况，重放的顺序不是：

8 → 7 → 6 → 5 → 4 → 3 → 2 → 1 → 左前置通道

⽽是使⽤以下顺序：

8765 → 7654 → 6543 → 5432 → 4321 → 321 左前置通道

此外，在某些情况下，混⾳师可能不关注声⾳的确切位置，⽽是侧重于确保单个扬声器重放某个特定声⾳（通常是为了避免两个扬声器由于和听者的距离不同产⽣的梳状滤波引起的⾳⾊变化。当然，这只适⽤于静态的声⽬标。），他们会将重放系统设置为选择离某个特定⽅向最近的扬声器，只⽤该扬声器重放。

与每个声⾳⼀起发布的所有信息（例如位置、尺⼨等）都被称为“元数据”（metadata关于数据的数据）。每个声⾳（及其相应的元数据）⼀起称为⼀个“对象”，其完整描述了⼀个在 3D 空间中移动的（单声道）声⾳对象。

在基于对象⾳频中，我们制作的是能够适应重放系统的⾳频：既可以使⽤10 个扬声器的系统也可以使⽤ 50 个扬声器的系统来重放这些声⾳，利⽤额外的扬声器可达到更⾼的空间分辨率。此外，由于最终我们在重放期间进⾏混⾳，甚⾄还可以让听者⾃⼰启⽤或禁⽤⼀些⾳频对象或beds。这种⽅式更适合电视⼴播应⽤，⽐如在体育赛事中，听众可以选择要不要解说，或者甚⾄根据他们喜欢的队伍来选择声⾳，切换为靠近 A 队或 B 队⽀持者附近的麦克风的声⾳。

杜⽐全景声Dolby Atmos

杜⽐全景声是使⽤基于对象⾳频的最为⼈所知的系统之⼀，因此，我们会将杜⽐全景声作为基于对象⾳频的⼀个⽰例进⾏研究。但还有其他基于对象⾳频格式，例如 MPEGH、AuroMax、DTS:X。杜⽐全景声既⽀持基于对象⾳频（对象），也⽀持基于通道⾳频（beds）。⼀个对象会有⾃⼰的⾳频（单通道⾳频剪辑）和相应的元数据，但杜⽐全景声也可以通过使⽤ 7.1.2通道的beds（7.1 通道 + 2 个⾼层通道）⽀持基于通道⾳频。我们⾸先来了解对象。

杜⽐全景声⽀持 128 个独⽴通道，这意味着我们可能有多达 118 个⾳频对象，以及为7.1.2 通道bed预留的 10 个通道（更多关于bed的信息见后⽂）。在重放过程中，杜⽐全景声⽀持最多 64 个独⽴扬声器，这意味着电影院可以设置最多 64 个独⽴控制的扬声器，每个扬声器都可以重放与其他所有扬声器不同的⾳频。如果其中⼀些扬声器重放相同的⾳频信号，影院⾥甚⾄可以设置 64 个以上的扬声器。

杜⽐全景声影院与常规的 5.1/7.1 通道影院略有不同，如图 11 所⽰

最明显的区别是天花板上的扬声器。在杜⽐全景声中，电影院在天花板上安装 2 排扬声器，开始提供不同⾼度的声⾳。

在前⽅，将继续在屏幕后⾯设置“左前置”、“中置”、“右前置”扬声器。但在屏幕更⼤的影厅，可以选择在中置和左/右前置扬声器之间再安装 2 个扬声器。

此外，影厅内最多可以增加 4 个重低⾳扬声器。

最后，在靠近前置扬声器的两侧增加额外的扬声器。在传统影厅中，我们通常从影厅边长的 1/3 处开始设置环绕扬声器，只占据侧墙后侧的 2/3，这意味着屏幕和最前的环绕扬声器之间有⼀段空缺。在杜⽐全景声中，这段空缺将不复存在，通过使⽤额外的扬声器，确保声⾳可来⾃整个⽔平⾯所有⽅向。

Beds

在电影制作过程中，⼀些⾳频内容可能已经预先混⾳。例如，可能传送给终混（2Re-recodring再录⾳，是电影后期制作中⾳频处理的最后阶段，又称为final mixing终混。将对⽩、⾳乐、⾳效等多种⾳源予以混合处理，按照发⾏格式的要求输出。）的配乐是已完成预混的，或者⾄少预混在各主⾳轨（stem）中（7.1 通道弦乐、7.1 通道铜管乐等）；或者想象已经⽤5.1 通道录制或编辑过的⾳效环境声部分。

除对象外，杜⽐全景声还⽀持基于通道的内容，这种内容被称为⾳频Beds。这意味着除对象外，我们还可以包含“常规”基于通道⾳频。杜⽐全景声使⽤ 7.1.2 通道Beds，相当于传统的 7.1 通道（3 个前置通道 + 4 个环绕通道 + LFE）加上 2 个⽤于天花板的通道（⼀个在天花板的左侧，另⼀个在天花板的右侧）。例如，所有已有的 5.1 和 7.1 声轨都可以直接混合到 7.1.2 通道Bed。即使不使⽤对象，混⾳师仍然可以通过向头上⽅扬声器发送⾳频来提供不同⾼度的声⾳。

布局表达格式（如 7.1.2 通道）

多年以来，我们都使⽤ 2 个数字的⽅式表⽰布局格式。例如：5.1 通道即 5 个主通道 + 1 个低频效果 (LFE) 通道。随着全新沉浸式格式的出现，我们增加了⼀个新数字，代表天花板上的通道数量。因此，7.1.2 通道意味着 7 个主通道（⽔平⽅向） + 1 个 LFE 通道 + 2 个天花板通道；9.1.4 通道即意味着 9 个主通道（⽔平⽅向） + 1 个 LFE 通道 + 4 个天花板通道等。

这种表达⽅式可能不够完整（有些布局在⽔平⾯（地⾯）以下有⼀层通道，有些布局可能在头部上⽅有 2 层通道等），但⾄少可以⼤体提供更多关于⾳响系统的信息。

其实Beds不仅仅⽤于预混的⾳频材料。许多电影制作在混⾳过程中都会使⽤数百条⾳轨，某些情况下甚⾄超过 1000 条⾳轨。记得在我第⼀次参观环球影业的后期制作时，在配⾳阶段我曾听⼈说“这是我们的混⾳器，带有 512 个⾳效通道和 256 个对⽩及⾳乐通道”。虽然杜⽐全景声⽀持 118 个对象，但这还不⾜以处理所有⾳轨。但我们可以利⽤beds解决这个问题，因为我们可以在beds上混合⽆限多的声⾳。对于对象，每个声⾳都必须独⽴，才能控制其panning，但在beds中就不存在这个问题了，因为可以使⽤“常规”panning来放置不同⽅向的声⾳。因此，混⾳师可以对最重要/有意义的，更需要准确定位的声⾳使⽤对象通道，然后在beds上混合次要的声⾳。

杜⽐全景声包括⼀个 7.1.2 通道bed，但可以通过减少可⽤对象的数量来增加bed。例如，我们可能有 118 个对象 + 1 个bed，或 108 个对象 + 2 个beds，或 98 个对象 + 3 个beds等。但是因为⼀个bed上可以混合⽆限多的声⾳，就声⾳⽽⾔，使⽤多个beds并没有任何特别好处。

优点与缺点

基于对象⾳频的主要优点是：能够适应任何扬声器布局。我们可以通过将“⽅位⽬标”发送到重放系统，让这些⽅位⽬标完美适应实际的扬声器布局。还有，我们能够从系统中获得最⾼空间分辨率：通过增加更多扬声器提⾼重放的空间精确度。

但基于对象⾳频也存在⼀些缺点。⾸先，在发⾏时，我们需要包括更多数量的⾳频通道。在电影院，杜⽐全景声可能使⽤多达 128 个⾳频通道。但如果我们改⽤其他媒介（流媒体、蓝光碟），这 128 个⾳频通道就太多了，我们必须减少对象的数量，这意味着许多对象必须转化为beds的形式呈现，这也会失去对象的优势。其次，对象存在⼀定数量的限制，128 是⼀个很⼤的数字，⼤多数项⽬不需要⽤到所有 128 个通道，但在某些情况下，这个数字也很容易达到。例如，Sound Particles 完全能够呈现带有数千个声⾳对象的⾳频场景（我们能够同时呈现并播放多达 100 万个声⾳）。此外，有些好莱坞电影作品会使⽤ 1000 多条⾳轨。⾳频beds能够解决以上⼤多数限制，但这样⼀来，就不是⼀种纯粹基于对象⾳频⽅法。

开拓之作 — 迪⼠尼的《幻想曲》《幻想曲》是迪⼠尼公司在 1940 年制作的电影，⽶⽼⿏戴着巫师帽的经典场景就源于这部电影。在电影制作期间，Walt Disney 认为，⾳乐在这部电影中的⾓⾊⾄关重要，因此必须给观众带来更完美的声⾳体验。为此，迪⼠尼公司和美国⽆线电公司 (RCA) 的⼯程师们研发了“Fantasound”多扬声器⾳响系统，将其临时安装在⼏家电影院（部分系统甚⾄还在美国各地巡回使⽤），让观众在观看电影时获得更有趣的声⾳体验。因此，《幻想曲》被认为是⾸部使⽤环绕声的电影。

Fantasound 系统包括⼏种不同变化，其中⼀些系统会在天花板上设置扬声器，因此《幻想曲》不仅是⾸部使⽤环绕声的电影，还是⾸部使⽤沉浸式⾳效的电影。

从技术上来说，该系统使⽤ 4 个声轨：3 个⽤于录制的⾳频的声轨（3 个独⽴⾳频信号）和 1 个⽤于控制信号的声轨，这个声轨将控制 3 个通道重放的⽅式：在某些时候，可以将通道 1 发送到左扬声器，通道 2 发送到右扬声器，通道 3 设置为环绕声；后⾯某些段落，可能将通道 1 在到前置扬声器重放，通道 2 在天花板的扬声器重放，通道 3 在后置扬声器重放等。尽管当时使⽤的是模拟技术，但这种技术也使《幻想曲》成为⾸部使⽤基于对象⾳频的电影。80 年前的⾸部环绕声、沉浸式且使⽤基于对象⾳频技术的电影！显⽽易见，这⼀创举的背后，是具备超越时代远见的开拓者。

Sound Particles 相关产品 https://www.prettysound.net/brands/soundparticles.html