沉浸式与对象化音频录音技术

音频格式随着时间的推移而发展。从窄带宽单声道开始，转向各种版本的两声道立体声，最后到全频段、多声道沉浸式音频。声音可以通过多种方式再现，从个人耳机到电影院或其他大型场所的多声道系统。沉浸式音频可以被描述为一组录制和再现格式，其中涉及的不仅仅是基本的两声道立体声

2026年6月2日由

DPA 话筒大学

沉浸式/对象化的音频录制技术

沉浸式音频涵盖所有环绕声格式：

• 以 5.0/5.1*)、7.1*)、9.1*) 等再现的基于通道的格式。

• 包含高度信息的格式，基于通道或对象化

*) .1 表示仅包含整个频率范围（即从 20 Hz 到 120 Hz 的范围）的一小部分的单独声道。

录制沉浸式音频的方法有很多。在本文中，您将找到大多数沉浸式音频格式的话筒设置的描述。在选择录音设置之前定义聆听设置非常重要。在广播和音乐制作中，起点是 ITU-775 标准聆听配置。

重合数组与间隔数组

话筒阵列只是话筒的物理排列。该阵列可以由安装在一个话筒支架上或者可能安装在多个支架或支架上的单独话筒组成。在某些情况下，话筒内置于一个单元中（例如 5100 环绕话筒）。

在重合阵列中，话筒安装得彼此非常靠近。原则上，此类阵列中的所有话筒都会同时接收声音。

在一致技术中，定位线索仅基于信号之间的电平差异。该技术可以产生适当的定位精度，但在某种程度上缺乏包围并且具有较小的最佳位置（在二维上：左/右和前/后）。然而，重合阵列的优点是它紧凑、便携且兼容单声道。可以轻松地将通道下混为一个单声道通道，而不会因梳状滤波和其他伪影而产生着色。

间隔阵列通过在信号之间提供足够量的去相关来创建三维包络音频感觉（定位线索基于到达时间差异）。当根据声场调整话筒放置（距离和角度）时，间隔阵列仍然可以提供适当的定位精度。

一般来说，间隔技术可以提供一个漂亮、大的最佳听音位置，并给听众在更大的听场中提供放大和包围的声场的感觉。缺点是它们的尺寸以及在某些情况下的设置时间。此外，不建议将信号折叠为单声道信号 - 相反，可以使用一个信号。

5.x

基于通道的 5.x (5.0/5.1/5.2) 环绕声的基本且简单的设置是在间隔阵列中应用五个话筒。话筒的选择和排列方式有多种；它取决于许多因素，例如录音室（即音乐厅/爵士俱乐部/教堂）的声学质量、存在的声源的布局、所应用的话筒的方向性，或者可能只是品味。这些设置可能有所不同，从严格的数学计算、心理声学验证到更“感觉像”的配置。

考虑聆听位置周围 360° 圆圈覆盖范围的一种方法是将每两个相邻话筒视为一对立体声。每对覆盖圆的特定部分。有时这些片段重叠，有时它们“重叠”。另一种看待它的方式是，将前置话筒视为提供主声场，而后置话筒则建立环绕/氛围感。

以下设置并不详尽，但可以视为灵感，并且是最佳实践的示例：

全指向环绕阵列

五个全指向话筒排列成间隔阵列，提供良好的音调平衡。低频内容的再现非常令人信服。此设置还提供了出色的包围感 - 再现时，听众将被声音包围。这种设置的缺点是通道之间缺乏隔离。

三个正面话筒（通常称为正面三联体）排列成 Decca-Tree。根据给定声源的最佳录音角度来选择位置。

后置话筒的位置选择与周围声场无关。通常，后话筒不应距离前话筒太远。如果距离太大，可能会听到延迟。此外，环绕拾音器可能更喜欢某种方向性。这可以通过声压均衡器 (APE) 来实现，它确保较高频率下的方向性，同时保留全指向音响的优点，以获得良好的低频响应。

此设置的起点可能如下所示： L-R 60-120 厘米（24-47 英寸） L-C 30-60 厘米（12-24 英寸） R-C 30-60 厘米（12-24 英寸） C-LR 15-45 厘米（6-8 英寸）前后：200-500 厘米（80-200 英寸） LS-RS： 200-300 厘米（80-118 英寸）

正面外侧话筒之间的距离：60-120 厘米（24-47 英寸）。声源的宽度越宽，话筒的间距应该越窄。中央话筒位于 L/R 对前方约 15-45 厘米（6-8 英寸）处。

两个后部话筒放置在正面三连音后面 2-5 m（80-200 英寸）处。后话筒之间的距离应在 2-3 m（80-118 英寸）范围内。如前所述，APE 可用于避免后声道再现正面脉冲声音。

苏格兰音响工程师、录音专家兼讲师 Michael Williams 对多通道话筒阵列设计 (MMAD) 进行了深入研究。查阅 Michael 的文献，找到适合任何特定情况的精确设置。下面提到了两份出版物，可以在那里找到更多参考资料。

文学：

[1] 迈克尔·威廉姆斯； Guillaume Le Dû：多通道录音，多通道话筒阵列设计（MMAD）。 2010。[2] Michael Williams：用于立体声和多声道录音的话筒阵列第二卷。 ISBN 978-88-7365-104-8。 2013 年米兰。

基于心形的环绕阵列

与全指向阵列相比，五个心形（定向）话筒阵列具有通道分离度更高的优点。为了在间隔阵列中提供正确的覆盖范围，可以将话筒放置得彼此更近，从而创建更小的阵列。当然，通过以一致的配置布置话筒，可以将这种情况发挥到极致。

示例：基于心形的 5 通道设置，为圆上的所有段提供相等的覆盖范围。

宽心形环绕阵列

Mikkel Nymand 推出的宽心形环绕阵列 (WCSA) 提供了同等的音质、高度的包络度和良好的低频特性。

为了获得所需的声音特性（并将聆听位置从最佳听音位置增强到最佳听音区域），五个信号应该去相关。这意味着话筒必须彼此保持足够的距离。另一方面，信号彼此之间不应相差太大（距离太远）。如果发生这种情况，产生的声音将不连贯。

全指向话筒通常是间隔阵列的首选。这是由于它们的自然音色以及将直接信号与室内音色混合的能力。宽心形（也称为亚心形）具有稍强的方向性，可提供更多的氛围控制并提高前置成像和定位精度。

由 Geoff Martin 和 Jason Corey 发起的环绕声阵列使用全指向和心形来创建宽心形特性。为了防止通道间干扰，话筒对的间距为 L-C 60 厘米（24 英寸）、R-C 60 厘米（24 英寸）、前后 60 厘米（24 英寸）和 LS-RS 30 厘米（12 英寸）。使用的后话筒是向上指向的心形话筒，用于捕获高度信息。

DPA 话筒对该阵列进行了改造，使用五个相同的宽心形话筒（在频率响应和灵敏度上匹配在 ±1 dB 的非常窄的容差范围内）。选择五个相同的话筒而不仅仅是特定的话筒类型可以保持混合自然，并导致所有通道的再现更加真实和均匀。

经过激烈的聆听和在不同录音应用（交响乐、现代爵士乐、PA/Live、流行音乐会和氛围录音）中进行的大量实际尝试后，我们发现这种改编往往在较大的间距下效果最好，尤其是后声道。该阵列创造了强烈、动态和包围的声音特征。

建议距离为： L-C 60-75 厘米（24-30 英寸） R-C 60-75 厘米（24-30 英寸） C-LR 20 厘米（8 英寸）前后：150-200 厘米（59-79 英寸） LS-RS：120-150 厘米（47-59 英寸）左/右角度：±15° LS/RS 角度： ±165°

对于较宽的整体（或较大的阵列到源距离），请尝试使用两个左/右全指向支腿扩展该阵列，以受益于压力传感器的低频拾音。这些话筒以适当的水平与阵列中的 L/R 混合，提供优美连贯、精确且丰富的环绕声图像。

声场/高保真度立体声响

70 年代初，英国工程师 Peter Felget 和 Michael Gerzon 发明了后来被称为 Ambisonics（现在称为“一阶 Ambisonics”）的声场原理。该格式基于话筒的重合阵列。目的是促进任意方向的话筒方向，左/右，前/后，上/下。基本上，声场原理的工作原理与 MS 类似，通过对可用信号进行相加和相减。有两种配置与高保真度立体声响复制相关：A 格式和 B 格式。

A 格式是四个心形话筒音头及其输出的物理排列：FU（前上）、RU（后上）、LD（左下）和 RD（右下）。胶囊之间的角度与四面体、三角锥一致。

B格式是A格式的转换版本，产生由三个正交的8字形“胶囊”组成的虚拟格式； X（前/后）、Y（侧）、Z（上/下）和一个全指向 (W)。

通过加法和减法，各个信号可以转换为指向任何方向的定向话筒。例如，一个全指向 (W) 和一个八字形 (X) 在 X 方向上创建心形指向。

DPA 话筒以前生产过这种格式的话筒，但现在不再生产。

示例：B 格式组件

优化的心形三角 (OCT)

OCT 是专为三个前置通道设计的阵列。该系统提供左中心和右中心之间的高度分离。应仔细选择环绕声道的附加配置。

心形话筒用于中央通道，放置在左右通道的两个高阶定向心形指向外仅 8 厘米（3.1 英寸）的位置。左右话筒之间的间距是所需录音角度的关键。设计人员建议距离在 40 厘米（15.7 英寸）到 90 厘米（35.4 英寸）之间，从而实现 160° 到 90° 的记录角度。

可以将一个或多个压力（全指向）话筒添加到系统中，以补偿心形压力梯度胶囊丢失的低频。

示例：OCT2 变体建议中央话筒应放置在左/右话筒基线前方 40 厘米（15.7 英寸）处，从而提供更大的时间差和空间，更像 Decca Tree。

双MS

时间一致、紧凑且可调节的环绕配置。

Double MS 设置是一种时间一致、紧凑且可调节的环绕声/沉浸式声音配置。使用两个心形话筒和一个八字形话筒。或者，可以通过四个心形话筒创建该设置。

双 MS 技术的原理是向前和向后指向 MS 组，共享同一侧话筒。与标准 MS 设置一样，侧话筒的同相侧指向左侧，因此仅需要三个话筒。在此设置中，需要处理/混合才能创建最终格式。与 MS 设置一样，应用两种不同的传感器类型来提供中间信息（心形话筒）和侧面信息（双向话筒）。存在从侧面或前面再现声音的不同频率和相位响应的风险。

通道的获取方式如下： Center = Mfront Left = Mfront + S Right = Mfront – S 左环绕 = Mrear + S 右环绕 = Mrear – S

调整每个信号的量以实现正确的空间分布，特别是对于正面图像。通常，与两通道立体声的标准 MS 相比，L/R 宽度会稍宽一些。

双 MS 技术可以通过使用四个相同（均匀匹配）的 4011A 或 4011C 心形话筒（在水平面上分别成 0°、90°、180° 和 270° 角度）来实现。膜应布置在彼此上方，以便在水平面上实现最佳时间对准。

Mfront = 心形前部 S = S'（心形左）– S''（心形右）*) Mrear = 心形后

*) 在使用调音台的实际录音中，只需将“心形左”平移到左侧并将“心形右”平移到右侧 + 反转相位（交换引脚 2 和 3）。实现此目的的“肮脏”方法是使用 Y 求和电缆并将 XLR 连接器反转为心形线右侧。

深田树

Fukada Tree 是 Decca Tree 阵列，但具有五个心形话筒和两个额外的全指向话筒作为支腿，以在前后通道之间混合。该设置由 Akira Fukada 于 1997 年设计。

心形话筒的选择改善了通道分离度，向后定向的后心形话筒还最大限度地减少了直接前置声音泄漏到后置扬声器的情况。

由于其自然的音质和全频率带宽，全指向话筒通常是 Decca Tree 配置中用于音乐录制的首选。两个全指向支腿为 Fukada Tree 阵列中的这个非常重要的组件提供服务。

自从首次宣布深田树排列以来，深田明设计了许多定位修改以改善前置定位，但他对话筒的选择保持不变，并继续使用 DPA 话筒以获得透明的感觉。

滨崎广场

Hamasaki Square 由四个排列成正方形的双向话筒组成。

Hamasaki Square 设计用于捕捉环绕声录音的环境/漫射部分。它是一个四话筒方形，八字形话筒之间的距离为 1.8-2 m（5.9-6.6 英尺），与前阵列相比，这些话筒以适当的水平路由到左、右、左环绕和右环绕。 8 字形话筒的同相敏感方向指向侧面，零点指向直达声。

与其他环境记录系统相比，该系统对主阵列和环境阵列之间的距离最不敏感。

该设置由日本音响工程师 Kimio Hamasaki 定义。

高度沉浸式音频

事实证明，为传统环绕声录音（如 5.1）开发的设置效果非常好。然而，增加这些录音的高度很有趣，因为它也可能为感知体验增加新的维度。

• 立即体验

立即体验

然而，挑战在于如何在不改变水平定位声源的感知定位的情况下添加向上的声像，这意味着最大限度地减少垂直通道间串扰。这导致需要考虑垂直时间和水平差异。还必须考虑去相关所需的垂直话筒的间距。最后，我们如何避免不可避免的缩混中的梳状滤波？

当以正确的方式添加高度信息时，声音产生的感知包围感就会增强。不仅如此，良好的实践已经证明，即使在水平面内，定位声源时的感知精度也有所提高！

示例：包含高度信息的沉浸式音频的标准再现设置为 9.1，这是标准 5.1 ITU 775 布局，在左、右、左环绕和右环绕扬声器上方有额外的上层扬声器。附加四个扬声器的高度应提供大约 30° 的垂直聆听角度。

英国哈德斯菲尔德大学的 Hyunkook Lee 博士和他的研究小组提供了大量关于感知声音成像的理论和实践信息。

他发现的一个重要因素是，优先效应（最先到达的声音决定方向的效应）在垂直平面上不起作用。因此，值得关注水平差异。当在下部和上部扬声器中播放相同的声音时，发现较高频率和瞬态信号的存在将定位拉向上部扬声器[2,3]。

示例：为了保持水平面上的定位，发现上部信号应至少衰减 7

这些发现导致了如下所示的话筒设置。它由八个心形话筒和两个超心形话筒组成。

话筒的方向使得进入上层话筒的正面声音最少。一般来说，任何上层话筒都应该接收尽可能少的声音，其中包含来自主要水平源和水平面以下源的声音。

[1] Wallis, Rory 和 Lee, Hyunkook：通道间时间差对垂直立体声定位的影响。音频工程学会杂志，卷。 63，第 10 期，2015 年 10 月。 [2] Lee, Hyunkook 和 Gribben, Christopher：3D 话筒阵列的垂直话筒层间距的影响。音频工程学会杂志，卷。 62，第 12 期，2014 年 12 月。 [3] Lee, Hyunkook：用于使用垂直 2D 扬声器阵列渲染垂直图像传播的感知频带分配 (PBA)。 AES 公约 138，Warzawa 2015。 [4] Lee, Hyunkook：垂直声音定位和掩蔽中通道间时间和电平差异之间的关系。 AES 公约 131，纽约，2011 年。

IRT 交叉

IRT Cross 专为氛围拾音而设计。该设置由四个心形话筒组成。

IRT 交叉设计用于捕获环绕声录音的环境/漫射部分。它是一个四话筒方形，心形话筒之间的距离为 20-25 厘米（7.9-9.8 英寸），与前阵列相比，这些话筒以适当的水平路由到左、右、左环绕和右环绕。

IRT Cross 通常位于主阵列后方几米处。但是，它不应该放置得太远，因为再现信号中可能会出现定时问题（如回声）。 IRT Cross 的最佳放置位置是在获得足够的氛围和避免回声之间取得平衡。

对象化的音频

多年来，最具包围感的扬声器再现声音一直是基于通道的。 1 个通道用于单声道，2 个通道用于立体声，6 个通道用于 5.1 环绕声（或 24 个通道用于 NHK 22.2）。

关于每种格式扬声器放置的约定一直是声音设计的支柱。借助延迟或电平调整的通道间平移已成为放置声音场景源的工具。成品将包含在固定数量的通道中；尽管节目材料最初录制在大量音轨上，但最终产品将适合特定数量的通道，一个用于单声道，两个用于立体声，等等。

对象化的音频（OBA）有些不同。一个“声音对象”可以记录在一个或多个轨道上。与音频一起出现的元数据告诉了声音在声场中的位置。

一个对象可以是用单声道录制的声音。如果制作者打算让声音来自声场的右侧，那么录音的元数据就包含了这个声音的坐标。因此，声音被记录为立体声轨道。然后这些立体声轨道的元数据提供用于定位的数据。

原则上，对象也可以源自立体混响录音或任何其他格式。因此，带有 OBA 的 AV 程序是由一系列对象构建的，例如录音、音乐、环境声音、特殊声音效果等。每个对象将包含有关何时何地再现的元数据。

OBA 已经找到了进入电影院的途径（杜比全景声等）。不过，也有将其投入播出的意图，并且已经进行了很多实验。此外，虚拟现实（VR）也是 OBA 的一个明显目标。

为什么？

总的想法是给听众留下更高程度的自由，特别是在广播中。现在可以强调单个对象。如果有听力障碍的听众想要提高对话的水平，如果您将对话录制为对象，这是可能的。如果将每种语言分配给单独的对象，您还可以更改注释的语言。

从一级方程式赛车等电视节目中，我们知道，如果观众想要跟踪特定的汽车，可以选择特殊的车载摄像机。那辆特定汽车的声音是与图像结合的对象。管弦乐队中的特定乐器可以被视为对象。或者，在不同聆听位置录制的音乐会声音也可以是对象。

OBA 的另一个论点是几乎所有复制格式都是有效的。缩混根据可用于播放的通道数量及其位置进行优化（只要通道数量至少为两个）。还允许双耳再现。

话筒？

基本思想是音响工程师可以使用他喜欢的话筒类型。不一定需要特定的话筒、话筒配置或话筒品牌。对生产设备有特殊要求，它可以建立元数据，当然还有承载完整信息的格式。

滨崎广场

DPA 不提供任何 8 字形话筒。我们可以建议使用带有 CMC6 前置放大器的 Schoeps MK8。但是，如果您想使用 DPA 话筒尝试此设置，我们建议您将每个 8 字形话筒替换为两个心形话筒：

高度沉浸式音频

• 8 x 4011A 心形话筒

• 2 x 4018 超心形话筒

IRT 交叉

• MMC4011 心形话筒头

• MMP ER/ES 模块化有源电缆

• UA0837 立体声吊杆

DPA 5100 环绕话筒

5100 移动环绕话筒是一种即插即用的解决方案。

一个单元包含三个定向（DIP-MIC，定向压力话筒），重合排列的正面话筒。后声道由一对间隔开的两个全指向话筒录制。该装置还提供 LFE 输出。所有通道均校准至单位增益。根据标准，LFE 降低了 10 dB。

5100 在第二单元的电影制作中受到高度赞赏。

参考

[1] Gasull Ruiz，Allejandro：媒体制作中对象化的音频工作流程的描述。公约文件 9570，AES 第 140 届公约，巴黎 2016 年。 [2] Steven A.：用于电视制作的对象化的音频。 IBC 2015。 [3] Messonnier、Jean-Christophe 等人：对象化的音频录制方法。会议论文集，AES 第 57 届国际会议，美国，2015 年。 [4] Shirley, Ben 等人：为听障电视观众提供个性化的对象化的音频。音频工程学会杂志，卷。 65，第 4 期，2017 年 4 月。

文章>

在 产品知识

# DPA Mic University 产品知识录音与沉浸声

项目支持 需要为录音棚、沉浸声空间、现场系统或剧院扩声设计方案吗？

咨询方案

沉浸式与对象化音频录音技术

沉浸式/对象化的音频录制技术

重合数组与间隔数组

5.x

全指向环绕阵列

文学：

基于心形的环绕阵列

宽心形环绕阵列

声场/高保真度立体声响

优化的心形三角 (OCT)

双MS

深田树

滨崎广场

高度沉浸式音频

IRT 交叉

对象化的音频

为什么？

话筒？

推荐的话筒和配件

全指向环绕阵列

基于心形的环绕阵列

宽心形环绕阵列 (WCSA)

优化的心形三角 (OCT)

双MS

深田树

滨崎广场

高度沉浸式音频

IRT 交叉

DPA 5100 环绕话筒

参考