技术新讯 > 电子通信装置的制造及其应用技术 > 响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频的制作方法  >  正文

响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频的制作方法

  • 国知局
  • 2024-08-19 14:20:52

本发明涉及用于如下这样的方法(有时称为耳机虚拟化方法)和系统,其响应于多通道输入信号通过对于音频输入信号的一组通道中的每一个通道(例如,对于所有通道)应用双耳房间脉冲响应(brir)而产生双耳信号。在一些实施例中,至少一个反馈延迟网络(fdn)向通道的下混应用下混brir的晚期混响部分。

背景技术:

1、耳机虚拟化(或双耳呈现)是一种旨在通过使用标准立体声耳机传输环绕声体验或身临其境的声场的技术。

2、早期耳机虚拟化器在双耳呈现中应用头部相关传递函数(hrtf)以传送空间信息。hrtf是表征在无回声的环境中声音如何从空间中的特定点(声源位置)发送到收听者的两耳的一组方向和距离相关滤波器对。可在呈现的经hrtf滤波的双耳内容中感知诸如耳间时间差(itd)、耳间水平差(ild)、头部遮蔽效果、由于肩部和耳廓反射导致的谱峰和谱凹口的必要空间线索(cue)。由于人头部大小的约束,hrtf不提供足够的或鲁棒的关于超出大致1米的源距离的线索。作为结果,仅基于hrtf的虚拟化器通常不能实现良好的外在化(externalization)或感知距离。

3、我们日常生活中的大多数的声音事件发生在混响环境中,在该环境中,除了通过hrtf被模型化的直接路径(从源到耳朵)以外,音频信号也通过各种反射路径到达收听者的耳朵。反射引入了对诸如距离、房间大小和空间的其它属性的听知觉深刻影响。为了在双耳呈现中传送该信息,除了直接路径hrtf中的线索以外,虚拟化器需要应用房间混响。双耳房间脉冲响应(brir)表征在特定声学环境中从空间中的特定点到收听者的耳朵的音频信号的变换。理论上,brir包含关于空间感知的所有声音线索。

4、图1是被配置为向多通道音频输入信号的各全频率范围通道(x1、…、xn)应用双耳房间脉冲响应(brir)的一种类型的常规耳机虚拟化器的框图。通道x1、…、xn中的每一个是与相对于假定的收听者的不同源方向(即,从相应的扬声器的假定位置到假定的收听者位置的直接路径的方向)对应的扬声器通道,并且,每个这种通道与用于相应的源方向的brir卷积。需要对于每个耳朵模拟来自各通道的声音路径。因此,在本文件的剩余部分中,术语brir将指的是一个脉冲响应或者与左耳和右耳相关联的一对脉冲响应。因此,子系统2被配置为将通道x1与brir1(用于相应的源方向的brir)卷积,子系统4被配置为将通道xn与brirn(用于相应的源方向的brir)卷积,等等。各brir子系统(子系统2、、…、4中的每一个)的输出是包含左通道和右通道的时域信号。brir子系统的左通道输出在加算元件6中被混合,并且brir子系统的右通道输出在加算元件8中被混合。元件6的输出是从虚拟化器输出的双耳音频信号的左通道l,元件8的输出是从虚拟化器输出的双耳音频信号的右通道r。

5、多通道音频输入信号还可包含在图1中被标识为“lfe”通道的低频效果(lfe)或低音炮通道。以常规的方式,lfe通道不与brir卷积,而作为替代,在图1的增益级5中衰减(例如,衰减-3db或更多),并且增益级5的输出(通过元件6和8)均等地混合到虚拟化器的双耳输出信号的各通道中。为了使级5的输出与brir子系统(子系统2、、…、4)的输出时间对准,在lfe路径中可能需要附加的延迟级。作为替代方案,lfe通道可简单地被忽略(即,不通过虚拟化器被断言(assert)或者被处理)。例如,本发明的图2实施例(后面将描述)简单地忽略由此处理的多通道音频输入信号的任何lfe通道。许多消费者耳机不能精确地再现lfe通道。

6、在一些常规的虚拟化器中,输入信号经受到变换到qmf(正交镜像滤波器)域中的时域到频域变换,以产生qmf域频率成分的通道。这些频率成分在qmf域中经受滤波(例如,在图1的子系统2、、…、4的qmf域实现中),并且,得到的频率成分典型地然后变换回时域(例如,在图1的子系统2、、…、4中的每一个的最后级中),使得虚拟化器的音频输出是时域信号(例如,时域双耳信号)。

7、一般地,输入到耳机虚拟化器的多通道音频信号的各全频率范围通道被假定为指示从在相对于收听者的耳朵的已知位置处的声音源发射的音频内容。耳机虚拟化器被配置为向输入信号的每个这种通道应用双耳房间脉冲响应(brir)。各brir可分解成两个部分:直接响应和反射。直接响应是与声音源的到达方向(doa)对应的、由于(声音源与收听者之间的)距离而以适当的增益和延迟被调整的并且可选地对于小距离随视差效果而增扩的hrtf。

8、brir的剩余部分模型化反射。早期反射通常是一次和二次反射,并且具有相对稀疏的时间分布。各一次或二次反射的微结构(例如,itd和ild)是重要的。对于稍晚反射(在入射到收听者之前从多于两个的表面反射的声音),回声密度随反射次数增加而增加,并且,各单次反射的微观属性变得难以观察。对于越来越晚的反射,宏观结构(例如,整个混响的空间分布、耳间相干性和混响延迟率)变得更重要。因此,反射可进一步分成两个部分:早期反射(early reflection)和晚期混响(late reverberation)。

9、直接响应的延迟是距收听者的源距离除以声音的速度,并且其水平(在没有接近源位置的大的表面或墙壁的情况下)与源距离成反比。另一方面,晚期混响的延迟和水平一般对源位置不敏感。由于实际的考虑,虚拟化器可选择时间对准来自具有不同的距离的源的直接响应,并且/或者压缩它们动态范围。但是,brir内的直接响应、早期反射和晚期混响之间的时间和水平关系应被保持。

10、典型的brir的有效长度在大多数的声学环境中延长到几百毫秒或更长。brir的直接应用需要与具有数以千计的抽头(tap)的滤波器卷积,这在计算上是昂贵的。另外,在没有参数化的情况下,为了实现足够的空间分辨率,将需要大的存储器空间以存储用于不同的源位置的brir。最后的但同样重要的,声音源位置可随时间改变,并且/或者,收听者的位置和取向可随时间改变。这种移动的精确仿真需要时变brir脉冲响应。如果这样的时变滤波器的脉冲响应具有许多抽头,那么这种时变滤波器的适当的内插和应用可能是挑战性的。

11、具有称为反馈延迟网络(fdn)的公知的滤波器结构的滤波器可被用于实现空间混响器,该空间混响器被配置为对于多通道音频输入信号的一个或更多个通道应用仿真混响。fdn的结构是简单的。它包含数个混响箱(例如,在图4中fdn中,包含增益元件g1和延迟线z-n1的混响箱),每个混响箱具有延迟和增益。在fdn的典型的实现中,来自所有混响箱的输出通过单一反馈矩阵被混合,并且矩阵的输出被反馈到混响箱的输入并与其求和。可对混响箱输出进行增益调整,并且,对于多通道或双耳回放可适当地重新混合混响箱输出(或它们的增益调整版本)。可通过具有紧凑的计算和存储器印迹的fdn产生和应用自然发声(sounding)混响。因此,fdn已被用于虚拟化器中以补充通过hrtf产生的直接响应。

12、例如,市售的dolby mobile耳机虚拟化器包含具有基于fdn的结构的混响器,该混响器可操作为对于五通道音频信号(具有左前、右前、中心、左环绕和右环绕通道)的各通道应用混响,并通过使用一组五个头部相关传递函数(“hrtf”)滤波器对的不同的滤波器对来对各混响通道进行滤波。dolby mobile耳机虚拟化器也可响应二通道音频输入信号而操作,以产生二通道“经混响的”双耳音频输出(已被应用了混响的二通道虚拟环绕声输出)。当经混响的双耳输出通过一对耳机被呈现和再现时,在收听者的耳膜处感知为来自位于左前、右前、中心、左后(环绕)和右后(环绕)位置的五个扬声器的经hrtf滤波的混响声音。虚拟化器上混经下混的二通道音频输入(没有使用与音频输入一起接收的任何空间线索参数)以产生五个上混音频通道,对于经上混的通道应用混响,并且下混五个经混响的通道信号以产生虚拟化器的二通道混响输出。在不同的hrtf滤波器对中对用于各上混通道的混响进行滤波。

13、在虚拟化器中,fdn可被配置为实现一定的混响衰变时间(reverb decay time)和回声密度。但是,fdn缺少仿真早期反射的微观结构的灵活性。并且,在常规的虚拟化器中,fdn的调谐和配置主要是启发式的。

14、不仿真所有反射路径(早期和晚期)的耳机虚拟化器不能实现有效的外在化。发明人认识到,使用试图仿真所有反射路径(早期和晚期)的fdn的虚拟化器在仿真早期反射和晚期混响两者并将两者应用于音频信号时通常只获得有限的成功。发明人还认识到,使用fdn但不具有适当地控制诸如混响衰变时间、耳间相干性和直接与晚期比的空间声学属性的能力的虚拟化器可实现某种程度的外在化,但代价是引入过量的音色失真和混响。

技术实现思路

1、在第一类的实施例中,本发明是一种响应多通道音频输入信号的一组通道(例如,通道中的每一个或者全频率范围通道中的每一个)产生双耳信号的方法,包括以下的步骤:(a)对于该组通道中的每一通道应用双耳房间脉冲响应(brir)(例如,通过将该组通道中的每一通道和与所述通道对应的brir卷积),由此产生经滤波的信号(包含通过使用至少一个反馈延迟网络(fdn)以向该组通道中的通道的下混(例如,单音下混(monophonicdownmix))应用公共晚期混响(common late reverberation));和(b)组合经滤波的信号以产生双耳信号。典型地,fdn的群被用于向该下混应用公共晚期混响(例如,使得各fdn向不同的频带应用公共晚期混响)。典型地,步骤(a)包含向该组通道中的每一通道应用用于该通道的单通道brir的“直接响应和早期反射”部分的步骤,并且,公共晚期混响被产生以模仿单通道brir中的至少一些(例如,全部)的晚期混响部分的共同宏观属性(collectivemarco attribute)。

2、用于响应多通道音频输入信号(或响应这种信号的一组通道)产生双耳信号的方法有时在这里被称为“耳机虚拟化”方法,并且,被配置为执行这种方法的系统有时在这里被称为“耳机虚拟化器”(或“耳机虚拟化系统”或“双耳虚拟化器”)。

3、在第一类的典型的实施例中,在滤波器组域(例如,混合复正交镜像滤波器(hcqmf)域或正交镜像滤波器(qmf)域或可包含抽取(decimation)的另一变换或子带域)中实现fdn中的每一个,并且,在一些这种实施例中,通过控制用于应用晚期混响的各fdn的配置,控制双耳信号的频率相关空间声学属性。典型地,为了实现多通道信号的音频内容的高效的双耳呈现,通道的单音下混被用作fdn的输入。第一类的典型的实施例包括例如通过对反馈延迟网络断言控制值以设定所述反馈延迟网络的输入增益、混响箱(reverb tank)增益、混响箱延迟或输出矩阵参数中的至少一个来调整与频率相关属性(例如,混响衰变时间、耳间相干性、模态密度和直接与晚期比(direct-to-late ratio))对应的fdn系数的步骤。这使得能够实现声学环境的更好的匹配和更自然的发声输出。

4、在第二类的实施例中,本发明是一种响应具有通道的多通道音频输入信号通过向输入信号的一组通道中的各通道(例如,输入信号的通道中的每一个或输入信号的各全频率率范围通道)应用双耳房间脉冲响应(brir)以产生双耳信号的方法,包括通过:在第一处理路径中处理该组通道中的各通道,该第一处理路径被配置为模型化并向所述各通道应用用于该通道的单通道brir的直接响应和早期反射部分;以及在第二处理路径(与第一处理路径并联)中处理该组通道中的通道的下混(例如,单音(单声道)下混),该第二处理路径被配置为模型化并向该下混应用公共晚期混响。典型地,公共晚期混响被产生以模仿单通道brir中的至少一些(例如,全部)的晚期混响部分的共同宏观属性。典型地,第二处理路径包含至少一个fdn(例如,对于多个频带的每一个有一个fdn)。典型地,单声道下混被用作由第二处理路径实现的各fdn的所有混响箱的输入。典型地,为了更好地模拟声学环境并产生更自然的发声双耳虚拟化,设置用于各fdn的宏观属性的系统控制的机构。由于大多数这种宏观属性是依赖于频率的,因此,典型地在混合复正交镜像滤波器(hcqmf)域、频域、域或另一滤波器组域中实现各fdn,并且,对于各频带使用不同或独立的fdn。在滤波器组域中实现fdn的主要益处是允许应用具有与频率相关的混响性能的混响。在各种实施例中,通过使用各种滤波器组(包含但不限于实数值或复数值正交镜像滤波器(qmf)、有限脉冲响应滤波器(fir滤波器)、无限脉冲响应滤波器(iir滤波器)、离散傅立叶变换(dft)、(修正的)余弦或正弦变换、小波变换或交叠滤波器(cross-over filter))中的每一个,在宽范围的各种滤波器组域的任一个中实现fdn。在优选的实现中,使用的滤波器组或变换包含用以降低fdn处理的计算复杂性的抽取(例如,减少频域信号表示的采样率)。

5、第一类(和第二类)的一些实施例实现以下特征中的一个或更多个:

6、1.滤波器组域(例如,混合复正交镜像滤波器域)fdn实现或混合滤波器组域fdn实现和时域晚期混响滤波器实现,其例如通过提供改变在不同的带中的混响箱延迟以作为频率的函数改变模态密度的能力,典型地允许对于各频带独立调整fdn的参数和/或设定(使得能够对频率相关声学属性进行简单和灵活的控制);

7、2.为了在直接和晚期响应之间保持适当的水平和定时关系,用于(从多通道输入音频信号)产生在第二处理路径中处理的下混(例如,单音下混)信号的特定下混处理依赖于各通道的源距离和直接响应的操作。

8、3.在第二处理路径中(例如,在fdn的群的输入或输出处)应用全通滤波器(apf),以在不改变得到的混响的频谱和/或音色的情况下引入相位差异和增大的回声密度;

9、4.在复值、多比率结构中在各fdn的反馈路径中实现分数延迟(fractionaldelay),以克服与被量化为下采样因子网格的延迟有关的问题;

10、5.在fdn中,通过使用基于各频带中的希望的耳间相干性设定的输出混合系数,混响箱输出直接线性混合到双耳通道中。可选地,混响箱到双耳输出通道的映射跨着频带交替,以在双耳通道之间实现经平衡的延迟。而且,可选地,向混响箱输出应用归一化因子以在保留分数延迟和总功率的同时均一化它们的水平;

11、6通过设定各频带中的增益与混响箱延迟的适当的组合控制依赖于频率的混响衰变时间和/或模态密度,以对真实房间进行仿真;

12、7.对于每个频带(例如,在相关处理路径的输入或输出处)应用一个标度因子,以:

13、控制与真实房间匹配的频率相关直接与晚期比(dlr)(可使用简单模型以基于目标dlr和例如为t60的混响衰变时间计算需要的标度因子);

14、提供低频衰减以减轻过量的组合伪像和/或低频杂声;和/或

15、向fdn响应应用扩散场谱整形;

16、8.实现用于控制诸如混响衰变时间、耳间相干性和/或直接与晚期比的晚期混响的必要频率相关属性的简单的参数模型。

17、本发明的多个方面包括执行(或被配置为执行或支持执行)音频信号(例如,其音频内容由扬声器通道构成的音频信号和/或基于对象的音频信号)的双耳虚拟化的方法和系统。

18、在另一类的实施例中,本发明是一种响应多通道音频输入信号的一组通道产生双耳信号的方法和系统,包括对于该组通道中的每一通道应用双耳房间脉冲响应(brir),由此产生经滤波的信号(包含通过使用单个反馈延迟网络(fdn)以向该组通道中的通道的下混应用公共晚期混响);和组合经滤波的信号以产生双耳信号。该fdn在时域中实现。在一些这样的实施例中,时域fdn包括:

19、输入滤波器,具有被耦接以接收下混的输入,其中,该输入滤波器被配置用于响应于下混产生第一经滤波的下混;

20、全通滤波器,被耦接和配置为响应于第一经滤波的下混产生第二经滤波的下混;

21、混响应用子系统,具有第一输出和第二输出,其中,混响应用子系统包括一组混响箱,每一混响箱具有不同的延迟,并且其中混响应用子系统被耦接并配置用于响应于第二经滤波的下混产生第一未混合双耳通道和第二未混合双耳通道,在第一输出处断言第一未混合双耳通道并且在第二输出处断言第二未混合双耳通道;以及

22、耳间互相关系数(iacc)滤波和混合级,被耦接到混响应用子系统,并且被配置用于响应于第一未混合双耳通道和第二未混合双耳通道产生第一混合双耳通道和第二混合双耳通道。

23、输入滤波器可被实现为(优选地作为两个滤波器的级联,该两个滤波器被配置用于)产生第一经滤波的下混,使得每个brir具有至少基本上匹配目标直接与晚期比(dlr)的直接与晚期比(dlr)。

24、每个混响箱可被配置用于产生延迟信号,并且可包括混响滤波器(例如,被实现为架式型滤波器(shelf filter)),该混响滤波器被耦接和配置用于向在所述每个混响箱中传播的信号应用增益,使得延迟信号具有至少基本上匹配用于所述延迟信号的目标衰变增益的增益,旨在实现各brir的目标混响衰变时间特性(例如,t60特性)。

25、在一些实施例中,第一未混合双耳通道领先于第二未混合双耳通道,混响箱包括被配置用于产生具有最短延迟的第一延迟信号的第一混响箱和被配置用于产生具有次最短延迟的第二延迟信号的第二混响箱,其中第一混响箱被配置用于向第一延迟信号应用第一增益,第二混响箱被配置用于向第二延迟信号应用第二增益,第二增益与第一增益不同,第二增益不同于第一增益,并且第一增益和第二增益的应用导致第一未混合双耳通道相对于第二未混合双耳通道衰减。典型的,第一混合双耳通道和第二混合双耳通道指示被重新居中(recenter)的立体声图像。在一些实施例中,iacc滤波和混合级被配置用于产生第一混合双耳通道和第二混合双耳通道,使得所述第一混合双耳通道和第二混合双耳通道具有至少基本上匹配目标iacc特性的iacc特性。

26、本发明的典型的实施例提供用于支持由扬声器通道构成的输入音频和基于对象的输入音频两者的简单且统一的构架。在向作为对象通道的输入信号通道应用brir的实施例中,在各对象通道上执行的“直接响应和早期反射”处理假定由具有对象通道的音频内容的元数据指示的源方向。在向作为扬声器通道的输入信号通道应用brir的实施例中,在各扬声器通道上执行的“直接响应和早期反射”处理假定与扬声器通道对应的源方向(即,从相应的扬声器的假定位置到假定的收听者位置的直接路径的方向)。不管输入通道是对象通道还是扬声器通道,“晚期混响”处理都在输入通道的下混(例如,单音下混)上被执行,且不假定下混的音频内容的任何特定的源方向。

27、本发明的其它方面是被配置为(例如,被编程为)执行本发明的方法的任何实施例的耳机虚拟化器、包含这种虚拟化器的系统(例如,立体、多通道或其它解码器)和存储用于实现本发明的方法的任何实施例的代码的计算机可读介质(例如,盘)。

本文地址:https://www.jishuxx.com/zhuanli/20240819/274809.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。