技术新讯 > 乐器声学设备的制造及制作,分析技术 > 用于具有全局ILD和改进的中/侧决策的MDCTM/S立体声的装置和方法与流程 > 正文

用于具有全局ILD和改进的中/侧决策的MDCTM/S立体声的装置和方法与流程

国知局
2024-06-21 11:29:02

本发明涉及音频信号编码和音频信号解码，并且更具体地涉及用于具有全局ild和改进的中/侧决策的mdct m/s立体声的装置和方法。

背景技术：

1、基于mdct(mdct＝修正的离散余弦变换)的编码器中的逐频带(band-wise)m/s(m/s＝中/侧)处理是用于立体声处理的已知且有效的方法。然而，对于平移(panned)信号这种方法不足够，还需要附加处理(例如，复数预测、或中央声道和侧声道之间的角度编码)。

2、在[1]、[2]、[3]和[4]中，描述了对加窗和变换的非归一化(非白化)信号的m/s处理。

3、在[7]中，描述了中央声道和侧声道之间的预测。在[7]中，公开了一种编码器，其基于两个音频声道的组合对音频信号进行编码。该音频编码器获得作为中央信号的组合信号，并且还获得预测残差信号，该预测残差信号是从中央信号导出的预测侧信号。第一组合信号和预测残差信号被编码并与预测信息一起写入数据流。此外，[7]公开了一种解码器，其使用预测残差信号、第一组合信号和预测信息来产生解码的第一音频声道和第二音频声道。

4、在[5]中，描述了在分别对每个频带进行归一化后的m/s立体声耦合的应用。特别地，[5]指代opus编解码器。opus将中央信号和侧信号编码为归一化信号m＝m/||m||和s＝s/||s||。为了从m和s恢复m和s，对角度θs＝arctan(||s||/||m||)进行编码。当n是频带的大小并且a是m和s可用的总比特数时，m的最优分配是amid＝(a-(n-1)log2tanθs)/2。

5、在已知的方法中(例如在[2]和[4]中)，复杂的速率/失真回路与其中将(例如，使用m/s，也可以跟随来自[7]的m到s预测残差计算)变换频带声道的决策相组合，以减少声道之间的相关性。这种复杂的结构具有高计算成本。将感知模型与速率回路分离(如[6a]、[6b]和[13]中那样)显著简化了系统。

6、此外，对每个频带中的预测系数或角度进行编码需要大量的比特(例如，如在[5]和[7]中的那样)。

7、在[1]、[3]和[5]中，仅对整个频谱执行单一决策，以决定整个频谱是应该被m/s编码还是被l/r编码。

8、如果存在ild(耳间水平差)，即如果声道被平移，则m/s编码效率不高。

9、如上所述，已知基于mdct的编码器中的逐频带m/s处理是用于立体声处理的有效方法。m/s处理编码增益从针对不相关声道的0％变化到针对单声道或针对声道之间的π/2相位差的50％。由于立体声解屏蔽和逆解屏蔽(参见[1])，因此有鲁棒的m/s决策是很重要的。

10、在[2]中，在每个频带中，左右之间的掩蔽阈值变化小于2db，选择m/s编码作为编码方法。

11、在[1]中，m/s决策基于针对m/s编码的和针对声道的l/r(l/r＝左/右)编码的估计比特消耗。使用感知熵(pe)根据频谱和根据掩蔽阈值来估计针对m/s编码和针对l/r编码的比特率需求。针对左和右声道计算掩蔽阈值。假设针对中央声道的掩蔽阈值和针对侧声道的掩蔽阈值是左阈值和右阈值的最小值。

12、此外，[1]描述了如何导出要被编码的各个声道的编码阈值。具体地，左声道和右声道的编码阈值是通过针对这些声道的相应感知模型来计算的。在[1]中，m声道和s声道的编码阈值被相等地选择，并且被导出为左编码阈值和右编码阈值的最小值。

13、此外，[1]描述了在l/r编码和m/s编码之间做决定，从而实现了良好的编码性能。具体地，使用阈值来估计针对l/r编码和针对m/s编码的感知熵。

14、在[1]和[2]以及[3]和[4]中，对加窗和变换的非归一化(非白化)信号进行m/s处理，m/s决策基于掩蔽阈值和感知熵估计。

15、在[5]中，左声道和右声道的能量被明确地编码，并且编码的角度保留差信号的能量。在[5]中，假设即使l/r编码更有效，m/s编码也是安全的。根据[5]，仅当声道之间的相关性不够强时才选择l/r编码。

16、此外，对每个频带中的预测系数或角度进行编码需要大量的比特(例如，参见[5]和[7])。

17、因此，如果将提供针对音频编码和音频解码的改进构思，将会高度赞赏。

技术实现思路

1、本发明的目的是提供用于音频信号编码、音频信号处理和音频信号解码的改进构思。通过根据权利要求1所述的音频解码器、通过根据权利要求23所述的装置、通过根据权利要求37所述的方法、通过根据权利要求38所述的方法以及通过根据权利要求39所述的计算机程序来实现本发明的目的。

2、根据实施例，提供了用于对包括两个或更多个声道的音频输入信号的第一声道和第二声道进行编码以获得编码音频信号的装置。

3、该用于编码的装置包括归一化器，归一化器被配置为根据音频输入信号的第一声道并且根据音频输入信号的第二声道来确定音频输入信号的归一化值，其中归一化器被配置为通过根据归一化值修正音频输入信号的第一声道和第二声道中的至少一个声道，来确定归一化音频信号的第一声道和第二声道。

4、此外，该用于编码的装置包括编码单元，编码单元被配置为产生具有第一声道和第二声道的处理后的音频信号，使得处理后的音频信号的第一声道的一个或多个频谱带是归一化音频信号的第一声道的一个或多个频谱带，使得处理后的音频信号的第二声道的一个或多个频谱带是归一化音频信号的第二声道的一个或多个频谱带，使得处理后的音频信号的第一声道的至少一个频谱带是根据归一化音频信号的第一声道的频谱带并且根据归一化音频信号的第二声道的频谱带的中央信号的频谱带，以及使得处理后的音频信号的第二声道的至少一个频谱带是根据归一化音频信号的第一声道的频谱带并且根据归一化音频信号的第二声道的频谱带的侧信号的频谱带。编码单元被配置为对处理后的音频信号进行编码以获得编码音频信号。

5、此外，提供了一种用于对包括第一声道和第二声道的编码音频信号进行解码以获得包括两个或更多个声道的解码音频信号的第一声道和第二声道的装置。

6、该用于解码的装置包括解码单元，解码单元被配置为针对多个频谱带中的每个频谱带，来确定编码音频信号的第一声道的所述频谱带和编码音频信号的第二声道的所述频谱带是使用双-单声道编码来编码的还是使用中-侧编码来编码的。

7、如果使用了双-单声道编码，则解码单元被配置为使用编码音频信号的第一声道的所述频谱带作为中间音频信号的第一声道的频谱带，并且被配置为使用编码音频信号的第二声道的所述频谱带作为中间音频信号的第二声道的频谱带。

8、此外，如果使用了中-侧编码，则解码单元被配置为基于编码音频信号的第一声道的所述频谱带并且基于编码音频信号的第二声道的所述频谱带来产生中间音频信号的第一声道的频谱带，以及基于编码音频信号的第一声道的所述频谱带并且基于编码音频信号的第二声道的所述频谱带，来产生中间音频信号的第二声道的频谱带。

9、此外，该用于解码的装置包括去归一化器，去归一化器被配置为根据去归一化值来修正中间音频信号的第一声道和第二声道中的至少一个声道，以获得解码音频信号的第一声道和第二声道。

10、此外，提供了用于对包括两个或更多个声道的音频输入信号的第一声道和第二声道进行编码以获得编码音频信号的方法。所述方法包括：

11、-根据音频输入信号的第一声道并且根据音频输入信号的第二声道来确定音频输入信号的归一化值。

12、-通过根据归一化值修正音频输入信号的第一声道和第二声道中的至少一个声道来确定归一化音频信号的第一声道和第二声道。

13、-产生具有第一声道和第二声道的处理后的音频信号，使得处理后的音频信号的第一声道的一个或多个频谱带是归一化音频信号的第一声道的一个或多个频谱带，使得处理后的音频信号的第二声道的一个或多个频谱带是归一化音频信号的第二声道的一个或多个频谱带，使得处理后的音频信号的第一声道的至少一个频谱带是根据归一化音频信号的第一声道的频谱带并且根据归一化音频信号的第二声道的频谱带的中央信号的频谱带，以及使得处理后的音频信号的第二声道的至少一个频谱带是根据归一化音频信号的第一声道的频谱带并且根据归一化音频信号的第二声道的频谱带的侧信号的频谱带，以及编码处理后的音频信号以获得编码音频信号。

14、此外，提供了一种用于对包括第一声道和第二声道的编码音频信号进行解码以获得包括两个或更多个声道的解码音频信号的第一声道和第二声道的方法。所述方法包括：

15、-针对多个频谱带中的每个频谱带，确定编码音频信号的第一声道的所述频谱带和编码音频信号的第二声道的所述频谱带是使用双-单声道编码来编码的还是使用中-侧编码来编码的。

16、-如果使用了双-单声道编码，则使用编码音频信号的第一声道的所述频谱带作为中间音频信号的第一声道的频谱带，并且使用编码音频信号的第二声道的所述频谱带作为中间音频信号的第二声道的频谱带。

17、-如果使用了中-侧编码，则基于编码音频信号的第一声道的所述频谱带并且基于编码音频信号的第二声道的所述频谱带，来产生中间音频信号的第一声道的频谱带，以及基于编码音频信号的第一声道的所述频谱带并且基于编码音频信号的第二声道的所述频谱带，来产生中间音频信号的第二声道的频谱带。以及：

18、-根据去归一化值，修正中间音频信号的第一声道和第二声道中的至少一个声道，以获得解码音频信号的第一声道和第二声道。

19、此外，提供了计算机程序，其中每个计算机程序被配置为当在计算机或信号处理器上执行时实现上述方法之一。

20、根据实施例，提供了能够使用最小侧信息处理平移信号的新构思。

21、根据一些实施例，如在[6a]和[6b]中结合如[8]中所述的频谱包络翘曲描述的那样来使用具有速率回路的fdns(fdns＝频域噪声整形)。在一些实施例中，对fdns白化频谱使用单个ild参数，然后使用逐频带决策，无论使用m/s编码还是l/r编码来编码。在一些实施例中，m/s决策基于估计的比特节省。在一些实施例中，逐频带m/s处理声道之间的比特率分配可以例如取决于能量。

22、一些实施例提供了对白化频谱应用单个全局ild、之后是具有有效m/s决策机制以及具有控制单个全局增益的速率回路的逐频带m/s处理的组合。

23、一些实施例尤其结合频谱包络翘曲(例如，基于[8])来采用具有速率回路的fdns(例如，基于[6a]或[6b])。这些实施例提供了用于分离量化噪声的感知整形和速率回路的有效率且非常有作用的方式。对fdns白化频谱使用单个ild参数允许简单且有效的方式来决定是否存在如上所述的m/s处理的优点。使频谱白化并去除ild允许有效的m/s处理。对于所描述的系统来说编码单个全局ild就足够了，因此与已知方法相比实现了比特节省。

24、根据实施例，m/s处理基于感知白化信号完成。实施例确定编码阈值并以最优方式确定在处理感知白化和ild补偿信号时是否采用l/r编码或m/s编码的决策。

25、此外，根据实施例，提供了新的比特率估计。

26、与[1]至[5]相反，在实施例中，感知模型与速率回路分离(如[6a]、[6b]和[13])。

27、尽管如[1]中提出的那样m/s决策基于估计比特率，但与[1]相反，m/s和l/r编码的比特率需求的差异不依赖于通过感知模型确定的掩蔽阈值。相反，比特率需求是通过所使用的无损熵编码器来确定的。换言之：替代根据原始信号的感知熵导出比特率需求，比特率需求是根据感知白化信号的熵导出的。

28、与[1]至[5]相反，在实施例中，m/s决策是基于感知白化信号来确定的，并且获得所需比特率的更好估计。为此，可以应用如[6a]或[6b]中所述的算术编码器比特消耗估计。不必明确考虑掩蔽阈值。

29、在[1]中，假设中央声道和侧声道的掩蔽阈值是左掩蔽阈值和右掩蔽阈值中的最小值。频谱噪声整形在中央声道和侧声道上完成，并且可以例如基于这些掩蔽阈值。

30、根据实施例，频谱噪声整形可以例如在左和右声道上进行，并且在这样的实施例中，感知包络可以在估计的地方精确地应用。

31、此外，实施例基于以下发现：如果ild存在(即，如果声道被平移)，则m/s编码不是有效的。为了避免这种情况，实施例对感知白化频谱使用单个ild参数。

32、根据一些实施例，提供了处理感知白化信号的m/s决策的新构思。

33、根据一些实施例，编解码器使用不是经典音频编解码器(例如，如[1]中所述)的一部分的新构思。

34、根据一些实施例，感知白化信号用于进一步编码，例如，类似于感知白化信号在语音编码器中使用的方式。

35、这种方法具有若干优点，例如，简化了编解码器架构、实现了噪声整形特性和掩蔽阈值的复数表示(例如，作为lpc系数)。此外，变换和语音编解码器架构是统一的，因此能够实现组合的音频/语音编码。

36、一些实施例采用全局ild参数来有效地编码平移源。

37、在实施例中，编解码器采用频域噪声整形(fdns)以利用速率回路感知白化信号(例如，如在[6a]或[6b]中结合如[8]中所述的频谱包络翘曲描述的那样)。在这样的实施例中，编解码器可以例如对fdns白化频谱进一步使用单个ild参数，之后是逐频带m/s与l/r决策。逐频带m/s决策可以例如基于在以l/r和m/s模式编码时每个频带中的估计比特率。选择具有最少所需比特的模式。逐频带m/s处理声道之间的比特率分配基于能量。

38、一些实施例使用熵编码器的每频带估计比特数对感知白化和ild补偿频谱应用逐频带m/s决策。

39、在一些实施例中，采用具有速率回路的fdns(例如，如[6a]或[6b]中结合如[8]中描述的频谱包络翘曲描述的)。这提供了分离量化噪声的感知整形和速率回路的有效率的、非常起作用的方式。对fdns白化频谱使用单个ild参数允许简单且有效的方式来决定是否存在所述的m/s处理的优点。使频谱白化并去除ild允许有效的m/s处理。对于所描述的系统来说编码单个全局ild就足够了，因此与已知方法相比实现了比特节省。

40、实施例修改了[1]中提供的在处理感知白化和ild补偿信号时的构思。特别地，实施例对l、r、m和s采用相等的全局增益，该全局增益与fdns一起形成编码阈值。全局增益可以根据snr估计或根据一些其它构思导出。

41、所提出的逐频带m/s决策精确地估计用算术编码器对每个频带进行编码所需的比特数。这是可能的，因为m/s决策是对白化频谱进行的，之后直接进行量化。不需要实验性搜索阈值。