技术新讯 > 乐器声学设备的制造及制作,分析技术 > 用于码激励线性预测类编码器的无边信息的噪声填充的制作方法 > 正文

用于码激励线性预测类编码器的无边信息的噪声填充的制作方法

国知局
2024-06-21 10:40:52

本发明的实施方式涉及：用以基于包含线性预测系数(lpc)的已编码音频信息来提供已解码音频信息的音频解码器；用以基于包含线性预测系数(lpc)的已编码音频信息来提供已解码音频信息的方法；用以执行此方法的计算机程序，其中该计算机程序在计算机上运行；以及音频信号或储存有此音频信号的储存介质，该音频信号已经用此方法进行了处理。

背景技术：

1、当比特率降低至小于每个样本约0.5至1比特时，基于码激励线性预测(celp)编码原理的低比特率数字语音(speech)编码器通常会遭受信号稀疏伪影，从而引起略为不自然的金属声。尤其当输入语音中具有背景中的环境噪声时，低速率(low-rate)伪影明显可听见：背景噪声在主动语音区段(active speech sections)期间将会衰减。本发明描述用于诸如amr-wb[1]及g.718[4,7]的(a)celp编码器的噪声插入方案，该方案与在诸如xhe-aac[5,6]的基于变换的编码器中所使用的噪声填充技术类似，将随机噪声产生器的输出添加至已解码语音信号来重新建构背景噪声。

2、国际公开案wo 2012/110476 a1展示出一种基于线性预测且使用频谱域噪声整形的编码概念。对音频输入信号的频谱分解(分解成包含连串频谱的频谱图)被用于以下两者：线性预测系数计算，以及用于基于线性预测系数的频域整形的输入。根据引用的文献，音频编码器包含线性预测分析器，其用以分析输入音频信号以便由此导出线性预测系数。音频编码器的频域整形器被配置为基于由线性预测分析器提供的线性预测系数频谱整形频谱图的一连串频谱的当前频谱。将已量化且已频谱整形的频谱连同在频谱整形时使用的线性预测系数一起插入至数据流中，使得在解码侧可执行去除整形(de-shaping)及去除量化(de-quantization)。也可存在时间噪声整形模块以执行时间噪声整形。

3、鉴于现有技术，仍然需要改良的音频解码器、改良的方法、用以执行此方法的改良的计算机程序、以及改良的音频信号或储存有此音频信号的储存介质，该音频信号已经用此方法加以处理。更具体而言，需要找到改良在已编码位流中传递的音频信息的声音质量的解决方案。

技术实现思路

1、在本发明的权利要求中和的实施方式的详细描述中的参考符号仅仅为了改善可读性而添加，绝不意味着是限制性的。

2、本发明的目标是通过一种用以基于包含线性预测系数(lpc)的已编码音频信息来提供已解码音频信息的音频解码器来实现，该音频解码器包含：倾斜调整器(tiltadjuster)，其被配置为使用当前帧的线性预测系数来调整噪声的倾斜以获得倾斜信息；以及噪声插入器，其被配置为取决于由倾斜计算器获得的该倾斜信息来将该噪声添加至该当前帧。另外，本发明的目标通过一种用以基于包含线性预测系数(lpc)的已编码音频信息来提供已解码音频信息的方法来实现，该方法包含：使用当前帧的线性预测系数来调整噪声的倾斜以获得倾斜信息；以及取决于所获得的倾斜信息来将该噪声添加至该当前帧。

3、作为第二种创造性解决方案，本发明建议一种用以基于包含线性预测系数(lpc)的已编码音频信息来提供已解码音频信息的音频解码器，该音频解码器包含：噪声水平估计器，其被配置为使用至少一个先前帧的线性预测系数来估计当前帧的噪声水平，以便获得噪声水平信息；以及噪声插入器，其被配置为取决于由该噪声水平估计器提供的该噪声水平信息来将噪声添加至该当前帧。此外，本发明的目标是通过一种用以基于包含线性预测系数(lpc)的已编码音频信息来提供已解码音频信息的方法来解决，该方法包含：使用至少一个先前帧的线性预测系数来估计当前帧的噪声水平，以便获得噪声水平信息；以及取决于由该噪声水平估计提供的噪声水平信息来将噪声添加至该当前帧。另外，本发明的目标通过以下两者来解决：一种用以执行此方法的计算机程序，其中该计算机程序在计算机上运行；以及一种音频信号或储存有此音频信号的储存介质，该音频信号已经用此方法加以处理。

4、所建议的解决方案避免了必须在celp位流(bitstream，比特流)中提供边信息以便在噪声填充过程期间调整在解码器侧所提供的噪声。这意味着，可减小将要用位流输送的数据的量，而可仅仅基于当前或先前已解码的帧的线性预测系数来增加所插入噪声的质量。换言之，可省略关于噪声的边信息，该边信息将会增加将要用位流传递的数据的量。本发明允许提供低比特率数字编码器及方法，其与现有技术的解决方案相比而言可占用关于位流的更少的带宽并且提供质量提高的背景噪声。

5、较佳的是，音频解码器包含用以判定当前帧的帧类型的帧类型判定器，该帧类型判定器被配置为在检测到当前帧的帧类型为语音类型时，启动倾斜调整器来调整噪声的倾斜。在一些实施方式中，帧类型判定器被配置为在帧经acelp或celp编码时，将该帧辨识为语音类型帧。根据当前帧的倾斜来对噪声加以整形可提供更自然的背景噪声且可减少与编码于位流中的所要信号的背景噪声有关的音频压缩的不良效应。因为这些不良的压缩效应及伪影相对于语音信息的背景噪声常常变得显著，所以可能有利的是：通过在将噪声添加至当前帧之前调整噪声的倾斜来增强将要添加至此类语音类型帧的噪声的质量。因此，噪声插入器可被配置为仅在当前帧为语音帧的情况下将噪声添加至当前帧，因为如果仅语音帧通过噪声填充来进行处理，可减少解码器侧的工作负载。

6、在本发明的一较佳实施方式中，倾斜调整器被配置为使用对当前帧的线性预测系数的一阶分析(first-order analysis)的结果来获得倾斜信息。通过使用对线性预测系数此一阶分析，在位流中省略用以表征噪声的边信息成为可能。此外，对将要添加的噪声的调整可基于当前帧的线性预测系数，该等线性预测系数必须用位流以任何方式加以传递来允许对当前帧的音频信息的解码。这意味着在调整噪声的倾斜的过程中当前帧的线性预测系数被有利地再使用。另外，一阶分析相当简单，使得音频解码器的计算复杂性不会显著增加。

7、在本发明的一些实施方式中，倾斜调整器被配置为使用对当前帧的线性预测系数的增益g的计算作为该一阶分析来获得倾斜信息。更佳地，通过公式g＝σ[ak·ak+1]/σ[ak·ak]给出增益g，其中ak为当前帧的lpc系数。在一些实施方式中，在该计算中使用两个或更多lpc系数ak。较佳地，使用总共16个lpc系数，因此k＝0…15。在本发明的实施方式中，位流可利用多于或少于16个lpc系数编码。因为当前帧的线性预测系数容易存在于位流中，所以可在不利用边信息的情况下获得倾斜信息，从而减小将要在位流中传递的数据的量。可仅仅通过使用对已编码音频信息加以解码所必需的线性预测系数来调整将要添加的噪声。

8、较佳地，倾斜调整器可被配置为使用用于当前帧的直接形式滤波器x(n)-g·x(n-1)的传递函数的计算来获得倾斜信息。此种类型的计算相当容易且不需要解码器侧的高计算能力。如上文所展示，可易于根据当前帧的lpc系数计算出增益g。这允许在仅仅使用对已编码音频信息解码所必需的位流数据的情况下改善低比特率数字编码器的噪声质量。

9、在本发明的一较佳实施方式中，噪声插入器被配置为在将噪声添加至当前帧之前，将当前帧的倾斜信息应用于噪声以便调整噪声的倾斜。若噪声插入器经相应地配置，则可提供简化的音频解码器。通过首先应用倾斜信息，随后将已调整的噪声添加至当前帧，可提供音频解码器的简单且有效的方法。

10、在本发明的一实施方式中，音频解码器另外包含：噪声水平估计器，其被配置为使用至少一个先前帧的线性预测系数来估计当前帧的噪声水平以获得噪声水平信息；以及噪声插入器，其被配置为取决于由该噪声水平估计器提供的该噪声水平信息来将噪声添加至该当前帧。由此，因为可根据可能存在于当前帧中的噪声水平来调整将要添加至当前帧的噪声，所以可增强背景噪声的质量且因此增强整个音频传输的质量。例如，若因为根据先前帧估计了高噪声水平，所以预计在当前帧中为高噪声水平，则噪声插入器可被配置为在将噪声添加至当前帧之前增加将要添加至当前帧的噪声的水平。因此，将要添加的噪声可被调整成与当前帧中的预计噪声水平相比而言既不会太安静也不会太大声。此外，此调整并非基于位流中的专用边信息，而是仅仅使用在位流中传递的必要数据的信息，在此情况下为至少一个先前帧的线性预测系数，该线性预测系数亦提供关于先前帧中的噪声水平的信息。因此，较佳的是，使用g导出的倾斜对将要添加至当前帧的噪声加以整形且考虑到噪声水平估计来缩放(scale)该噪声。更佳的是，在当前帧为语音类型时，调整将要添加至当前帧的噪声的倾斜及噪声水平。在一些实施方式中，在当前帧为例如tcx类型或dtx类型的一般音频类型时，也调整将要添加至当前帧的倾斜和/或噪声水平。

11、较佳地，音频解码器包含用以判定当前帧的帧类型的帧类型判定器，该帧类型判定器被配置为识别当前帧的帧类型为语音还是一般音频，因此可取决于当前帧的帧类型来执行噪声水平估计。例如，帧类型判定器可被配置为检测当前帧为celp或acelp帧(其是语音帧类型)，还是tcx/mdct或dtx帧(其是一般音频帧类型)。因为这些编码格式遵循不同原理，所以需要在执行噪声水平估计之前判定帧类型，以使得可取决于帧类型来选择适合的计算。

12、在本发明的一些实施方式中，音频解码器适于：计算表示当前帧的未频谱整形的激发(excitation，激励)的第一信息，以及计算关于当前帧的频谱缩放的第二信息，以便计算第一信息和第二信息的商(quotient)来获得噪声水平信息。由此，可在不利用任何边信息的情况下获得噪声水平信息。因此，可保持编码器的比特率较低。

13、较佳地，音频解码器适于：在当前帧为语音类型的条件下，解码当前帧的激发信号，且根据当前帧的时域表示来计算其均方根erms来作为第一信息，以便获得噪声水平信息。对此实施方式较佳的是，音频解码器适于在当前帧为celp或acelp类型的情况下相应地执行。将已频谱整平的激发信号(在感知域中)从位流解码且用来更新噪声水平估计。在读取位流之后计算当前帧的激发信号的均方根erms。此种类型的计算可不需要高计算能力，因此甚至可由具有较低计算能力的音频解码器执行。

14、在一较佳实施方式中，音频解码器适于：在当前帧为语音类型的条件下，计算当前帧的lpc滤波器的传递函数的峰值水平p来作为第二信息，从而使用线性预测系数来获得噪声水平信息。此外，较佳的是，当前帧为celp或acelp类型。计算峰值水平p的成本相当低，且通过再使用当前帧的线性预测系数(也用来解码该帧中所含的音频信息)，可省略边信息，且仍可增强背景噪声而不增加位流的数据速率。

15、在本发明的一较佳实施方式中，音频解码器适于：在当前帧为语音类型的条件下，通过计算均方根erms与峰值水平p的商来计算当前音频帧的频谱最小值mf，以便获得噪声水平信息。此计算相当简单且可提供可用于估计在多个音频帧的范围内的噪声水平的数值。因此，可使用一系列当前音频帧的频谱最小值mf来估计在该等一系列音频帧所涵盖的时段期间的噪声水平。这可允许在保持复杂性相当低的同时获得对当前帧的噪声水平的良好估计。较佳地使用公式p＝∑|ak|来计算峰值水平p，其中ak为线性预测系数，较佳地，k＝0…15。因此，若帧包含16个线性预测系数，则在一些实施方式中可通过对较佳为16个的ak的振幅求和来计算p。

16、较佳地，音频解码器适于：在当前帧为一般音频类型的情况下，解码当前帧的未整形的mdct激发，且根据当前帧的频谱域表示来计算其均方根erms以便获得噪声水平信息来作为第一信息。每当当前帧并非语音帧，而是一般音频帧时，此系本发明的较佳实施方式。在mdct或dtx帧中的频谱域表示很大程度上等效于在例如celp或(a)celp帧的语音帧中的时域表示。差别在于，mdct未考虑帕塞瓦尔定理(parseval’s theorem)。因此，较佳地，计算一般音频帧的均方根erms的方式类似于计算语音帧的均方根erms的方式。然后，较佳地，如wo2012/110476 a1中所述，例如使用mdct功率谱来计算一般音频帧的lpc系数等效物(lpccoefficients equivalents)，该mdct功率谱指代巴克尺度(bark scale)上的mdct值的平方。在替代实施方式中，mdct功率谱的频带可具有恒定的宽度，因此该功率谱的尺度对应于线性尺度(linear scale，线性标尺)。在此线性尺度的情况下，计算出的lpc系数等效物类似于例如针对acelp或celp帧所计算出的相同帧的时域表示中的lpc系数。另外，较佳的是，若当前帧为一般音频类型，则计算如wo 2012/110476 a1中所述根据mdct帧所计算出的当前帧的lpc滤波器的传递函数的峰值水平p来作为第二信息，从而在当前帧为一般音频类型的条件下使用线性预测系数来获得噪声水平信息。然后，若当前帧为一般音频类型，则较佳地通过计算均方根erms和峰值水平p的商来计算当前音频帧的频谱最小值，以便在当前帧为一般音频类型的条件下获得噪声水平信息。因此，无论当前帧为语音类型还是一般音频类型，均可获得描述当前帧的频谱最小值mf的商。

17、在一较佳实施方式中，音频解码器适于：无论帧类型如何，在噪声水平估计器中将从当前音频帧获得的商加入队列，该噪声水平估计器包含用于从不同音频帧获得的两个或更多商的噪声水平储存器。例如在应用低延迟统一语音及音频解码(ld-usac、evs)时，如果音频解码器适于在语音帧的解码与一般音频帧的解码之间切换，这会是有利的。由此，无论帧类型如何，均可获得多个帧的平均噪声水平。较佳地，噪声水平储存器可保存从十个或更多先前音频帧获得的十个或更多的商。例如，噪声水平储存器可含有用于30个帧的商的空间。因此，可针对在当前帧之前的扩展时间计算出噪声水平。在一些实施方式中，仅在检测到当前帧为语音类型时，可在噪声水平估计器中将商加入队列。在其他实施方式中，仅在检测到当前帧为一般音频类型时，可在噪声水平估计器中将商加入队列。

18、较佳的是，噪声水平估计器适于基于不同音频帧的两个或更多商的统计分析来估计噪声水平。在本发明的一实施方式中，音频解码器适于使用基于最小均方误差的噪声功率谱密度追踪来对该等商进行统计分析。在hendriks、heusdens以及jensen的公开案[2]中描述了此追踪。如果应该应用根据[2]的方法，则音频解码器适于在统计分析时使用轨迹值的平方根，就像在本例中一样直接搜寻振幅谱。在本发明的另一实施方式中，使用根据[3]已知的最小值统计数据来分析不同音频帧的两个或更多商。

19、在一较佳实施方式中，音频解码器包含解码器核心，解码器核心被配置为使用当前帧的线性预测系数来解码当前帧的音频信息以获得已解码的核心编码器输出信号，且噪声插入器取决于在解码当前帧的音频信息时所使用的和/或在解码一个或多个先前帧的音频信息时所使用的线性预测系数来添加噪声。因此，噪声插入器利用用来解码当前帧的音频信息的相同线性预测系数。可省略用来指示噪声插入器的边信息。

20、较佳地，音频解码器包含用以将当前帧去加重的去加重滤波器(de-emphasisfilter)，该音频解码器适于在噪声插入器将噪声添加至当前帧之后对当前帧应用去加重滤波器。由于去加重是提升低频的一阶iir，所以这允许对所添加噪声的低复杂性、陡峭iir高通滤波，从而避免在低频处的可听见的噪声伪影。

21、较佳地，音频解码器包含噪声产生器，该噪声产生器适于产生将由噪声插入器添加至当前帧的噪声。使音频解码器包括噪声产生器可提供更方便的音频解码器，因为不需要外部噪声产生器。在替代方案中，噪声可由外部噪声产生器供应，外部噪声产生器可经由接口连接至音频解码器。例如，取决于在当前帧中将要增强的背景噪声，可应用特殊类型的噪声产生器。

22、较佳地，噪声产生器被配置为产生随机白噪声。此噪声与常见的背景噪声充分相似，且此噪声产生器可易于提供。

23、在本发明的一较佳实施方式中，噪声插入器被配置为在已编码音频信息的比特率小于每个样本1个比特的条件下将噪声添加至当前帧。较佳地，已编码音频信息的比特率小于每个样本0.8比特。甚至更佳的是，噪声插入器被配置为在已编码音频信息的比特率小于每个样本0.5比特的条件下将噪声添加至当前帧。

24、在一较佳实施方式中，音频解码器被配置为使用基于编码器amr-wb、g.718或ld-usac(evs)中的一个或多个的编码器来解码已编码音频信息。这些编码器是熟知的且分布广泛的(a)celp编码器，在这些编码器中额外使用这样的噪声填充方法会是极为有利的。