技术新讯 > 乐器声学设备的制造及制作,分析技术 > 使用基于机器学习的时变滤波器和线性预测译码滤波器的组合的音频译码的制作方法 > 正文

使用基于机器学习的时变滤波器和线性预测译码滤波器的组合的音频译码的制作方法

国知局
2024-06-21 11:53:02

本公开整体涉及音频译码(例如，音频编码和/或解码)。例如，描述了用于至少部分地通过组合由机器学习系统(例如，基于神经网络的模型)生成的线性时变滤波器与线性预测译码(lpc)滤波器来执行音频译码的系统和技术。

背景技术：

1、音频译码(也被称为话音译码和/或语音译码)是用于使用尽可能少的比特来表示数字化音频信号(从而压缩语音数据)而同时试图维持特定水平的音频质量的技术。音频或话音编码器用于将数字化音频(例如，语音、音乐等)信号编码(或者压缩)为较低比特率数据流。可将较低比特率数据流输入音频或话音解码器，该音频或话音解码器对数据流进行解码并构建对原始信号的近似或重建。音频或话音编码器-解码器结构可被称为音频译码器(或者话音译码器或语音译码器)或音频/话音/语音译码器-解码器(编解码器)。

2、音频译码器利用了语音信号是高度相关波形的事实。一些语音译码技术基于源-滤波器语音产生模型，该模型假定声带是频谱平坦的声音(激励信号)的源，并且假定声道充当滤波器以对语音的各种声音进行频谱整形。不同音素(例如，元音、摩擦音和话音摩擦音)可通过它们的激励(源)和频谱形状(滤波器)来进行区分。

技术实现思路

1、本文描述了用于至少部分地通过组合由机器学习系统(例如，基于神经网络的模型)生成的线性时变滤波器与线性预测译码(lpc)滤波器来执行音频译码的系统和技术。

2、根据至少一个示例，提供了一种用于重建一个或多个音频信号的方法。该方法包括：使用神经网络，基于向该神经网络的一个或多个输入来生成针对音频信号的至少一个样本的激励信号，该激励信号被配置为激励线性预测译码(lpc)滤波器；以及基于该激励信号使用该lpc滤波器来生成重建的音频信号的至少一个样本。

3、在另一个示例中，提供了一种用于重建一个或多个音频信号的装置，该装置包括：存储器(例如，被配置为存储数据，诸如虚拟内容数据、一个或多个图像等)；以及一个或多个处理器，该一个或多个处理器耦合到该存储器(例如，被实施在电路系统中)。该一个或多个处理器被配置为并且可：使用神经网络，基于向该神经网络的一个或多个输入来生成针对音频信号的至少一个样本的激励信号，该激励信号被配置为激励线性预测译码(lpc)滤波器；以及基于该激励信号使用该lpc滤波器来生成重建的音频信号的至少一个样本。

4、在另一个示例中，提供了一种其上存储有指令的非暂态计算机可读介质，该指令在由一个或多个处理器执行时致使该一个或多个处理器：使用神经网络，基于向该神经网络的一个或多个输入来生成针对音频信号的至少一个样本的激励信号，该激励信号被配置为激励线性预测译码(lpc)滤波器；以及基于该激励信号使用该lpc滤波器来生成重建的音频信号的至少一个样本。

5、在另一个示例中，提供了一种用于重建一个或多个音频信号的装置。该装置包括：用于使用神经网络，基于向该神经网络的一个或多个输入来生成针对音频信号的至少一个样本的激励信号的部件，该激励信号被配置为激励线性预测译码(lpc)滤波器；和用于基于该激励信号使用该lpc滤波器来生成重建的音频信号的至少一个样本的部件。

6、在一些方面，向该神经网络的该一个或多个输入包括与该音频信号相关联的特征。在一些情况下，该特征包括对数梅尔频谱特征。

7、在一些方面，该lpc滤波器是时变lpc滤波器。

8、在一些方面，上文所描述的方法、装置和计算机可读媒体可包括使用该解码器中的该lpc滤波器的滤波器系数来生成该重建的音频信号的该至少一个样本。在一些方面，在话音编码器中基于输入音频信号的自相关来生成该lpc滤波器的该滤波器系数。在一些方面，上文所描述的方法、装置和计算机可读媒体可包括基于从话音编码器接收的特征来导出该lpc滤波器的该滤波器系数。在一些情况下，该特征包括梅尔频谱特征或其他特征。

9、在一些方面，上文所描述的方法、装置和计算机可读媒体可包括：使用该神经网络来生成谐波滤波器输出和噪声滤波器输出。在一些方面，为了生成该激励信号，上文所描述的方法、装置和计算机可读媒体可包括将该谐波滤波器输出与该噪声滤波器输出组合。

10、在一些方面，上文所描述的方法、装置和计算机可读媒体可包括：向使用该神经网络来生成的谐波滤波器输入基于音高特征的脉冲串信号；生成谐波滤波器输出；向使用该神经网络来生成的噪声滤波器输入随机噪声信号；生成噪声滤波器输出；以及至少部分地通过将该谐波滤波器输出与该噪声滤波器输出组合来生成该激励信号。

11、在一些方面，为了使用该神经网络来生成针对该音频信号的该至少一个样本的该激励信号，上文所描述的方法、装置和计算机可读介质可包括：使用该神经网络来生成用于一个或多个线性时变滤波器的系数；以及使用包括所生成的系数的该一个或多个线性时变滤波器来生成该激励信号。在一些方面，该一个或多个线性时变滤波器包括线性时变谐波滤波器和线性时变噪声滤波器。

12、在一些方面，为了生成针对该音频信号的该至少一个样本的该激励信号，上文所描述的方法、装置和计算机可读介质可包括：使用该神经网络来生成用于线性非时变滤波器的附加激励信号；以及基于该附加激励信号使用该线性非时变滤波器来生成该激励信号。

13、根据至少一个附加示例，提供了一种用于重建一个或多个音频信号的方法，包括：基于激励信号使用线性预测译码(lpc)滤波器来生成针对音频信号的至少一个样本的预测信号，该预测信号被配置为激励线性时变滤波器；使用神经网络来生成用于该线性时变滤波器的系数；以及基于该系数使用该线性时变滤波器来生成重建的音频信号的至少一个样本。

14、在另一个示例中，提供了一种用于重建一个或多个音频信号的装置，该装置包括：存储器(例如，被配置为存储数据，诸如虚拟内容数据、一个或多个图像等)；以及一个或多个处理器，该一个或多个处理器耦合到该存储器(例如，被实施在电路系统中)。该一个或多个处理器被配置为并且可：基于激励信号使用线性预测译码(lpc)滤波器来生成针对音频信号的至少一个样本的预测信号，该预测信号被配置为激励线性时变滤波器；使用神经网络来生成用于该线性时变滤波器的系数；以及基于该系数使用该线性时变滤波器来生成重建的音频信号的至少一个样本。

15、在另一个示例中，提供了一种其上存储有指令的非暂态计算机可读介质，该指令在由一个或多个处理器执行时致使该一个或多个处理器：基于激励信号使用线性预测译码(lpc)滤波器来生成针对音频信号的至少一个样本的预测信号，该预测信号被配置为激励线性时变滤波器；使用神经网络来生成用于该线性时变滤波器的系数；以及基于该系数使用该线性时变滤波器来生成重建的音频信号的至少一个样本。

16、在另一个示例中，提供了一种用于重建一个或多个音频信号的装置。该装置包括：至少一个存储器，该至少一个存储器被配置为存储音频数据；耦合到该至少一个存储器的至少一个处理器，该至少一个处理器被配置为：用于基于激励信号使用线性预测译码(lpc)滤波器来生成针对音频信号的至少一个样本的预测信号的部件，该预测信号被配置为激励线性时变滤波器；用于使用神经网络来生成用于该线性时变滤波器的系数的部件；用于基于该系数使用该线性时变滤波器来生成重建的音频信号的至少一个样本的部件。

17、可单独地或以任何合适的组合使用涉及方法、装置和计算机可读介质中的任一者的上述方面。

18、在一些方面，该装置可以是以下项或可作为以下项的部分：移动设备(例如，移动电话或所谓的“智能电话”、平板计算机或其他类型的移动设备)、连接网络的可穿戴设备、扩展现实设备(例如，虚拟现实(vr)设备、增强现实(ar)设备或混合现实(mr)设备)、个人计算机、膝上型计算机、服务器计算机(例如，视频服务器或其他服务器设备)、电视机、交通工具(或者交通工具的计算设备或系统)、相机(例如，数字相机、互联网协议(ip)相机等)、多相机系统、机器人设备或系统、航空设备或系统或其他设备。在一些方面，该装置包括用于捕获一个或多个图像或视频帧的至少一个相机。例如，该装置可包括用于捕获包括视频帧的一个或多个图像和/或一个或多个视频的一个相机(例如，rgb相机)或多个相机。在一些方面，该装置包括用于显示一个或多个图像、视频、通知或其他可显示数据的显示器。在一些方面，该装置包括发射器，该发射器被配置为在传输介质上向至少一个设备传输一个或多个视频帧和/或语法数据。在一些方面，上文描述的装置可以包括一个或多个传感器。在一些方面，该装置的该至少一个处理器包括神经处理单元(npu)、中央处理单元(cpu)、数字信号处理器(dsp)、图形处理单元(gpu)或其他处理设备或组件。

19、该技术实现要素：不旨在标识所要求保护的主题的关键或必要特征，其也不旨在孤立地用于确定所要求保护的主题的范围。本主题内容应当参考本专利的整个说明书的合适部分、任何或所有附图、以及每项权利要求来理解。

20、前述内容以及其他特征和实施方案将在参考以下说明书、权利要求书和所附附图时变得更明显。