技术新讯 > 乐器声学设备的制造及制作,分析技术 > 使用基于机器学习的线性滤波器和非线性神经源的音频译码的制作方法  >  正文

使用基于机器学习的线性滤波器和非线性神经源的音频译码的制作方法

  • 国知局
  • 2024-06-21 11:53:11

本申请总体涉及音频译码(例如,音频编码和/或解码)。例如,描述了用于至少部分地通过将由第一机器学习系统(例如,基于神经网络的模型)生成的非线性源与具有由第二机器学习系统(例如,基于神经网络的模型)估计的参数的线性滤波器组合来执行音频译码的系统和技术。

背景技术:

1、音频译码(也被称为话音译码和/或语音译码)是用于使用尽可能少的比特来表示数字化音频信号(从而压缩语音数据)而同时试图维持特定水平的音频质量的技术。音频或话音编码器用于将数字化音频(例如,语音、音乐等)信号编码(或者压缩)为更低比特率数据流。可将较低比特率数据流输入音频或话音解码器,该音频或话音解码器对数据流进行解码并构建对原始信号的近似或重建。音频或话音编码器-解码器结构可被称为音频译码器(或者话音译码器或语音译码器)或音频/话音/语音译码器-解码器(编解码器)。

2、音频译码器利用了语音信号是高度相关波形的事实。一些语音译码技术基于源-滤波器语音产生模型,该模型假定声带是频谱平坦的声音(激励信号)的源,并且假定声道充当滤波器以对语音的各种声音进行频谱整形。不同音素(例如,元音、摩擦音和话音摩擦音)可通过它们的激励(源)和频谱形状(滤波器)来进行区分。

技术实现思路

1、本文描述了用于至少部分地通过将由第一机器学习系统(例如,基于第一神经网络的模型)生成的非线性源与具有由第二机器学习系统(例如,基于第二神经网络的模型)估计的参数的线性滤波器组合来执行音频译码的系统和技术。

2、根据至少一个示例,提供了一种用于重建一个或多个音频信号的方法。该方法包括:使用第一神经网络,至少部分地通过基于向该第一神经网络的一个或多个输入来执行非线性运算来生成音频信号的至少一个样本的激励信号,该激励信号被配置为激励学习的线性滤波器;以及使用该学习的线性滤波器和该激励信号,生成重建的音频信号的至少一个样本。

3、在另一个示例中,提供了一种用于重建一个或多个音频信号的装置,该装置包括:存储器(例如,被配置为存储数据,诸如虚拟内容数据、一个或多个图像等);以及一个或多个处理器,该一个或多个处理器耦合到该存储器(例如,被实施在电路系统中)。该一个或多个处理器被配置为并可:使用第一神经网络,至少部分地通过基于向该第一神经网络的一个或多个输入来执行非线性运算来生成音频信号的至少一个样本的激励信号,该激励信号被配置为激励学习的线性滤波器;以及使用该学习的线性滤波器和该激励信号,生成重建的音频信号的至少一个样本。

4、在另一个示例中,提供了一种其上存储有指令的非暂态计算机可读介质,该指令当由一个或多个处理器执行时使该一个或多个处理器:使用第一神经网络,至少部分地通过基于向该第一神经网络的一个或多个输入来执行非线性运算来生成音频信号的至少一个样本的激励信号,该激励信号被配置为激励学习的线性滤波器;以及使用该学习的线性滤波器和该激励信号,生成重建的音频信号的至少一个样本。

5、在另一个示例中,提供了一种用于重建一个或多个音频信号的装置。该装置包括:用于使用第一神经网络来至少部分地通过基于向该第一神经网络的一个或多个输入来执行非线性运算来生成音频信号的至少一个样本的激励信号的部件,该激励信号被配置为激励学习的线性滤波器;以及用于使用该学习的线性滤波器和该激励信号来生成重建的音频信号的至少一个样本的部件。

6、在一些方面,向该神经网络的该一个或多个输入包括与该音频信号相关联的特征。

7、在一些方面,该特征包括对数梅尔频谱特征。

8、在一些方面,使用该第一神经网络执行的该非线性运算是非线性变换。

9、在一些方面,该第一神经网络对向该第一神经网络的该一个或多个输入执行该非线性变换,并且生成该激励信号,该激励信号是在时域中生成的。

10、在一些方面,使用该第一神经网络执行的该非线性运算基于非线性似然语音模型。

11、在一些方面,为了使用该第一神经网络来生成该激励信号,上文所述的方法、装置和计算机可读介质可包括:使用向该第一神经网络的该一个或多个输入,通过将该一个或多个输入提供给该非线性似然语音模型来生成概率分布;从该生成的概率分布确定一个或多个样本;以及使用来自该生成的概率分布的该一个或多个样本,生成该激励信号。

12、在一些方面,该至少一个处理器被进一步配置为上文所述的方法、装置和计算机可读介质可包括通过修改用于从该生成的概率分布确定该一个或多个样本的采样过程来修改该激励信号。

13、在一些方面,为了使用该学习的线性滤波器来生成该重建的音频信号,上文所述的方法、装置和计算机可读介质可包括使用第二神经网络,生成时变线性滤波器的一个或多个参数;用该生成的一个或多个参数来使该学习的线性滤波器参数化;以及使用该参数化的学习的线性滤波器和该激励信号,生成该重建的音频信号。

14、在一些方面,该时变线性滤波器的该一个或多个参数包括冲激响应、频率响应、一个或多个有理传递函数系数或它们的任何组合。

15、可单独地或以任何合适的组合使用涉及方法、装置和计算机可读介质中的任一者的上述方面。

16、在一些方面,该装置可以是以下项或可作为以下项的部分:移动设备(例如,移动电话或所谓的“智能电话”、平板计算机或其他类型的移动设备)、连接网络的可穿戴设备、扩展现实设备(例如,虚拟现实(vr)设备、增强现实(ar)设备或混合现实(mr)设备)、个人计算机、膝上型计算机、服务器计算机(例如,视频服务器或其他服务器设备)、电视机、交通工具(或者交通工具的计算设备或系统)、相机(例如,数字相机、互联网协议(ip)相机等)、多相机系统、机器人设备或系统、航空设备或系统或其他设备。在一些方面,该装置包括用于捕获一个或多个图像或视频帧的至少一个相机。例如,该装置可包括用于捕获包括视频帧的一个或多个图像和/或一个或多个视频的一个相机(例如,rgb相机)或多个相机。在一些方面,该装置包括用于显示一个或多个图像、视频、通知或其他可显示数据的显示器。在一些方面,该装置包括发射器,该发射器被配置为在传输介质上向至少一个设备传输一个或多个视频帧和/或语法数据。在一些方面,上文描述的装置可以包括一个或多个传感器。在一些方面,该装置的该至少一个处理器包括神经处理单元(npu)、中央处理单元(cpu)、数字信号处理器(dsp)、图形处理单元(gpu)或其他处理设备或组件。

17、该技术实现要素:不旨在标识所要求保护的主题的关键或必要特征,其也不旨在孤立地用于确定所要求保护的主题的范围。本主题内容应当参考本专利的整个说明书的合适部分、任何或所有附图、以及每项权利要求来理解。

18、前述内容以及其他特征和实施方案将在参考以下说明书、权利要求书和所附附图时变得更明显。

技术特征:

1.一种用于重建一个或多个音频信号的装置,包括:

2.根据权利要求1所述的装置,其中向所述第一神经网络的所述一个或多个输入包括与所述音频信号相关联的特征。

3.根据权利要求2所述的装置,其中所述特征包括对数梅尔频谱特征。

4.根据权利要求1至3中任一项所述的装置,其中使用所述第一神经网络执行的所述非线性运算是非线性变换。

5.根据权利要求4所述的装置,其中所述第一神经网络被配置为对向所述第一神经网络的所述一个或多个输入执行所述非线性变换,以及生成所述激励信号,其中所述激励信号是在时域中生成的。

6.根据权利要求1至3中任一项所述的装置,其中使用所述第一神经网络执行的所述非线性运算基于非线性似然语音模型。

7.根据权利要求6所述的装置,其中,为了使用所述第一神经网络来生成所述激励信号,所述至少一个处理器被配置为:

8.根据权利要求7所述的装置,其中所述至少一个处理器被进一步配置为通过修改用于从所生成的概率分布确定所述一个或多个样本的采样过程来修改所述激励信号。

9.根据权利要求1至8中任一项所述的装置,其中,为了使用所述学习的线性滤波器来生成所述重建的音频信号,所述处理器被配置为:

10.根据权利要求9所述的装置,其中所述时变线性滤波器的所述一个或多个参数包括以下项中的一者或多者:冲激响应、频率响应或一个或多个有理传递函数系数。

11.一种重建一个或多个音频信号的方法,所述方法包括:

12.根据权利要求11所述的方法,其中向所述第一神经网络的所述一个或多个输入包括与所述音频信号相关联的特征。

13.根据权利要求12所述的方法,其中所述特征包括对数梅尔频谱特征。

14.根据权利要求11至13中任一项所述的方法,其中使用所述第一神经网络执行的所述非线性运算是非线性变换。

15.根据权利要求14所述的方法,其中所述第一神经网络对向所述第一神经网络的所述一个或多个输入执行所述非线性变换,并且生成所述激励信号,所述激励信号是在时域中生成的。

16.根据权利要求11至13中任一项所述的方法,其中使用所述第一神经网络执行的所述非线性运算基于非线性似然语音模型。

17.根据权利要求16所述的方法,其中使用所述第一神经网络来生成所述激励信号包括:

18.根据权利要求17所述的方法,进一步包括通过修改用于从所生成的概率分布确定所述一个或多个样本的采样过程来修改所述激励信号。

19.根据权利要求11至18中任一项所述的方法,其中使用所述学习的线性滤波器来生成所述重建的音频信号包括:

20.根据权利要求19所述的方法,其中所述时变线性滤波器的所述一个或多个参数包括以下项中的一者或多者:冲激响应、频率响应或一个或多个有理传递函数系数。

21.一种存储指令的计算机可读存储介质,所述指令当由一个或多个处理器执行时使所述一个或多个处理器:

22.根据权利要求21所述的计算机可读存储介质,其中向所述神经网络的所述一个或多个输入包括与所述音频信号相关联的特征。

23.根据权利要求22所述的计算机可读存储介质,其中所述特征包括对数梅尔频谱特征。

24.根据权利要求21至23中任一项所述的计算机可读存储介质,其中使用所述第一神经网络执行的所述非线性运算是非线性变换。

25.根据权利要求24所述的计算机可读存储介质,其中所述第一神经网络对向所述第一神经网络的所述一个或多个输入执行所述非线性变换,并且生成所述激励信号,所述激励信号是在时域中生成的。

26.根据权利要求21至23中任一项所述的计算机可读存储介质,其中使用所述第一神经网络执行的所述非线性运算基于非线性似然语音模型。

27.根据权利要求26所述的计算机可读存储介质,其中为了使用所述第一神经网络来生成所述激励信号,所述指令当由所述一个或多个处理器执行时使所述一个或多个处理器:

28.根据权利要求27所述的计算机可读存储介质,其中所述指令当由所述一个或多个处理器执行时使所述一个或多个处理器通过修改用于从所生成的概率分布确定所述一个或多个样本的采样过程来修改所述激励信号。

29.根据权利要求21至28中任一项所述的计算机可读存储介质,其中,为了使用所述学习的线性滤波器来生成所述重建的音频信号,所述指令当由所述一个或多个处理器执行时使所述一个或多个处理器:

30.根据权利要求29所述的计算机可读存储介质,其中所述时变线性滤波器的所述一个或多个参数包括以下项中的一者或多者:冲激响应、频率响应或一个或多个有理传递函数系数。

技术总结描述了用于对音频信号进行译码的系统和技术。例如,话音解码器可使用第一神经网络,至少部分地通过基于向该第一神经网络的一个或多个输入来执行非线性运算来生成音频信号的至少一个样本的激励信号,该激励信号被配置为激励学习的线性滤波器。该话音解码器还可使用该学习的线性滤波器和该激励信号,生成重建的音频信号的至少一个样本。例如,可使用第二神经网络来生成一个或多个学习的线性滤波器的系数,该一个或多个学习的线性滤波器接收由被训练以执行该非线性运算的该第一神经网络生成的该激励信号作为输入。技术研发人员:G·K·索蒂埃雷,D·德瓦苏伦德拉,Z·I·斯科迪利斯,V·拉金德兰受保护的技术使用者:高通股份有限公司技术研发日:技术公布日:2024/5/27

本文地址:https://www.jishuxx.com/zhuanli/20240618/24270.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。