音频信号重构的制作方法
- 国知局
- 2024-06-21 11:56:02
本公开整体涉及音频信号重构。
背景技术:
1、技术进步已导致更小且更强大的计算设备。例如,当前存在各种各样的便携式个人计算设备,包括小型、轻量级且易于用户携带的无线电话(诸如移动和智能电话、平板设备和膝上型计算机)。这些设备可以通过无线网络传送话音和数据分组。此外,许多此类设备并入有附加功能性,诸如数字静态相机、数字摄像机、数字记录器和音频文件播放器。此外,此类设备可以处理可执行指令,包括软件应用,诸如网络浏览器应用,其可用于访问互联网。照此,这些设备可以包括显著的计算能力。
2、移动设备(诸如移动电话)可用于编码和解码音频。作为非限制性示例,第一移动设备可检测来自用户的语音并且将语音编码为生成的编码音频信号。编码音频信号可被传送到第二移动设备,且在接收到编码音频信号后,第二移动设备可对音频信号进行解码以重构语音以供重放。在一些场景中,可使用复杂电路来解码音频信号。然而,复杂电路可留下相对大的存储器占用。在不使用复杂电路来重构语音的其他场景中,语音的重构包括时间密集型操作。例如,可以使用需要多次迭代的语音重构算法来重构语音。作为多次迭代的结果,处理效率可能降低。
技术实现思路
1、根据本公开的一个具体实施,一种设备包括存储器和耦合到该存储器的一个或多个处理器。一个或多个处理器被可操作地配置为接收包括描述音频信号的幅度谱数据的音频数据。一个或多个处理器还被可操作地配置为将音频数据作为输入提供给神经网络,以针对音频信号的一个或多个样本生成初始相位估计。一个或多个处理器还被可操作地配置为基于初始相位估计和音频信号的一个或多个样本的由幅度谱数据指示的幅度谱,使用相位估计算法来确定音频信号的一个或多个样本的目标相位数据。一个或多个处理器进一步被可操作地配置为基于音频信号的一个或多个样本的由目标相位数据指示的目标相位并且基于幅度谱来重构音频信号。
2、根据本公开的另一个具体实施,一种方法包括接收包括描述音频信号的幅度谱数据的音频数据。该方法还包括将音频数据作为输入提供给神经网络,以针对音频信号的一个或多个样本生成初始相位估计。该方法还包括基于初始相位估计和音频信号的一个或多个样本的由幅度谱数据指示的幅度谱,使用相位估计算法来确定音频信号的一个或多个样本的目标相位数据。该方法还包括基于音频信号的一个或多个样本的由目标相位数据指示的目标相位并且基于幅度谱来重构音频信号。
3、根据本公开的另一个具体实施,一种非暂态计算机可读介质包括指令,该指令在由一个或多个处理器执行时使得一个或多个处理器接收包括描述音频信号的幅度谱数据的音频数据。该指令在由一个或多个处理器执行时进一步使得一个或多个处理器将音频数据作为输入提供给神经网络,以针对音频信号的一个或多个样本生成初始相位估计。该指令在由一个或多个处理器执行时还使得一个或多个处理器基于初始相位估计和音频信号的一个或多个样本的由幅度谱数据指示的幅度谱,使用相位估计算法来确定音频信号的一个或多个样本的目标相位数据。该指令在由一个或多个处理器执行时进一步使得一个或多个处理器基于音频信号的一个或多个样本的由目标相位数据指示的目标相位并且基于幅度谱来重构音频信号。
4、根据本公开的另一个具体实施,一种装置包括用于接收包括描述音频信号的幅度谱数据的音频数据的构件。该装置还包括用于将音频数据作为输入提供给神经网络,以针对音频信号的一个或多个样本生成初始相位估计的构件。该装置还包括用于基于初始相位估计和音频信号的一个或多个样本的由幅度谱数据指示的幅度谱,使用相位估计算法来确定音频信号的一个或多个样本的目标相位数据的构件。该装置还包括用于基于音频信号的一个或多个样本的由目标相位数据指示的目标相位并且基于幅度谱来重构音频信号的构件。
5、本公开的其他方面、优点和特征将在审阅包括以下部分的整个申请后变得显而易见:附图说明、具体实施方式和权利要求书。
技术特征:1.一种设备,包括:
2.根据权利要求1所述的设备,其中所述神经网络被配置为基于所述音频数据生成第一音频信号估计,并且其中所述指令在被执行时进一步使得所述一个或多个处理器基于所述第一音频信号估计生成所述初始相位估计。
3.根据权利要求2所述的设备,其中所述一个或多个处理器被能够操作地配置为对所述第一音频信号估计执行短时傅立叶变换(stft)操作以确定所述初始相位估计。
4.根据权利要求1所述的设备,其中所述一个或多个处理器被能够操作地配置为:
5.根据权利要求1所述的设备,其中与所述幅度谱的第一部分相关联的第一窗口和与所述幅度谱的第二部分相关联的第二窗口重叠,其中所述幅度谱的所述第一部分对应于所述一个或多个样本中的第一样本的幅度谱,并且其中所述幅度谱的所述第二部分对应于所述一个或多个样本中的第二样本的幅度谱。
6.根据权利要求5所述的设备,其中所述第一窗口的至少一个样本与所述第二窗口的至少一个样本重叠。
7.根据权利要求1所述的设备,其中所述一个或多个处理器被能够操作地配置为:
8.根据权利要求1所述的设备,其中所述神经网络包括自回归神经网络。
9.根据权利要求1所述的设备,其中所述相位估计算法对应于griffin-lim算法,并且其中使用所述griffin-lim算法的五次或更少次迭代来确定所述目标相位数据。
10.根据权利要求1所述的设备,其中所述音频数据对应于从音频解码器接收的去量化值。
11.一种方法,包括:
12.根据权利要求11所述的方法,还包括:
13.根据权利要求12所述的方法,其中生成所述初始相位估计包括对所述第一音频信号估计执行短时傅立叶变换(stft)操作。
14.根据权利要求11所述的方法,还包括:
15.根据权利要求11所述的方法,其中与所述幅度谱的第一部分相关联的第一窗口和与所述幅度谱的第二部分相关联的第二窗口重叠,其中所述幅度谱的所述第一部分对应于所述一个或多个样本中的第一样本的幅度谱,并且其中所述幅度谱的所述第二部分对应于所述一个或多个样本中的第二样本的幅度谱。
16.根据权利要求15所述的方法,其中所述第一窗口的一个样本与所述第二窗口的一个样本重叠。
17.根据权利要求11所述的方法,还包括:
18.根据权利要求11所述的方法,其中所述神经网络包括自回归神经网络。
19.根据权利要求11所述的方法,其中所述相位估计算法对应于griffin-lim算法,并且其中使用所述griffin-lim算法的五次或更少次迭代来确定所述目标相位数据。
20.根据权利要求11所述的方法,其中与所述神经网络一起使用所述相位估计算法来重构所述音频信号使得所述神经网络能够是低复杂性神经网络。
21.一种包括指令的非暂态计算机可读介质,所述指令在由一个或多个处理器执行时使所述一个或多个处理器:
22.根据权利要求21所述的非暂态计算机可读介质,其中所述神经网络被配置为基于所述音频数据生成第一音频信号估计,并且其中所述指令在被执行时进一步使得所述一个或多个处理器基于所述第一音频信号估计生成所述初始相位估计。
23.根据权利要求22所述的非暂态计算机可读介质,其中所述指令在被执行时使得所述一个或多个处理器对所述第一音频信号估计执行短时傅立叶变换(stft)操作以确定所述初始相位估计。
24.根据权利要求21所述的非暂态计算机可读介质,其中所述指令在被执行时进一步使得所述一个或多个处理器:
25.根据权利要求21所述的非暂态计算机可读介质,其中与所述幅度谱的第一部分相关联的第一窗口和与所述幅度谱的第二部分相关联的第二窗口重叠,其中所述幅度谱的所述第一部分对应于所述一个或多个样本中的第一样本的幅度谱,并且其中所述幅度谱的所述第二部分对应于所述一个或多个样本中的第二样本的幅度谱。
26.根据权利要求21所述的非暂态计算机可读介质,其中所述神经网络包括自回归神经网络。
27.根据权利要求21所述的非暂态计算机可读介质,其中所述相位估计算法对应于griffin-lim算法,并且其中使用所述griffin-lim算法的五次或更少次迭代来确定所述目标相位数据。
28.根据权利要求21所述的非暂态计算机可读介质,其中所述音频数据对应于从音频解码器接收的去量化值。
29.一种装置,包括:
30.根据权利要求29所述的装置,其中所述音频数据对应于从音频解码器接收的去量化值。
技术总结一种方法包括接收包括描述音频信号的幅度谱数据的音频数据。该方法还包括将该音频数据作为输入提供给神经网络,以针对该音频信号的一个或多个样本生成初始相位估计。该方法还包括基于该初始相位估计和该音频信号的该一个或多个样本的由该幅度谱数据指示的幅度谱,使用相位估计算法来确定该音频信号的该一个或多个样本的目标相位数据。该方法还包括基于该音频信号的该一个或多个样本的由该目标相位数据指示的目标相位并且基于该幅度谱来重构该音频信号。技术研发人员:Z·I·斯科迪利斯,D·德瓦苏伦德拉,V·拉金德兰受保护的技术使用者:高通股份有限公司技术研发日:技术公布日:2024/6/2本文地址:https://www.jishuxx.com/zhuanli/20240618/24559.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。