技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频信号处理方法、装置、计算机设备及存储介质与流程 > 正文

音频信号处理方法、装置、计算机设备及存储介质与流程

国知局
2024-06-21 10:41:57

本申请涉及人工智能，本申请涉及一种音频信号处理方法、装置、计算机设备及存储介质。

背景技术：

1、语音提取技术，是一种从混合的语音信号中提取特定人的目标语音的技术。语音提取技术可应用于语音通话、在线会议等多种场景。

2、相关技术中，为提高特定说话人语音的提取质量，通常需要提前获取特定人5至10秒的语音以进行注册。然而，受限于注册所需的特定人语音较长，采用相关技术来提取语音的实用性较差。因此，如何处理音频信号以更好的实现语音提取，仍是本领域研究的重点。

技术实现思路

1、本申请提供了一种音频信号处理方法、装置、计算机设备及存储介质，可以提高音频信号处理的效率，提高实用性。所述技术方案如下：

2、一方面，提供了一种音频信号处理方法，所述方法包括：

3、基于第一音频信号，使用语音注册模块，获取所述语音注册模块对应的第一隐状态；

4、基于所述第一隐状态，从第二音频信号中提取目标音频信号。

5、一方面，提供了一种音频信号处理方法，所述方法包括：

6、向用户输出待处理音频信号；

7、接收用户的处理指令；

8、基于所述处理指令，从待处理音频信号中提取目标音频信号。

9、另一方面，提供了一种计算机设备，包括存储器、处理器及存储在存储器上的计算机程序，所述处理器执行所述计算机程序以实现上述的音频信号处理方法。

10、另一方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的音频信号处理方法。

11、另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述的音频信号处理方法。

12、本申请实施例提供的技术方案带来的有益效果是：

13、本申请提供的音频信号处理方法，通过基于第一音频信号，使用语音注册模块，获取该语音注册模块对应的第一隐状态，从而快速得到所关注声源的隐式特征；并基于该第一隐状态，从第二音频信号中提取目标音频信号，从而无需基于较长时间的注册声源的音频来提取显式特征，也可完成对目标音频信号的提取，节省了注册时间，提高了音频信号处理的效率，提高了音频信号处理方法的实用性。

技术特征：

1.一种音频信号处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述语音注册模块包含第一编码模块和隐状态分析模块；

3.根据权利要求2所述的方法，其特征在于，所述使用所述隐状态分析模块，基于所述第一音频特征进行特征提取，获取特征提取时所述隐状态分析模块的第一隐状态，包括：

4.根据权利要求2或3所述的方法，其特征在于，所述基于当前帧的第一音频特征进行特征提取，获取特征提取时所述隐状态分析模块的第一隐状态，基于获取的第一隐状态，更新所述隐状态分析模块的第一隐状态，包括：

5.根据权利要求2-4中任一项所述的方法，其特征在于，所述使用所述第一编码模块，提取所述第一音频信号的第一音频特征，包括：

6.根据权利要求2-5中任一项所述的方法，其特征在于，所述隐状态分析模块包括下述至少一种：循环神经网络，注意力网络，transformer网络，卷积网络。

7.根据权利要求1所述的方法，其特征在于，所述基于所述第一隐状态，从第二音频信号中提取目标音频信号，包括：

8.根据权利要求7所述的方法，其特征在于，还包括：

9.根据权利要求7所述的方法，其特征在于，所述第二音频信号包括至少一个块，每个块包括至少一帧；

10.根据权利要求9所述的方法，其特征在于，所述基于所述语音注册模块对应的第一隐状态和所述语音提取模块的历史第二隐状态，预测所述语音提取模块处理当前块时的第二隐状态，包括：

11.根据权利要求9或10所述的方法，其特征在于，所述语音提取模块的历史第二隐状态包括：

12.根据权利要求9-11中任一项所述的方法，其特征在于，所述使用语音提取模块，基于所述第一隐状态和所述第二音频特征，从第二音频信号中提取目标音频信号对应的掩码信息，包括：

13.根据权利要求7-12中任一项所述的方法，其特征在于，所述第二音频特征包括所述第二音频信号的至少两个预设频域的子带特征，所述掩码信息包括各个预设频域的掩码信息；

14.根据权利要求7-13中任一项所述的方法，其特征在于，所述语音提取模块包括下述至少一种：循环神经网络，注意力网络，transformer网络，卷积网络。

15.根据权利要求1-14中任一项所述的方法，其特征在于，还包括：

16.根据权利要求15所述的方法，其特征在于，所述基于所述处理指令和所述待处理音频信号确定所述第一音频信号和所述第二音频信号，包括：

17.一种音频信号处理方法，其特征在于，所述方法包括：

18.根据权利要求17所述的方法，其特征在于，所述基于所述处理指令，从待处理音频信号中提取目标音频信号，包括：

19.根据权利要求18所述的方法，其特征在于，所述基于所述处理指令和所述待处理音频信号确定第一音频信号和第二音频信号，包括：

20.一种计算机设备，包括存储器、处理器及存储在存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现权利要求1至19中任一项所述的音频信号处理方法。

21.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至19中任一项所述的音频信号处理方法。

技术总结本申请提供一种音频信号处理方法、装置、计算机设备及存储介质，涉及人工智能技术领域。本申请提供的音频信号处理方法，通过基于第一音频信号，使用语音注册模块，获取该语音注册模块对应的第一隐状态，从而快速得到所关注声源的隐式特征；并基于该第一隐状态，从第二音频信号中提取目标音频信号，从而无需基于较长时间的注册声源的音频来提取显式特征，也可完成对目标音频信号的提取，节省了注册时间，提高了音频信号处理的效率，提高了音频信号处理方法的实用性。技术研发人员：杨磊,刘炜,谭璐芬受保护的技术使用者：北京三星通信技术研究有限公司技术研发日：技术公布日：2024/2/1