技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频识别方法、介质、电子设备及程序产品与流程  >  正文

音频识别方法、介质、电子设备及程序产品与流程

  • 国知局
  • 2024-06-21 11:56:01

本技术涉及人工智能领域,具体涉及一种音频识别方法、介质、电子设备及程序产品。

背景技术:

1、随着大模型和个性化语音复刻技术的快速发展,机器合成的人声也越发的自然。人们有时候从人耳听觉上难以分辨出听到电子设备所播放的音频是由机器合成,还是真人发出的,从而导致用户无法辨别音频中内容的真实性,存在安全隐患。

2、当前,机器合成的音频在一些场合,会给人类带来一些安全危害。

3、因此,如何准确判断出音频是机器合成的音频还是真人发出的音频,在很多安全场合具有极大的作用和意义。

技术实现思路

1、为了解决上述问题,本技术提出了一种音频识别方法、介质、电子设备及程序产品,避免无法准确判断出音频是机器合成的音频还是真人发出的音频。

2、第一方面,本技术提供了一种音频识别方法,该方法包括:获取第一音频数据;对第一音频数据进行抑制处理,得到第一处理后数据,其中,抑制处理为对第一音频数据中不属于第一类别音频数据的音频数据进行抑制;基于第一处理后数据与第一音频数据的相似程度,确定第一音频数据的类别,其中,对应于第一处理后数据与第一音频数据的相似程度大于第一阈值,确定第一音频数据为第一类别音频数据,对应于第一处理后数据与第一音频数据的相似程度小于第一阈值,确定第一音频数据为第二类别音频数据。

3、可以理解的,第一音频数据即为下文的待识别音频数据。当将第一音频数据中不属于第一类别音频数据的音频数据进行抑制后,得到第一处理后数据,该第一处理数据即为第一音频数据中保留下的具有第一类别音频数据特征的数据。此时,可以根据第一处理后数据与第一音频数据的相似程度情况,确定第一音频数据的类别。如果第一处理后数据与第一音频数据的相似程度较大,表明第一音频数据与第一类别音频数据较为接近,因此,可以确定第一音频数据的类别为第一类别音频数据;如果第一处理后数据与第一音频数据的相似程度较小,表明第一音频数据中不属于第一类别音频数据的音频数据较多,第一音频数据与第一类别音频数据差别较大,因此,可以确定第一音频数据的类别为第二类别音频数据。可以理解的,通过将第一音频数据与保留第一类别音频数据特征的第一处理音频数据比较,能够准确识别出第一音频数据的类别。

4、在上述第一方面的一种可能的实现中,上述方法还包括,第一音频数据包括多个音频段;并且,对应于第一处理后数据与第一音频数据的相似程度大于第一阈值,确定第一音频数据为第一类别音频数据,包括:对应于多个音频段中的第一音频段与第一处理后数据中与第一音频段对应的第一数据段之间的相似程度大于第一阈值,确定第一音频段为第一类别音频数据。

5、可以理解的,在得到第一处理后数据后,此时在确定第一处理后数据与第一音频数据的相似程度时,可以分别确定第一音频数据与第一处理后数据的对应音频段的相似程度,从而识别出每一段音频的类别,提高第一音频数据类别识别的准确性。进而,避免第一音频数据与保留第一类别音频数据的特征的第一处理后数据仅在某一或者部分音频段存在微小差异的情况下,无法准确识别第一音频数据类别的问题。

6、在上述第一方面的一种可能的实现中,第一类别音频数据为人声音频数据,第二类别音频数据为伪人声音频数据;或者第一类别音频数据为伪人声音频数据,第二类别音频数据为人声音频数据。

7、可以理解的,当第一类别音频数据为人声音频数据时,此时将第一音频数据中不属于人声音频数据的音频数据进行抑制,例如将伪人声音频数据以及环境、机器噪声数据进行抑制,保留人声音频数据,此时,第一处理后数据为保留了人声音频数据特征的数据。此时,如果第一音频数据与第一处理后数据的相似程度较大,则第一音频数据为人声音频数据,如果第一音频数据与第一处理后数据的相似程度较小,则第一音频数据为伪人声音频数据。可以理解的,当第一类别音频数据为伪人声音频数据时,此时将第一音频数据中不属于伪人声音频数据的音频数据进行抑制,例如将人声音频数据以及环境、机器噪声数据进行抑制,保留伪人声音频数据,此时,第一处理后数据为保留了伪人声音频数据特征的数据。此时,如果第一音频数据与第一处理后数据的相似程度较大,则第一音频数据为伪人声音频数据,如果第一音频数据与第一处理后数据的相似程度较小,则第一音频数据为人声音频数据。从而,能够准确区分出第一音频数据为伪人声音频数据还是为人声音频数据。

8、在上述第一方面的一种可能的实现中,对第一音频数据进行抑制处理,得到第一处理后数据,包括:将第一音频数据进行特征提取处理,得到第一音频特征;将第一音频特征输入生成式模型,得到第一处理后数据,其中,生成式模型包括以下至少一种:扩散模型、生成对抗网络模型、变分自编码器模型。

9、可以理解的,生成式模型,可以对第一音频数据进行处理使得处理后数据保留人声音频或者伪人声音频,使用生成式模型将第一音频特征进行抑制处理,科学合理。

10、在上述第一方面的一种可能的实现中,对第一音频数据进行抑制处理,得到第一处理后数据,包括:将第一音频数据进行特征提取处理,得到第一音频特征和第二音频特征,其中,第一音频特征为与第一音频数据的各音频段所对应的音频特征序列;将第二音频特征输入判决式模型,得到第一高维类别特征数据;将第一音频特征以及第一高维类别特征数据输入生成式模型,得到第一处理后数据,其中,生成式模型包括以下至少一种:扩散模型、生成对抗网络模型、变分自编码器模型。

11、可以理解的,判决式模型可以基于第二音频特征得到第一高维类别特征,该第一高维类别特征可以指示第一音频数据的类别。此时,可以将判决式模型得到的第一音频数据的类别信息作为生成式模型的先验信息输入到生成式模型中,从而提高生成式模型生成对应各音频段的人声音频数据或者伪人声音频数据的准确性,进而提高识别伪人声音频的准确性。

12、在上述第一方面的一种可能的实现中,第一处理后数据为音频特征数据;并且第一处理后数据与第一音频数据的相似程度为第一处理后数据与第一音频特征的相似度。

13、在上述第一方面的一种可能的实现中,第一处理后数据为音频特征数据;并且第一处理后数据与第一音频数据的相似程度为第一处理后数据所对应的音频数据与第一音频数据的相似度。

14、在上述第一方面的一种可能的实现中,对应于生成式模型为扩散模型,扩散模型中的神经网络包括:第一注意力机制模块、第一残差块、第二注意力机制模块、第三注意力机制模块、第二残差块;并且,包括:第一注意力机制模块的输入包括第一音频特征,第一注意力机制模块的输出为第一残差块的输入;第一残差块的输出以及第一高维类别特征数据为第二注意力机制模块的输入;第二注意力机制模块的输出以及第一高维类别特征数据为第三注意力机制模块的输入;第三注意力机制模块的输出为第二残差块的输入,第二残差块的输出为第一处理后数据。

15、例如,第一注意力机制模块为第一注意力机制模块301、第一残差块为第一残差块302、第二注意力机制模块为第二注意力机制模块303、第三注意力机制模块为第三注意力机制模块304、第二残差块为第二残差块305。

16、在上述第一方面的一种可能的实现中,通过以下方式得到扩散模型:获取第一音频样本集,其中,第一音频样本集中的音频样本为对应第一类别音频数据的样本;在基于音频样本进行特征提取后的第三音频特征中添加噪声,得到第一带噪声数据;将第一带噪声数据以及第二高维类别特征数据输入扩散模型中的神经网络进行模型训练,得到训练后的扩散模型,其中,第二高维类别特征数据是基于音频样本进行特征提取后的第四音频特征输入判决式模型得到的。

17、可以理解的,扩散模型中的反向扩散过程需要使用神经网络对带噪声数据进行预测,所以对扩散模型训练,实际是对扩散模型中神经网络的参数进行迭代。

18、第二方面,本技术提供了一种电子设备,包括:一个或多个处理器;一个或多个存储器;一个或多个存储器存储有一个或多个程序,当一个或者多个程序被一个或多个处理器执行时,使得电子设备执行上述第一方面以及各种可能的实现提供的音频识别方法。

19、第三方面,本技术提供了一种计算机可读存储介质,存储介质上存储有指令,指令在计算机上执行时使计算机执行上述第一方面以及各种可能的实现提供的音频识别方法。

20、第四方面,本技术提供了一种计算机程序产品,计算机程序产品包括:计算机程序代码,当计算机程序代码在计算机上运行时,使得计算机执行上述第一方面以及各种可能的实现提供的音频识别方法。

21、可以理解的,上述第二方面至第四方面的有益效果参考第一方面以及各种可能的实现,在此不做赘述。

本文地址:https://www.jishuxx.com/zhuanli/20240618/24557.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。