技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音真伪的识别方法、装置、电子设备及存储介质与流程  >  正文

一种语音真伪的识别方法、装置、电子设备及存储介质与流程

  • 国知局
  • 2024-06-21 11:46:24

本公开涉及语音处理,具体而言,涉及一种语音真伪的识别方法、装置、电子设备及存储介质。

背景技术:

1、目前,人工智能合成内容正在快速兴起,体现在语音领域包括语音合成、录音播放、拼接剪辑生成等诸多应用,相应的,针对合成语音的鉴伪工作也应运而生,语音鉴伪的主要方式是将语音数据输送到语音鉴伪系统中,通过系统输出的相似度判决是否为伪造语音。

2、在现在有的语音鉴伪过程中,广泛存在的噪声和混响可能会严重降低语音鉴伪系统的性能,鉴伪在实际应用中的表现仍然面临着低信噪比、高混响和远场拾音等挑战,同时在实际应用场景中,声音鉴伪需要面对复杂多样的语音来源,常常会遇到泛化场景问题,即训练和测试数据来源不同,因为语音的采集可能来源于不同的信道,如网络即时通讯信道、电话/手机信道、录音笔、声音取证设备等,不同的信道会影响声音的频率响应和频率分布,使得声音鉴伪系统的性能急剧下降。

技术实现思路

1、本公开实施例至少提供一种语音真伪的识别方法、装置、电子设备及存储介质,可以在语音数据层面降低噪声、混响、远场拾音的干扰,同时利于提取真伪的全局信息,丢弃信道等残差信息,提高了泛化场景的语音鉴伪能力。

2、本公开实施例提供了一种语音真伪的识别方法,所述方法包括:

3、获取待识别语音;

4、将所述待识别语音输入至预先训练好的多任务学习模型,过滤所述待识别语音中包含的噪声信号和混响信号,确定所述待识别语音对应的纯净语音,并将所述纯净语音分类为多个说话人语音;

5、针对多个所述说话人语音中的每一个,将该所述说话人语音输入至预设的级联残差网络,确定所述说话人语音对应的语音特征信息;

6、将所述语音特征信息输入至由一维卷积网络和压缩激励网络构成的预设特征聚合网络,在空间维度和通道维度聚合所述语音特征信息中包括的真伪特征信息,确定所述说话人语音对应的真伪特征向量;

7、将所述真伪特征向量经过预设损失函数的处理,确定所述说话人语音对应的真伪识别结果。

8、一种可选的实施方式中,所述将所述待识别语音输入至预先训练好的多任务学习模型,过滤所述待识别语音中包含的噪声信号和混响信号,确定所述待识别语音对应的纯净语音,并将所述纯净语音分类为多个说话人语音,具体包括:

9、将所述待识别语音输入至所述多任务学习模型中的编码器,以使所述编码器输出所述待识别语音对应的语音编码特征;

10、利用所述多任务学习模型中的多任务学习模型中的第一线性层,将所述语音编码特征转换为高维语音编码特征;

11、将所述高维语音编码特征依次经过所述多任务学习模型中的conformer网络、激活层、第二线性层以及重叠相加的处理后,确定所述高维语音编码特征对应的重建语音编码特征;

12、将所述重建语音编码特征输入至所述多任务学习模型中的前馈网络,确定所述重建语音编码特征对应的说话人掩码、噪声掩码以及混响掩码;

13、根据所述噪声掩码以及混响掩码过滤所述待识别语音中包含的噪声信号和混响信号,确定所述待识别语音对应的纯净语音;

14、根据所述说话人掩码,将所述纯净语音分类为多个说话人语音。

15、一种可选的实施方式中,在所述将所述待识别语音输入至预先训练好的多任务学习模型,过滤所述待识别语音中包含的噪声信号和混响信号,确定所述待识别语音对应的纯净语音,并将所述纯净语音分类为多个说话人语音之后,所述方法还包括:

16、针对多个所述说话人语音中的每一个,确定该所述说话人语音对应的语音信号强度;

17、根据所述语音信号强度调整所述说话人语音对应的语音增益。

18、一种可选的实施方式中,在所述将所述待识别语音输入至预先训练好的多任务学习模型,过滤所述待识别语音中包含的噪声信号和混响信号,确定所述待识别语音对应的纯净语音,并将所述纯净语音分类为多个说话人语音之后,所述方法还包括:

19、针对多个所述说话人语音中的每一个,确定该所述说话人语音对应的发音开始点以及发音终止点;

20、根据预设的时间范围值,剪切所述发音开始点之前以及所述发音终止点之后,所述预设的时间范围值之外的静音区域。

21、一种可选的实施方式中,所述根据所述噪声掩码以及混响掩码过滤所述待识别语音中包含的噪声信号和混响信号,确定所述待识别语音对应的纯净语音,具体包括:

22、将所述噪声掩码与所述语音编码特征相乘后进行一维反卷积处理,确定所述待识别语音中包含的噪声信号;

23、将所述混响掩码与所述语音编码特征相乘后进行一维反卷积处理,确定所述待识别语音中包含的混响信号;

24、在所述待识别语音中滤除所述噪声信号和混响信号,确定所述纯净语音。

25、一种可选的实施方式中,在所述获取待识别语音之后,所述方法还包括:

26、将所述待识别语音输入至依次级联的预设噪声过滤网络、预设混响过滤网络以及预设语音分离网络,过滤所述待识别语音中包含的噪声信号和混响信号,确定所述待识别语音对应的纯净语音,并将所述纯净语音分类为多个说话人语音。

27、本公开实施例还提供一种语音真伪的识别装置,所述装置包括:

28、获取模块,用于获取待识别语音;

29、语音增强模块,用于将所述待识别语音输入至预先训练好的多任务学习模型,过滤所述待识别语音中包含的噪声信号和混响信号,确定所述待识别语音对应的纯净语音,并将所述纯净语音分类为多个说话人语音;

30、特征提取模块,用于针对多个所述说话人语音中的每一个,将该所述说话人语音输入至预设的级联残差网络,确定所述说话人语音对应的语音特征信息;

31、特征融合模块,用于将所述语音特征信息输入至由一维卷积网络和压缩激励网络构成的预设特征聚合网络,在空间维度和通道维度聚合所述语音特征信息中包括的真伪特征信息,确定所述说话人语音对应的真伪特征向量;

32、识别模块,用于将所述真伪特征向量经过预设损失函数的处理,确定所述说话人语音对应的真伪识别结果。

33、一种可选的实施方式中,所述特征提取模块具体用于:

34、将所述待识别语音输入至所述多任务学习模型中的编码器,以使所述编码器输出所述待识别语音对应的语音编码特征;

35、利用所述多任务学习模型中的多任务学习模型中的第一线性层,将所述语音编码特征转换为高维语音编码特征;

36、将所述高维语音编码特征依次经过所述多任务学习模型中的conformer网络、激活层、第二线性层以及重叠相加的处理后,确定所述高维语音编码特征对应的重建语音编码特征;

37、将所述重建语音编码特征输入至所述多任务学习模型中的前馈网络,确定所述重建语音编码特征对应的说话人掩码、噪声掩码以及混响掩码;

38、根据所述噪声掩码以及混响掩码过滤所述待识别语音中包含的噪声信号和混响信号,确定所述待识别语音对应的纯净语音;

39、根据所述说话人掩码,将所述纯净语音分类为多个说话人语音。

40、一种可选的实施方式中,所述装置还包括幅度优化模块,所述幅度优化模块用于:

41、针对多个所述说话人语音中的每一个,确定该所述说话人语音对应的语音信号强度;

42、根据所述语音信号强度调整所述说话人语音对应的语音增益。

43、一种可选的实施方式中,所述装置还包括静音优化模块,所述静音优化模块用于:

44、针对多个所述说话人语音中的每一个,确定该所述说话人语音对应的发音开始点以及发音终止点;

45、根据预设的时间范围值,剪切所述发音开始点之前以及所述发音终止点之后,所述预设的时间范围值之外的静音区域。

46、一种可选的实施方式中,所述特征提取模块还用于:

47、将所述噪声掩码与所述语音编码特征相乘后进行一维反卷积处理,确定所述待识别语音中包含的噪声信号;

48、将所述混响掩码与所述语音编码特征相乘后进行一维反卷积处理,确定所述待识别语音中包含的混响信号;

49、在所述待识别语音中滤除所述噪声信号和混响信号,确定所述纯净语音。

50、本公开实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述语音真伪的识别方法,或上述语音真伪的识别方法中任一种可能的实施方式中的步骤。

51、本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述语音真伪的识别方法,或上述语音真伪的识别方法中任一种可能的实施方式中的步骤。

52、本公开实施例提供的一种语音真伪的识别方法、装置、电子设备及存储介质,通过获取待识别语音;将待识别语音输入至预先训练好的多任务学习模型,过滤待识别语音中包含的噪声信号和混响信号,确定待识别语音对应的纯净语音,并将纯净语音分类为多个说话人语音;针对多个说话人语音中的每一个,将该说话人语音输入至预设的级联残差网络,确定说话人语音对应的语音特征信息;将语音特征信息输入至由一维卷积网络和压缩激励网络构成的预设特征聚合网络,在空间维度和通道维度聚合语音特征信息中包括的真伪特征信息,确定说话人语音对应的真伪特征向量;将真伪特征向量经过预设损失函数的处理,确定说话人语音对应的真伪识别结果。可以在语音数据层面降低噪声、混响、远场拾音的干扰,同时利于提取真伪的全局信息,丢弃信道等残差信息,提高了泛化场景的语音鉴伪能力。

53、为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

本文地址:https://www.jishuxx.com/zhuanli/20240618/23479.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。