技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种是否为克隆语音的识别方法及处理终端与流程  >  正文

一种是否为克隆语音的识别方法及处理终端与流程

  • 国知局
  • 2024-06-21 11:26:22

本发明涉及声音识别处理,具体是一种是否为克隆语音的识别方法及处理终端。

背景技术:

1、克隆语音主要是基于深度学习来实现对某个特定人的语音进行克隆,去需要改特定人的语音样本,对改语音样本采用深度学习进行训练,得到语音模型,然后利用语音模型来生成与该特定人的声音具有很高相似度的语音,也即模仿该特定人的语音特征,通常包括音调、语速、音色等。

2、在一些情形中,克隆语音可能会被非法利用或者不合理利用,给他人活社会造成一定的伤害,为此,需要对是否为克隆语音进行识别,也即识别某一段语音是否为基于语音模型生成的声音,还是特定人所发出的真实声音。例如,在司法鉴定领域,对于某些司法纠纷,司法人员需要对一下有纠纷的音频(语音)进行识别,以作为一定的依据或证据。在日常应用领域中,像防诈骗,当诈骗人员模仿亲人好友而发一段语音进行冒充,也需要进行识别视为克隆的语音。另外,像音频版权等领域,也需要使用到克隆语音的识别,以判断该语音是克隆语音还是真实声音。

技术实现思路

1、针对现有技术的不足,本发明的目的是提供一种是否为克隆语音的识别方法及处理终端,其能够解决背景技术描述的问题。

2、实现本发明的目的的技术方案为:一种是否为克隆语音的识别方法,包括以下步骤:

3、步骤1:采集待识别语音音频和真实语音音频,待识别语音音频定义为第一语音音频,真实语音音频定义为第二语音音频;

4、步骤2:分别从第一语音音频和第二语音音频中提取各自的语音参数,对应得到第一语音参数和第二语音参数;

5、步骤3:比对第一语音参数和第二语音参数,若两个语音参数相同或相似,则继续进行步骤4,否则,判断第一语音音频为克隆语音;

6、步骤4:对第一语音参数与预设阈值进行比对,若符号要求,则初步判断第一语音为非克隆语音,并继续进行步骤5;

7、步骤5:基于用户语言习惯判断第一语音音频是否符合用户的语言表达行为习惯,若是,则判断为非克隆语音,若否,则判断为克隆语音。

8、进一步地,语音参数包括基频、共振峰和语谱图。

9、进一步地,两个语音参数相同或相似是指两个语音参数的相似度为1或者相似度超过预设阈值。

10、进一步地,相似度采用余弦相似度方法来计算。

11、进一步地,所述基于用户语言习惯判断第一语音音频是否符合用户的语言表达行为习惯,包括:提取第二语音音频的语言模式、语义逻辑、表达时的段落复杂性和常用语,从而得到第二语音音频的语言习惯特征,

12、将第一语音音频与第二语音音频的语言习惯特征进行比对分析,从而得到第一语音音频与第二语音音频在语言习惯上的相似度,从而基于相似度判断是否符合用户语言习惯。

13、进一步地,所述提取第二语音音频的语言模式、语义逻辑、表达时的段落复杂性和常用语,从而得到第二语音音频的语言习惯特征,将第一语音音频与第二语音音频的语言习惯特征进行比对分析,从而得到第一语音音频与第二语音音频在语言习惯上的相似度,从而基于相似度判断是否符合用户语言习惯,其具体实现过程,包括以下步骤:

14、步骤51:将第二语音音频转换为文本,得到目标文本;

15、步骤52:采用自然语言处理方法对目标文本进行处理,从目标文本中提取出语言模式,得到目标语言模式;

16、步骤53:从目标文本中提取出语义信息,得到目标语义信息;

17、步骤54:对目标文本进行段落复杂性分析,得到目标文本的段落复杂度;

18、步骤55:基于文本处理技术对目标文本的常用词汇进行提取,提取出目标文本的常用语;

19、步骤56:基于所得到的语言模式、目标语义信息、段落复杂度和常用语判断第一语音音频是否符合用户的语言表达行为习惯。

20、进一步地,语言模型包括目标文本中的语句结构、词汇使用情况。

21、进一步地,采用句法分析、语义角色标注对目标语言模型进行深层次的语义分析,以分析出语句中主谓宾关系、语法结构、逻辑关系,从而得到语义信息。

22、进一步地,根据目标文本的结构、词汇复杂性、句子长度,对段落的复杂性进行评估,包括句子平均长度、词汇丰富度、语法复杂度。

23、一种处理终端,其包括:

24、存储器,用于存储程序指令;

25、处理器,用于运行所述程序指令,以执行所述是否为克隆语音的识别方法的步骤。

26、本发明的有益效果:本发明从不同维度、综合考虑多个因素来判断待识别的语音是否为真实本人发出的真实声音还是非真实本人发出的克隆语音,判断结果准确性更高,更接近于真实情况,并且处理效果高,能够很好应用在包括司法鉴定领域、防诈骗、音频版权等领域中,实现对语音是否为克隆语音的快速、准确判断,可应用范围广。

技术特征:

1.一种是否为克隆语音的识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的是否为克隆语音的识别方法,其特征在于,语音参数包括基频、共振峰和语谱图。

3.根据权利要求1所述的是否为克隆语音的识别方法,其特征在于,两个语音参数相同或相似是指两个语音参数的相似度为1或者相似度超过预设阈值。

4.根据权利要求1所述的是否为克隆语音的识别方法,其特征在于,相似度采用余弦相似度方法来计算。

5.根据权利要求1所述的是否为克隆语音的识别方法,其特征在于,所述基于用户语言习惯判断第一语音音频是否符合用户的语言表达行为习惯,包括:提取第二语音音频的语言模式、语义逻辑、表达时的段落复杂性和常用语,从而得到第二语音音频的语言习惯特征,

6.根据权利要求1所述的是否为克隆语音的识别方法,其特征在于,所述提取第二语音音频的语言模式、语义逻辑、表达时的段落复杂性和常用语,从而得到第二语音音频的语言习惯特征,将第一语音音频与第二语音音频的语言习惯特征进行比对分析,从而得到第一语音音频与第二语音音频在语言习惯上的相似度,从而基于相似度判断是否符合用户语言习惯,其具体实现过程,包括以下步骤:

7.根据权利要求6所述的是否为克隆语音的识别方法,其特征在于,语言模型包括目标文本中的语句结构、词汇使用情况。

8.根据权利要求7所述的是否为克隆语音的识别方法,其特征在于,采用句法分析、语义角色标注对目标语言模型进行深层次的语义分析,以分析出语句中主谓宾关系、语法结构、逻辑关系,从而得到语义信息。

9.根据权利要求8所述的是否为克隆语音的识别方法,其特征在于,根据目标文本的结构、词汇复杂性、句子长度,对段落的复杂性进行评估,包括句子平均长度、词汇丰富度、语法复杂度。

10.一种处理终端,其特征在于,其包括:

技术总结本发明公开一种是否为克隆语音的识别方法,包括以下步骤:步骤1:采集待识别语音音频和真实语音音频;步骤2:提取各自的语音参数,对应得到第一语音参数和第二语音参数;步骤3:比对第一语音参数和第二语音参数,若两个语音参数相同或相似,则继续进行步骤4,否则,判断第一语音音频为克隆语音;步骤4:对第一语音参数与预设阈值进行比对,若符号要求,则初步判断第一语音为非克隆语音,并继续进行步骤5;步骤5:基于用户语言习惯判断第一语音音频是否符合用户的语言表达行为习惯,若是,则判断为非克隆语音,若否,则判断为克隆语音。本发明可识别是否为克隆语音,判断结果准确性更高,更接近于真实情况,并且处理效果高。技术研发人员:黄汉贵,张常华,詹楚伟受保护的技术使用者:广东保伦电子股份有限公司技术研发日:技术公布日:2024/2/6

本文地址:https://www.jishuxx.com/zhuanli/20240618/21529.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。