基于模型指纹聚类的生成语音溯源方法及装置
- 国知局
- 2024-06-21 11:51:24
本公开涉及语音识别,尤其涉及一种基于模型指纹聚类的生成语音溯源方法及装置、设备及存储介质。
背景技术:
1、语音交流作为人际互动和人机交互的核心,随着智能设备和技术如智能手机、智能助手、语音识别以及深度学习和大模型的进步,发展迅速。语音合成技术如文字转语音和语音转换技术,使得生成的语音更加自然和个性化,广泛应用于技术领域和生活中,如虚拟助手和无障碍技术。然而,这些技术的滥用,如深度伪造,带来了安全隐患,影响金融、司法等重要领域。诸多案件及事件突显了这种技术潜在的风险。然而,在法治社会下,这样的积极防御需要建立在可解释的证据链上。因此,开发鉴伪与溯源技术,确保语音交互的安全性和可靠性,成为当前的重要任务。
2、目前的音频鉴伪与溯源技术大多采用前端特征提取、后端分类的模式,从音频中提取所需特征(频谱特征或深度学习特征)并通过一个后端分类器进行真伪二分类抑或是多分类溯源。近年来,深度学习模型已被引入到语音溯源领域中,例如,采用基于卷积神经网络的方法来鉴别真实语音和生成语音。这些模型不仅可以提高鉴别精度,还可以自动学习表示特征,从而避免手动提取特征的不足。然而,当下鉴伪方法的真伪二分类或者针对算法的多分类都欠缺足够细的粒度,因此,目前的音频鉴伪与溯源技术欠缺足够细的粒度,将生成模型作为一个整体,无法分析内部架构,可解释性低,不能通过可视化等方法解释分类依据。
技术实现思路
1、为了解决上述技术问题或者至少部分地解决上述技术问题,本公开的实施例提供了一种基于模型指纹聚类的生成语音溯源方法及装置、设备及存储介质。
2、第一方面,本公开的实施例提供了一种基于模型指纹聚类的生成语音溯源方法,所述方法包括:
3、接收待鉴别语音,将待鉴别语音分别输入至少两个预先训练的语音特征提取模型,得到对应的至少两组语音特征向量,其中,所述至少两个预先训练的语音特征提取模型为不同的语音特征提取模型;
4、将每组语音特征向量分别输入预先训练的语音指纹提取模型,得到对应的至少两组语音指纹向量;
5、对至少两组语音指纹向量进行张量融合,得到语音指纹矩阵,并将语音指纹矩阵输入预先训练的语音鉴别模型,得到待鉴别语音为真实语音还是生成语音的鉴别结果;
6、在待鉴别语音为生成语音的情况下,将语音指纹矩阵输入预先训练的指纹聚类模型,得到指纹聚类特征,并将指纹聚类特征输入预先训练的指纹分类模型,得到生成语音的溯源信息。
7、在一种可能的实施方式中,所述语音特征提取模型为hubert模型、wavlm模型、wav2vec模型、线性倒谱系数模型和梅尔倒谱系数模型中的至少两种,所述语音指纹提取模型为双向选择性状态空间模型,所述语音鉴别模型为图注意力网络模型,所述指纹聚类模型包括批次正规化层、relu层、卷积层、池化层和可导k-means聚类层。
8、在一种可能的实施方式中,所述语音特征提取模型、语音指纹提取模型、语音鉴别模型、指纹聚类模型、指纹分类模型通过以下步骤训练得到:
9、将已知的真实语音和生成语音输入语音特征提取模型,输出语音特征,将语音特征作为语音指纹提取模型的输入,基于已知的不同真实语音对应的语音特征之间的距离、来自同一种声码器的不同生成语音对应的语音特征之间的距离、以及来自不同种声码器的不同生成语音对应的语音特征之间的距离,训练语音指纹提取模型,得到训练后的第一语音指纹提取模型;
10、将已知的真实语音和生成语音作为语音特征提取模型的输入,将已知的真实语音和生成语音的种类作为语音鉴别模型的输出,对语音特征提取模型、第一语音指纹提取模型和语音鉴别模型进行联合训练,得到训练后的第一语音特征提取模型、第二语音指纹提取模型和第一语音鉴别模型;
11、将已知的生成语音作为语音特征提取模型的输入,将已知的生成语音的声码器参数作为指纹分类模型的输出,对第一语音特征提取模型、第二语音指纹提取模型、指纹聚类模型和指纹分类模型进行联合训练,得到训练后的第二语音特征提取模型、第三语音指纹提取模型、第一指纹聚类模型和第一指纹分类模型;
12、将已知的真实语音和生成语音作为第二语音特征提取模型的输入,将已知的真实语音和生成语音的种类作为第一语音鉴别模型的输出,对第一语音鉴别模型进行训练,得到训练后的第二语音鉴别模型;
13、将第二语音特征提取模型、第三语音指纹提取模型、第二语音鉴别模型、第一指纹聚类模型和第一指纹分类模型作为预先训练的语音特征提取模型、语音指纹提取模型、语音鉴别模型、指纹聚类模型和指纹分类模型。
14、在一种可能的实施方式中,通过以下表达式,基于已知的不同真实语音对应的语音特征之间的距离、来自同一种声码器的不同生成语音对应的语音特征之间的距离、以及来自不同种声码器的不同生成语音对应的语音特征之间的距离,训练语音指纹提取模型:
15、
16、
17、
18、
19、其中,为语音指纹提取模型的目标函数值,为不同真实语音对应的语音特征之间的距离,为来自同一种声码器的不同生成语音对应的语音特征之间的距离,为来自不同种声码器的不同生成语音对应的语音特征之间的距离,为真实语音数量,为语音 i的语音特征,为语音 j的语音特征,为语音特征作为输入时语音指纹提取模型的输出,为语音特征作为输入时语音指纹提取模型的输出,为声码器数量,为声码器生成的生成语音数量,为声码器生成的生成语音数量,为声码器生成的生成语音数量,、和分别为、和的权值。
20、在一种可能的实施方式中,通过以下表达式,对语音特征提取模型、第一语音指纹提取模型和语音鉴别模型进行联合训练:
21、
22、其中,为语音特征提取模型、第一语音指纹提取模型和语音鉴别模型的联合目标函数值,为真实语音的实际概率,为真实语音的推测概率,为生成语音的实际概率,为生成语音的推测概率。
23、在一种可能的实施方式中,所述生成语音的溯源信息包括分类式溯源信息和回归式溯源信息,所述分类式溯源信息包括声码器的激活函数类别、声学特征融合方法类别、是否存在快进连接和上采样类别中的至少一种,回归式溯源信息包括声码器的池化层数、模型总层数和卷积核大小中的至少一种,每种溯源信息对应有一组指纹聚类模型和指纹分类模型。
24、在一种可能的实施方式中,在溯源信息为分类式溯源信息的情况下,通过以下表达式,对第一语音特征提取模型、第二语音指纹提取模型、溯源信息对应的指纹聚类模型和指纹分类模型进行联合训练:
25、
26、其中,为第一语音特征提取模型、第二语音指纹提取模型、溯源信息对应的指纹聚类模型和指纹分类模型的第一联合目标函数值,为指纹分类模型对语音 i的预测分类结果,为语音 i的实际分类情况,
27、在溯源信息为回归式溯源信息的情况下,通过以下表达式,对第一语音特征提取模型、第二语音指纹提取模型、溯源信息对应的指纹聚类模型和指纹分类模型进行联合训练:
28、;
29、其中,为第一语音特征提取模型、第二语音指纹提取模型、溯源信息对应的指纹聚类模型和指纹分类模型的第二联合目标函数值,为指纹分类模型对语音 i的预测分类结果,为语音 i的实际分类情况。
30、第二方面,本公开的实施例提供了一种基于模型指纹聚类的生成语音溯源装置,包括:
31、第一输入模块,用于接收待鉴别语音,将待鉴别语音分别输入至少两个预先训练的语音特征提取模型,得到对应的至少两组语音特征向量,其中,所述至少两个预先训练的语音特征提取模型为不同的语音特征提取模型;
32、第二输入模块,用于将每组语音特征向量分别输入预先训练的语音指纹提取模型,得到对应的至少两组语音指纹向量;
33、融合模块,用于对至少两组语音指纹向量进行张量融合,得到语音指纹矩阵,并将语音指纹矩阵输入预先训练的语音鉴别模型,得到待鉴别语音为真实语音还是生成语音的鉴别结果;
34、第三输入模块,用于在待鉴别语音为生成语音的情况下,将语音指纹矩阵输入预先训练的指纹聚类模型,得到指纹聚类特征,并将指纹聚类特征输入预先训练的指纹分类模型,得到生成语音的溯源信息。
35、第三方面,本公开的实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
36、存储器,用于存放计算机程序;
37、处理器,用于执行存储器上所存放的程序时,实现上述的基于模型指纹聚类的生成语音溯源方法。
38、第四方面,本公开的实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的基于模型指纹聚类的生成语音溯源方法。
39、本公开实施例提供的上述技术方案与现有技术相比至少具有如下优点的部分或全部:
40、本公开实施例所述的基于模型指纹聚类的生成语音溯源方法,接收待鉴别语音,将待鉴别语音分别输入至少两个预先训练的语音特征提取模型,得到对应的至少两组语音特征向量,其中,所述至少两个预先训练的语音特征提取模型为不同的语音特征提取模型;将每组语音特征向量分别输入预先训练的语音指纹提取模型,得到对应的至少两组语音指纹向量;对至少两组语音指纹向量进行张量融合,得到语音指纹矩阵,并将语音指纹矩阵输入预先训练的语音鉴别模型,得到待鉴别语音为真实语音还是生成语音的鉴别结果;在待鉴别语音为生成语音的情况下,将语音指纹矩阵输入预先训练的指纹聚类模型,得到指纹聚类特征,并将指纹聚类特征输入预先训练的指纹分类模型,得到生成语音的溯源信息,通过对多种声学特征进行张量融合以及指纹在不同空间中的聚类,对于声码器模型架构及训练中的不同参数如卷积层数、目标函数类别等进行逆向推理,进一步改进对声码器模型具体架构的解构,实现高精度、细粒度的生成语音溯源。
本文地址:https://www.jishuxx.com/zhuanli/20240618/24013.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。