语音表征模型的训练方法、语音处理方法及相关设备与流程
- 国知局
- 2024-06-21 11:45:51
本公开涉及计算机,尤其涉及一种语音表征模型的训练方法、语音处理方法及相关设备。
背景技术:
1、语音处理包含各种任务,对于语音转换(voice conversion,vc)、语音识别(automatic speech recognition,asr)、语音合成(text-to-speech,tts)等细粒度的语音处理任务,从语音中提取的中间表示成为文本和声学信息之间的“桥梁”。因此,为细粒度的语音处理任务生成合适的语音表征模型是一项挑战。
2、相关技术中,采用自监督表征学习方法来生成语音表征模型,然而该方法在处理例如vc、tts等细粒度语音处理任务时,语音表征往往存在信息冗余等问题,无法较好地适用于细粒度的语音识别任务。
技术实现思路
1、本公开提供一种语音表征模型的训练方法、语音处理方法方法及相关设备,以至少解决相关技术中的至少一种问题。本公开的技术方案如下:
2、根据本公开实施例的第一方面,提供一种语音表征模型的训练方法,包括:
3、获取样本集,所述样本集包括至少一个文本语音样本对,所述文本语音样本对包括样本文本和与所述样本文本匹配的样本语音;
4、对各所述文本语音样本对中的样本文本进行音素提取,得到各所述样本文本的音素样本序列;
5、通过初始语音表征模型的音素编码器,对所述音素样本序列进行编码处理,得到各所述样本文本的音素样本编码表征;
6、通过所述初始语音表征模型的语音编码器,对各所述文本语音样本对中的样本语音进行编码处理,得到各所述样本语音的语音样本编码表征;
7、通过所述初始语音表征模型的联合解码器,对所述音素样本编码表征和所述语音样本编码表征进行解码处理,得到预测语音数据;
8、基于所述音素样本编码表征与所述语音样本编码表征之间的差异、以及所述预测语音数据与对应的样本语音的参考语音数据之间的差异,训练所述初始语音表征模型,得到经训练的语音表征模型。
9、在一些实施例,所述对各所述文本语音样本对中的样本文本进行音素提取,得到各所述样本文本的音素样本序列包括:
10、对各所述文本语音样本对中的样本文本进行音素提取,得到各所述样本文本的初始音素样本序列;
11、获取各所述样本文本的音素样本时长;
12、通过所述初始语音表征模型的长度调节器,对所述初始音素样本序列和对应的音素样本时长进行序列调整处理,得到各所述样本文本的音素样本序列。
13、在一些实施例,基于所述音素样本编码表征与所述语音样本编码表征之间的差异、以及所述预测语音数据与对应的样本语音的参考语音数据之间的差异,训练所述初始语音表征模型,得到经训练的语音表征模型包括:
14、基于所述音素样本编码表征与所述语音样本编码表征之间的差异,得到对比损失;
15、基于所述预测语音数据与对应的样本语音的参考语音数据之间的差异,得到重构损失;
16、基于所述对比损失和所述重构损失训练所述初始语音表征模型,得到经训练的语音表征模型。
17、在一些实施例,所述基于所述音素样本编码表征与所述语音样本编码表征,构建对比损失包括:
18、对所述音素样本编码表征和所述语音样本编码表征分别进行一维向量处理,得到音素样本编码向量和语音样本编码向量;
19、根据各所述文本语音样本对中的样本文本与样本语音的匹配长度顺序,基于所述音素样本编码向量和所述语音样本编码向量,构建音素语音编码矩阵;所述音素语音编码矩阵中处于相同长度位置对应的音素样本编码向量和所述语音样本编码向量构成正样本对,所述所述音素语音编码矩阵中除所述正样本对之外的长度位置对应的音素样本编码向量和所述语音样本编码向量构成负样本对;
20、基于所述正样本对和负样本对进行对比学习,构建所述对比损失。
21、在一些实施例,所述预测语音数据包括与音素层面相关的第一预测语音子数据、和与语音层面相关的第二预测语音子数据,所述基于所述预测语音数据与对应的样本语音的参考语音数据之间的差异,得到重构损失包括:
22、基于所述第一预测语音子数据与对应的样本语音的参考语音数据之间的差异,得到第一预测损失;
23、基于所述第二预测语音子数据与对应的样本语音的参考语音数据之间的差异,得到第二预测损失;
24、基于所述第一预测损失和所述第二预测损失,得到所述重构损失。
25、在一些实施例,所述通过所述初始语音表征模型的联合解码器,对所述音素样本编码表征和所述语音样本编码表征进行解码处理,得到预测语音数据包括:
26、获取各所述样本语音的提示样本梅尔谱;
27、通过所述初始语音表征模型的提示编码器,对各所述样本语音的提示样本梅尔谱进行编码处理,得到提示样本编码表征;
28、通过所述初始语音表征模型的联合解码器,对所述音素样本编码表征、所述语音样本编码表征和所述提示样本编码表征进行解码处理,得到所述预测语音数据。
29、在一些实施例,在所述预测语音数据包括与音素层面相关的第一预测语音子数据、和与语音层面相关的第二预测语音子数据的情况下,所述通过所述初始语音表征模型的联合解码器,对所述音素样本编码表征、所述语音样本编码表征和所述提示样本编码表征进行解码处理,得到所述预测语音数据包括:
30、将所述音素样本编码表征和所述提示样本编码表征,输入至所述初始语音表征模型的联合解码器进行音素层面的解码处理,得到所述第一预测语音子数据;
31、将所述语音样本编码表征和所述提示样本编码表征,输入至所述初始语音表征模型的联合解码器进行语音层面的解码处理,得到所述第二预测语音子数据;
32、将所述第一预测语音子数据和所述第二预测语音子数据,作为所述预测语音数据。
33、在一些实施例,所述基于所述音素样本编码表征与所述语音样本编码表征之间的差异、以及所述预测语音数据与对应的样本语音的参考语音数据之间的差异,训练所述初始语音表征模型,得到经训练的语音表征模型包括:
34、基于所述音素样本编码表征与所述语音样本编码表征之间的差异,得到对比损失;
35、基于所述预测语音数据与对应的样本语音的参考语音数据之间的差异,得到重构损失;
36、基于所述提示样本编码表征得到散度损失,并基于所述对比损失、所述重构损失和所述散度损失,得到总损失;
37、基于所述总损失训练所述初始语音表征模型,得到经训练的语音表征模型。
38、根据本公开实施例的第二方面,提供一种语音处理方法,包括:
39、获取经训练的第一语音处理模型,所述第一语音处理模型包括语音表征模型中的提示编码器、语音编码器和联合解码器,所述语音表征模型是通过上述任一所述的相关方法训练得到;
40、获取第一语音以及第二语音对应的提示梅尔谱;
41、通过经训练的所述第一语音处理模型中的语音编码器,对所述第一语音进行编码处理,得到第一语音编码表征;
42、通过经训练的所述第一语音处理模型中的提示编码器,对所述第二语音对应的提示梅尔谱进行编码处理,得到提示编码表征;
43、通过经训练的所述第一语音处理模型中的联合解码器,对所述第一语音编码表征和所述提示编码表征进行解码处理,得到目标语音。
44、根据本公开实施例的第三方面,提供一种语音处理方法,包括:
45、获取经训练的第二语音处理模型和待识别语音,所述第二语音处理模型包括音素解码器和语音表征模型中的语音编码器,所述语音表征模型是通过上述任一所述的方法训练得到;
46、通过经训练的所述第二语音处理模型中的语音编码器,对所述待识别语音进行编码处理,得到第二语音编码表征;
47、通过经训练的所述第二语音处理模型中的音素解码器,对所述第二语音编码表征进行解码处理,得到所述待识别语音的音素序列。
48、根据本公开实施例的第四方面,提供一种语音表征模型的训练装置,包括:
49、第一获取模块,被配置为执行获取样本集,所述样本集包括至少一个文本语音样本对,所述文本语音样本对包括样本文本和与所述样本文本匹配的样本语音;
50、音素提取模块,被配置为执行对各所述文本语音样本对中的样本文本进行音素提取,得到各所述样本文本的音素样本序列;
51、第一编码模块,被配置为执行通过初始语音表征模型的音素编码器,对所述音素样本序列进行编码处理,得到各所述样本文本的音素样本编码表征;
52、第二编码模块,被配置为执行通过所述初始语音表征模型的语音编码器,对各所述文本语音样本对中的样本语音进行编码处理,得到各所述样本语音的语音样本编码表征;
53、第一解码模块,被配置为执行通过所述初始语音表征模型的联合解码器,对所述音素样本编码表征和所述语音样本编码表征进行解码处理,得到预测语音数据;
54、训练模块,被配置为执行基于所述音素样本编码表征与所述语音样本编码表征之间的差异、以及所述预测语音数据与对应的样本语音的参考语音数据之间的差异,训练所述初始语音表征模型,得到经训练的语音表征模型。
55、在一些实施例,所述音素提取模块还被配置为执行:
56、对各所述文本语音样本对中的样本文本进行音素提取,得到各所述样本文本的初始音素样本序列;
57、获取各所述样本文本的音素样本时长;
58、通过所述初始语音表征模型的长度调节器,对所述初始音素样本序列和对应的音素样本时长进行序列调整处理,得到各所述样本文本的音素样本序列。
59、在一些实施例,所述训练模块包括:
60、第一损失确定子模块,被配置为执行基于所述音素样本编码表征与所述语音样本编码表征之间的差异,得到对比损失;
61、第二损失确定子模块,被配置为执行基于所述预测语音数据与对应的样本语音的参考语音数据之间的差异,得到重构损失;
62、训练子模块,被配置为执行基于所述对比损失和所述重构损失训练所述初始语音表征模型,得到经训练的语音表征模型。
63、在一些实施例,所述第一损失确定子模块还被配置为执行:
64、对所述音素样本编码表征和所述语音样本编码表征分别进行一维向量处理,得到音素样本编码向量和语音样本编码向量;
65、根据各所述文本语音样本对中的样本文本与样本语音的匹配长度顺序,基于所述音素样本编码向量和所述语音样本编码向量,构建音素语音编码矩阵;所述音素语音编码矩阵中处于相同长度位置对应的音素样本编码向量和所述语音样本编码向量构成正样本对,所述所述音素语音编码矩阵中除所述正样本对之外的长度位置对应的音素样本编码向量和所述语音样本编码向量构成负样本对;
66、基于所述正样本对和负样本对进行对比学习,构建所述对比损失。
67、在一些实施例,所述第二损失确定子模块还被配置为执行:
68、基于所述第一预测语音子数据与对应的样本语音的参考语音数据之间的差异,得到第一预测损失;
69、基于所述第二预测语音子数据与对应的样本语音的参考语音数据之间的差异,得到第二预测损失;
70、基于所述第一预测损失和所述第二预测损失,得到所述重构损失。
71、在一些实施例,所述第一解码模块还被配置为执行:
72、获取各所述样本语音的提示样本梅尔谱;
73、通过所述初始语音表征模型的提示编码器,对各所述样本语音的提示样本梅尔谱进行编码处理,得到提示样本编码表征;
74、通过所述初始语音表征模型的联合解码器,对所述音素样本编码表征、所述语音样本编码表征和所述提示样本编码表征进行解码处理,得到所述预测语音数据。
75、在一些实施例,在所述预测语音数据包括与音素层面相关的第一预测语音子数据、和与语音层面相关的第二预测语音子数据的情况下,所述第一解码模块还被配置为执行:
76、将所述音素样本编码表征和所述提示样本编码表征,输入至所述初始语音表征模型的联合解码器进行音素层面的解码处理,得到所述第一预测语音子数据;
77、将所述语音样本编码表征和所述提示样本编码表征,输入至所述初始语音表征模型的联合解码器进行语音层面的解码处理,得到所述第二预测语音子数据;
78、将所述第一预测语音子数据和所述第二预测语音子数据,作为所述预测语音数据。
79、在一些实施例,所述训练模块包括还被配置为执行:
80、基于所述音素样本编码表征与所述语音样本编码表征之间的差异,得到对比损失;
81、基于所述预测语音数据与对应的样本语音的参考语音数据之间的差异,得到重构损失;
82、基于所述提示样本编码表征得到散度损失,并基于所述对比损失、所述重构损失和所述散度损失,得到总损失;
83、基于所述总损失训练所述初始语音表征模型,得到经训练的语音表征模型。
84、根据本公开实施例的第五方面,提供一种语音处理装置,包括:
85、第二获取模块,被配置为执行获取经训练的第一语音处理模型,所述第一语音处理模型包括语音表征模型中的提示编码器、语音编码器和联合解码器,所述语音表征模型是通过上述任一所述的相关方法训练得到;
86、第三获取模块,被配置为执行获取第一语音和第二语音对应的提示梅尔谱;
87、第三编码模块,被配置为执行通过经训练的所述第一语音处理模型中的语音编码器,对所述第一语音进行编码处理,得到第一语音编码表征;
88、第二解码模块,被配置为执行通过经训练的所述第一语音处理模型中的提示编码器,对所述第二语音对应的提示梅尔谱进行编码处理,得到提示编码表征;
89、第一处理模块,被配置为执行通过经训练的所述第一语音处理模型中的联合解码器,对所述第一语音编码表征和所述提示编码表征进行解码处理,得到目标语音。
90、根据本公开实施例的第六方面,提供一种语音处理装置,包括:
91、第四获取模块,被配置为执行获取经训练的第二语音处理模型和待识别语音,所述第二语音处理模型包括音素解码器和语音表征模型中的语音编码器,所述语音表征模型是通过上述任一所述的方法训练得到;
92、第四编码模块,被配置为执行通过经训练的所述第二语音处理模型中的语音编码器,对所述待识别语音进行编码处理,得到第二语音编码表征;
93、第二处理模块,被配置为执行通过经训练的所述第二语音处理模型中的音素解码器,对所述第二语音编码表征进行解码处理,得到所述待识别语音的音素序列。
94、根据本公开实施例的第七方面,提供一种电子设备,包括:
95、处理器;
96、用于存储所述处理器可执行指令的存储器;
97、其中,所述处理器被配置为执行所述指令,以实现如上述任一实施方式所述的语音表征模型的训练方法或语音处理方法。
98、根据本公开实施例的第八方面,提供一种计算机存储介质,当所述计算机存储介质中的指令由电子设备的处理器执行时,使得所述电子设备执行上述任一实施方式中所述的语音表征模型的训练方法或语音处理方法。
99、根据本公开实施例的第九方面,提供一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序被处理器执行时实现上述任一种实施方式中所述的语音表征模型的训练方法或语音处理方法。
100、本公开的实施例提供的技术方案至少带来以下有益效果:
101、本公开实施例通过获取样本集,样本集包括至少一个文本语音样本对,文本语音样本对包括样本文本和与样本文本匹配的样本语音;对各文本语音样本对中的样本文本进行音素提取,得到各样本文本的音素样本序列;通过初始语音表征模型的音素编码器,对音素样本序列进行编码处理,得到各样本文本的音素样本编码表征;通过初始语音表征模型的语音编码器,对各文本语音样本对中的样本语音进行编码处理,得到各样本语音的语音样本编码表征;通过初始语音表征模型的联合解码器,对音素样本编码表征和语音样本编码表征进行解码处理,得到预测语音数据;基于音素样本编码表征与语音样本编码表征之间的差异、以及预测语音数据与对应的样本语音的参考语音数据之间的差异,训练初始语音表征模型,得到经训练的语音表征模型。如此,经训练的语音表征模型包含音素编码器和语音编码器,通过利用这两个编码器将音素和语音带入一个联合的多模态空间,从而促进音素和语音在帧级别上的连接,解决了语音表征存在信息冗余和维度爆炸的问题。此外,经训练的语音表征模型中包含一个联合解码器,通过该联合解码器辅助音素编码表征和语音编码表征在多模空间距离更加接近,提取到更适用于细粒度的语音处理任务的语音表征。
102、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
本文地址:https://www.jishuxx.com/zhuanli/20240618/23402.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表