基于提示学习的多风格语音合成方法、设备及介质与流程
- 国知局
- 2024-06-21 11:33:53
本发明涉及语音合成,更为具体的,涉及一种基于提示学习的多风格语音合成方法、设备及介质。
背景技术:
1、语音合成(text-to-speech:tts)技术,是将文本信息转换为语音时域波形信号的技术。涉及到语言学、声音学、信号处理以及计算机科学等多门学科知识。语音合成技术是语音技术中十分实用的一项重要技术,它能解决人民大众的实际需求,能够深入到社会的各行各业中去。各行各业不同应用需要不同风格的语音合成,比如不同性别的发音人、不同的音调、不同的音速以及不同的情绪等。提示(prompt)学习技术是一种为了更好地使用预训练模型知识,在模型训练时加入提示模板,给模型一个提示,帮助它更好地理解人的意图的技术。本文通过构造多样的提示模板,将提示学习技术和语音合成技术结合,从而实现了通过自然文本描述(提示模板)控制合成多种风格混合的语音,以满足不同场景的需求。
2、语音合成技术经历了多轮迭代,从最初的波形拼接技术到基于隐马尔可夫模型的参数合成技术。随着技术的发展,基于深度学习的语音合成方法因其更加自然、更加逼真的合成效果而受到了广泛的关注和研究,尤其是端到端的合成方法。本文方案将基于两阶段(two-stage)的端到端合成方法,结合提示学习来生成多种风格混合的语音。从而使得合成的语音更自然、更流畅、更加符合各种应用场景的需求。
技术实现思路
1、本发明的目的在于克服现有技术的不足,提供一种基于提示学习的多风格语音合成方法、设备及介质,能够通过提示学习和语音合成两种技术的结合,实现多种风格的语音合成。
2、本发明的目的是通过以下方案实现的:
3、一种基于提示学习的多风格语音合成方法,包括以下步骤:
4、步骤s1、构造包括提示模板的数据集;
5、步骤s2、对数据集中的待合成文本进行预处理;
6、步骤s3、提示模板语义提取预训练;
7、步骤s4、带有提示模板的声学模型训练,获取待合成语音的梅尔频谱;
8、步骤s5、利用声码器生成语音时域信号。
9、进一步地,在步骤s1中,所述构造包括提示模板的数据集,包括子步骤:
10、步骤1.1,将说话人音色、语速、音调、音量以及说话的情绪语调定义为风格;
11、步骤1.2,根据步骤1.1定义风格生成提示模板,构造提示模板、文本内容和音频文件的成对数据。
12、进一步地,在步骤s2中,所述对数据集中的待合成文本进行预处理,具体包括子步骤:
13、步骤2.1,文本正则化处理:待合成文本中的符号文字,通过规则将其转换为对应的发音文字;
14、步骤2.2,音素序列化:将正则化后的发音文字转为对应的音素符号序列,然后进行数值化。
15、进一步地,在步骤s3中,所述提示模板语义提取预训练,包括子步骤:
16、步骤3.1,由步骤s1中构建的数据集中的提示模板的标签数据构成成对的数据集;
17、步骤3.2,利用bert预训练模型,输入提示模板,获得文本嵌入,为特征的维度;
18、步骤3.3,本步骤的输入为步骤3.2的输出,并使用双向的gru网络从前、后两个方向同时对文本序列的全局上下文特征进行提取,时刻的正向隐向量和反向隐向量分别表示为:
19、
20、
21、式中,gru表示使用gru网络对特征进行特征提取,表示i时刻的文本特征;
22、时刻的隐向量为正向隐向量和反向隐向量组合得到:
23、
24、然后,通过生成的隐式向量表达去指向语音合成,并采用注意力机制执行如下步骤:
25、
26、
27、
28、式中,表示i时刻的显著性特征,表示数学运算中的指数运算,t表示对矩阵求转置运算,表示具有显著性特征的隐向量,表示显著性特征,表示数学运算中的双曲正切函数,表示权重矩阵,为标签的隐向量表达;
29、最后,接入全连接层,用于训练分类,:
30、
31、其中,为权重矩阵,p为生成的概率值,是一种归一化函数,能够将一组任意的实数值转化为在[0, 1]之间的概率值;分类模型训练完毕后,即将全连接层前的输出作为提示模板的语义提取器,获取提示模板的语义的隐式表达向量。
32、进一步地,在步骤s4中,所述带有提示模板的声学模型训练,获取待合成语音的梅尔频谱,包括子步骤:
33、步骤4.1,构建神经网络层对步骤s2得到的待合成文本进行音素编码,记作;
34、步骤4.2,将提示模板输入步骤s3的预训练模型获取相应的风格信息的隐向量表达作为风格编码,记作;
35、步骤4.3,将步骤4.1的音素编码和步骤4.2的风格编码拼接,记作;将输入一个由个transformer模块和用于预测音素时长、音调和语音能量的方差适配器构成的编码器,记作中,其中n为参数,的表达式为:
36、=
37、
38、 h表示经过编码后的输出结果;
39、步骤4.4,将和步骤4.3的输出传入同样由个transformer模块组成的解码器记作中,预测待合成文本的梅尔频谱特征。
40、
41、式中,表示梅尔频谱特征。
42、进一步地,在步骤s5中,所述声码器包括parallel wavegan声码器。
43、进一步地,在步骤1.2之后,还包括提示模板数据增强步骤,用于丰富提示模板的内容,具体包括:首先根据不同的风格标签撰写部分提示模板,然后利用自然语言模型生成与编写的提示模板语义相似的句子,创造更多的成对数据,从而对数据集进行增强。
44、进一步地,在步骤s5中,所述利用声码器生成语音时域信号,包括子步骤:直接将步骤s4中预测的梅尔频谱特征输入基于parallel wavegan网络训练的声码器模型中,从而生成相应的语音时域信号。
45、一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,当所述计算机程序被所述处理器加载时并执行如上任一项所述的方法。
46、一种计算机可读存储介质,在可读存储介质中存储有计算机程序,所述计算机程序被处理器加载并执行如上任一项所述的方法。
47、本发明的有益效果包括:
48、本发明将提示学习应用于语音合成技术领域,通过构建自然语言化的提示模板,指导模型生成各种风格的多样化的语音。
技术特征:1.一种基于提示学习的多风格语音合成方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于提示学习的多风格语音合成方法,其特征在于,在步骤s1中,所述构造包括提示模板的数据集,包括子步骤:
3.根据权利要求1所述的基于提示学习的多风格语音合成方法,其特征在于,在步骤s2中,所述对数据集中的待合成文本进行预处理,具体包括子步骤:
4.根据权利要求1所述的基于提示学习的多风格语音合成方法,其特征在于,在步骤s3中,所述提示模板语义提取预训练,包括子步骤:
5.根据权利要求1所述的基于提示学习的多风格语音合成方法,其特征在于,在步骤s4中,所述带有提示模板的声学模型训练,获取待合成语音的梅尔频谱,包括子步骤:
6.根据权利要求1所述的基于提示学习的多风格语音合成方法,其特征在于,在步骤s5中,所述声码器包括parallel wavegan声码器。
7.根据权利要求2所述的基于提示学习的多风格语音合成方法,其特征在于,在步骤1.2之后,还包括提示模板数据增强步骤,用于丰富提示模板的内容,具体包括:首先根据不同的风格标签撰写部分提示模板,然后利用自然语言模型生成与编写的提示模板语义相似的句子,创造更多的成对数据,从而对数据集进行增强。
8.根据权利要求5所述的基于提示学习的多风格语音合成方法,其特征在于,在步骤s5中,所述利用声码器生成语音时域信号,包括子步骤:直接将步骤s4中预测的梅尔频谱特征输入基于parallel wavegan网络训练的声码器模型中,从而生成相应的语音时域信号。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,当所述计算机程序被所述处理器加载时并执行如权利要求1~8任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,在可读存储介质中存储有计算机程序,所述计算机程序被处理器加载并执行如权利要求1~8任一项所述的方法。
技术总结本发明公开了一种基于提示学习的多风格语音合成方法、设备及介质,属于语音合成技术领域,包括:步骤S1、构造包括提示模板的数据集;步骤S2、对数据集中的待合成文本进行预处理;步骤S3、提示模板语义提取预训练;步骤S4、带有提示模板的声学模型训练,获取待合成语音的梅尔频谱;步骤S5、利用声码器生成语音时域信号。本发明能够通过提示学习和语音合成两种技术的结合,实现多种风格的语音合成。技术研发人员:张诗涵,罗明利,杨瀚,陈尧森受保护的技术使用者:成都索贝数码科技股份有限公司技术研发日:技术公布日:2024/3/11本文地址:https://www.jishuxx.com/zhuanli/20240618/22273.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。