基于多层级韵律特征的情感语音生成方法及装置
- 国知局
- 2024-06-21 11:54:11
本发明涉及语音信号处理,尤其涉及一种基于多层级韵律特征的情感语音生成方法及装置。
背景技术:
1、智能人机语音交互已成为现阶段被广泛关注、研究及应用的人机交互技术,这是因为语音交互是人类社会最直接、最自然、可以和其它模态并用的沟通交流方式,相较于其它的交互方式具有更大优势。语音信号包含着丰富的情感信息,让机器能够学习人类语音中的情绪波动,进而在给定文本的基础上合成出细腻、更有温度的情感语音,即情感语音的建模与生成,对于人机交互技术的进步至关重要。
2、与输入文本相比,情感语音具有个体差异大、耦合程度高、韵律变化复杂等特性,导致建模情感标签、音频波形、文本内容三者之间的映射关系难。最直接的方法是借助已配对的情感语料库数据进行训练和测试,即从配对数据之中挖掘已知信息的关联关系。但因配对语料库构建成本高昂,导致其数据规模受限,同时,受离散的情感类别标签制约,建模过程难以克服不同情感类别下语料数据的类内差异性与类间相似性,导致训练出的模型所生成的情感语音在音频质量和自然度上表现较差。
3、随着语音情感识别技术的快速发展,结合语音情感识别预训练模型的方法在情感语音生成领域取得了较大突破,但目前所采用的预训练模型均是针对鉴别离散情感类别标签任务设计,所提取的潜在变量难以支撑情感语音中情感与韵律变化之间复杂对应关系的建模,且语音情感识别预训练模型往往使用第三方库完成训练,因此面临着跨领域适配的问题,难以保证所提取潜在变量的有效性。如何在充分利用有限的配对情感语料库数据的同时实现离散情感类别标签向细腻韵律变化平滑过渡已成为限制生成情感语音音频质量和自然度提升的一大屏障。
技术实现思路
1、发明目的:本发明针对现有技术存在的问题,提供一种基于多层级韵律特征的情感语音生成方法、装置、设备及存储介质,实现离散情感类别标签向细腻韵律变化平滑过渡,进而使得情感语音的建模效果更精准、生成情感语音的自然度更高。
2、技术方案:第一方面,本发明提供了一种基于多层级韵律特征的情感语音生成方法,包括如下步骤:
3、(1)获取原始样本数据,所述原始样本数据包括中文说话人的音频数据、中文文本数据和情感类别标签;
4、(2)转换模块将所述文本数据转换为拼音序列,将所述音频数据转换为线性声谱图;
5、(3)文本韵律预测模块根据所述拼音序列预测具有情感类别标签对应情感的语言学韵律变量;
6、(4)声学韵律建模模块根据所述线性声谱图提取具有情感类别标签对应情感的声学韵律变量,其中,声学韵律建模模块包括说话人身份编码器、情感韵律变化提取单元和韵律信息整合器,所述说话人身份编码器用于从所述线性声谱图中提取说话人基频信息,所述情感韵律变化提取单元用于从所述线性声谱图中提取包括效价、唤醒度、支配度且具有情感类别标签对应情感的情感声学特征,所述韵律信息整合器用于将所述说话人基频信息和所述情感声学特征整合为声学韵律变量;
7、(5)韵律信息对齐模块将所述语言学韵律变量和声学韵律变量进行匹配,合成潜在韵律变量;
8、(6)情感语音生成模块根据潜在韵律变量生成情感音频数据,以及情感音频数据的音频质量和自然度,所述情感语音生成模块包括解码器、波形鉴别器和情感分类器,所述解码器用于根据所述潜在韵律变量生成情感音频数据,所述波形鉴别器用于评估所述生成情感音频数据的音频质量,所述情感分类器用于评估所述生成情感音频数据的自然度。
9、进一步的,所述文本韵律预测模块包括:
10、文本编码器,用于从所述拼音序列中提取语言学特征,包含依次连接的多个前馈transformer模块和一个线性映射模块,
11、韵律预测单元,用于根据所述情感类别标签将所述语言学特征处理为所述语言学韵律变量,包括依次连接的多个卷积模块和一个线性映射模块。
12、进一步的,所述说话人身份编码器包括依次连接的多个卷积模块和一个全连接模块,其中每个卷积模块均包括依次的一维卷积、归一化、非线性激活函数三个操作,每个全连接模块包括1个全连接操作。
13、进一步的,所述情感韵律变化提取单元包括相连接的效价-唤醒度-支配度预测器和线性映射模块。
14、进一步的,所述韵律信息整合器包括依次连接的多个卷积模块、16个wavenet残差模块和1个线性映射模块。
15、进一步的,所述语言学韵律变量包括高斯分布的语言学韵律均值和语言学韵律方差,所述声学韵律变量包括高斯分布的声学韵律均值和声学韵律方差,所述潜在韵律变量包括高斯分布的潜在韵律均值和潜在韵律方差
16、进一步的,所述解码器包括依次相连接的多个转置卷积操作和多感受野融合模块,其中多感受野融合模块包括依次连接的一维卷积、非线性激活函数及残差结构。
17、第二方面,本发明还提供一种基于多层级韵律特征的情感语音生成装置,包括:
18、转换模块,用于获取原始样本数据,所述原始样本数据包括中文说话人的音频数据、中文文本数据和情感类别标签;
19、转换模块,用于将所述文本数据转换为拼音序列,将所述音频数据转换为线性声谱图;
20、文本韵律预测模块,用于根据所述拼音序列预测具有情感类别标签对应情感的语言学韵律变量;
21、声学韵律建模模块,用于根据所述线性声谱图提取具有情感类别标签对应情感的声学韵律变量,包括说话人身份编码器、情感韵律变化提取单元和韵律信息整合器,所述说话人身份编码器用于从所述线性声谱图中提取说话人基频信息,所述情感韵律变化提取单元用于从所述线性声谱图中提取包括效价、唤醒度、支配度且具有情感类别标签对应情感的情感声学特征,所述韵律信息整合器用于将所述说话人基频信息和所述情感声学特征整合为声学韵律变量;
22、韵律信息对齐模块,用于将所述语言学韵律变量和声学韵律变量进行匹配,合成潜在韵律变量;
23、情感语音生成模块,用于根据潜在韵律变量生成情感音频数据,以及情感音频数据的音频质量和自然度,包括解码器、波形鉴别器和情感分类器,所述解码器用于根据所述潜在韵律变量生成情感音频数据,所述波形鉴别器用于评估所述生成情感音频数据的音频质量,所述情感分类器用于评估所述生成情感音频数据的自然度。
24、第三方面,本发明还提供了一种基于多层级韵律特征的情感语音生成设备,包括处理器及存储在存储器上并可在处理器上运行的可执行程序,所述处理器执行所述可执行程序时实现上述方法。
25、第四方面,本发明还提供了一种包含计算机可执行程序的存储介质,所述计算机可执行程序在由计算机处理器执行时用于执行上述方法。
26、本发明与现有技术相比,其有益效果是:本发明首先通过声学韵律提取模块和文本韵律预测模块获取不同模态多层级的潜在韵律变量,然后通过韵律信息对齐模块强化模型对语音信号的情感韵律变化感知能力并获得韵律变量之间的对齐关系,最后利用情感语音生成模块合成更高音频质量的情感音频数据,在充分利用有限的配对情感语料库数据的同时,实现了离散情感类别标签向细腻韵律变化平滑过渡,进而使得情感语音的建模效果更精准、生成情感语音的自然度更高。
本文地址:https://www.jishuxx.com/zhuanli/20240618/24373.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。