技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种提升语音合成情感表达的方法及系统与流程  >  正文

一种提升语音合成情感表达的方法及系统与流程

  • 国知局
  • 2024-06-21 11:36:06

本发明涉及语音合成,更具体的说是涉及一种提升语音合成情感表达的方法及系统。背景技术:::1、语音合成又称文语转换(text to speech)技术,是一种将输入的文本转换为标准流畅的人类语音的技术。语音合成技术提供了一种将仅可读的文字转化为可听的声音的能力,在众多领域中得到了广泛的应用,如语音助手,智能教育,智能客服等等。2、在语音助手等需要人机交互的场景,目前标准的语音合成系统已经可以做到表达很清晰,听感也较为舒服,但是有一个缺陷就是输出的合成语音具有明显的机器口音,缺乏真实感。所以在接下来的语音合成技术的发展方向上,就是使输出的语音更加地自然、拟人化,让人难以分辨是机器合成的还是真人在讲话。另外与真人语音相比,合成语音缺少了情感表达的能力,不能根据文本的变化很好地表达喜怒哀乐等情绪。3、因此为了生成更加生动真实的语音,提升语音合成技术的情感表达能力是本领域技术人员亟需解决的问题。技术实现思路1、有鉴于此,本发明提供了一种提升语音合成情感表达的方法及系统,用于生成更加生动真实的语音。2、为了实现上述目的,本发明采用如下技术方案:3、一方面,本发明公开了一种提升语音合成情感表达的方法,包括以下步骤:4、将文本转换为音素序列和语言特征标签,所述语言特征标签包括说话人标签、语言风格标签以及语言情感标签;5、将所述音素序列和语言特征标签输入声学模型,获取对应的梅尔频谱;6、根据所述梅尔频谱还原出音频信号。7、进一步地,将文本转换为音素序列和语言特征标签,具体包括:8、将文本通过文本规范化、多音字消歧以及韵律预测,最终得到音素序列;9、将文本输入训练好的bert预训练模型,获取语言特征标签。10、进一步地,所述语言风格标签对应的语言风格包括直播带货、展厅解说和故事朗读。11、进一步地,所述语言情感标签对应的语言情感包括中性、开心、愤怒、悲伤和惊讶。12、进一步地,将所述音素序列和语言特征标签输入声学模型,获取对应的梅尔频谱,具体包括以下步骤:13、提取音素序列中的上下文信息,获取音素特征向量;14、根据说话人标签通过查询表lookup table查询获取说话人向量;15、根据语言风格标签通过查询表lookup table查询获取风格向量;16、根据语言情感标签通过查询表lookup table查询获取情感向量;17、将音素向量、说话人向量、风格向量和情感向量拼接到一起,输入音素级韵律预测器,获取音素级韵律特征向量;18、将音素级韵律特征向量分别输入基频预测器和能量预测器,获取基频向量和能量向量;19、将基频向量,能量向量和音素向量相加,再拼接说话人向量、风格向量和情感向量,输入自回归时长预测器得到每个音素对应的时长;20、通过时长调节器将音素序列扩展到和梅尔频谱相同的维度,并最终得到对应的梅尔频谱。21、另一方面,本发明还公开了一种提升语音合成情感表达的系统,包括文本前处理模块,声学模型和声码器;22、所述文本前处理模块用于将文本转换为音素序列和语言特征标签,所述语言特征标签包括说话人标签、语言风格标签以及语言情感标签;23、所述声学模型用于接收音素序列和语言特征标签,并输出对应的梅尔频谱;24、所述声码器用于根据所述梅尔频谱还原出音频信号。25、进一步地,所述声学模型包括音素编码器、说话人标记器、风格标记器、情感标记器、变换适应层和自回归解码器;26、所述音素编码器用于提取音素序列中的上下文信息获取音素特征向量;27、所述说话人标记器用于根据说话人标签通过查询表lookup table查询获取说话人向量;28、所述风格标记器用于根据语言风格标签通过查询表lookup table查询获取风格向量;29、所述情感标记器用于根据语言情感标签通过查询表lookup table查询获取情感向量;30、所述变换适应层用于输入音素特征向量、说话人向量、风格向量和情感向量,输出和梅尔频谱相同序列长度的音素序列;31、所述自回归解码器用于对所述音素序列进行解码,获取对应的梅尔频谱。32、进一步地,所述变换适应层包括音素级韵律预测器、基频预测器、能量预测器、自回归时长预测器和时长调节器;33、所述音素级韵律预测器用于接收音素特征向量、说话人向量、风格向量和情感向量,输出音素级韵律特征向量;34、所述基频预测器用于根据音素级韵律预测器输出的音素级韵律特征向量,输出预测的基频特征向量;35、所述能量预测器用于根据音素级韵律预测器输出的音素级韵律特征向量,输出预测的能量特征向量;36、所述自回归时长预测器用于接收所述基频特征向量和能量特征向量,获取音素序列并输出预测的音素时长;37、所述时长调节器用于利用音素时长对音素序列的时长进行扩展调整,获取和梅尔频谱相同序列长度的音素序列。38、进一步地,所述基频预测器和能量预测器具有相同的网络结构,均包括前馈序列记忆网络编码器、双向长短期记忆网络和全连接层。39、进一步地,所述自回归时长预测器的网络结构包括prenet网络、单向长短期记忆网络和全连接层;所述prenet网络包括全连接层、线性修正单元以及丢弃正则化单元。40、经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种提升语音合成情感表达的方法及系统,具有以下有益效果:41、本发明提出的提升情感表达的方法,可以很好地还原真人说话的情感,使得人机交互体验更加沉浸。相比于目前其他情感语音合成系统只针对情感进行建模,该系统通过结合对风格以及情感的建模,区分不同场景下对于情感表达的需要,更细粒度的对不同情感进行区分,从而提高情感表达的自然度与拟人度。另外还可以根据输入的文本自动判断应该表达哪一种情绪。技术特征:1.一种提升语音合成情感表达的方法,其特征在于,包括以下步骤:2.根据权利要求1所述的提升语音合成情感表达的方法,其特征在于,将文本转换为音素序列和语言特征标签,具体包括:3.根据权利要求1所述的提升语音合成情感表达的方法,其特征在于,4.根据权利要求1所述的提升语音合成情感表达的方法,其特征在于,5.根据权利要求1所述的提升语音合成情感表达的方法,其特征在于,将所述音素序列和语言特征标签输入声学模型,获取对应的梅尔频谱,具体包括以下步骤:6.一种提升语音合成情感表达的系统,其特征在于,包括文本前处理模块,声学模型和声码器;7.根据权利要求6所述的提升语音合成情感表达的系统,其特征在于,所述声学模型包括音素编码器、说话人标记器、风格标记器、情感标记器、变换适应层和自回归解码器;8.根据权利要求7所述的提升语音合成情感表达的系统,其特征在于,所述变换适应层包括音素级韵律预测器、基频预测器、能量预测器、自回归时长预测器和时长调节器;9.根据权利要求8所述的提升语音合成情感表达的系统,其特征在于,所述基频预测器和能量预测器具有相同的网络结构,均包括前馈序列记忆网络编码器、双向长短期记忆网络和全连接层。10.根据权利要求8所述的提升语音合成情感表达的系统,其特征在于,所述自回归时长预测器的网络结构包括prenet网络、单向长短期记忆网络和全连接层;所述prenet网络包括全连接层、线性修正单元以及丢弃正则化单元。技术总结本发明公开了一种提升语音合成情感表达的方法和系统,属于语音合成技术领域::。其方法包括步骤:将文本转换为音素序列和语言特征标签,所述语言特征标签包括说话人标签、语言风格标签以及语言情感标签;将所述音素序列和语言特征标签输入声学模型,获取对应的梅尔频谱;根据所述梅尔频谱还原出音频信号。通过上述方法和相关系统本发明能够更细粒度的对不同情感进行区分,从而提高情感表达的自然度与拟人度。技术研发人员:张硕,苏江受保护的技术使用者:暗物质(北京)智能科技有限公司技术研发日:技术公布日:2024/3/12

本文地址:https://www.jishuxx.com/zhuanli/20240618/22307.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。