具有表现力的语音数据集的合成方法、系统及电子设备与流程
- 国知局
- 2024-06-21 11:42:41
本发明涉及智能语音领域,尤其涉及一种具有表现力的语音数据集的合成方法、系统及电子设备。
背景技术:
1、随着深度学习的发展,提高了tts(text-to-speech,文本到语音)的质量,使tts模型能够产生与人类语音非常相似的语音。然而,这些模型往往擅长于合成具有相对简单情感特征的语音。当涉及到小说、诗歌、脱口秀等表现形式时,由于这些内容通常富含表现力的文本。这种文本形式影响着说话人演讲的节奏,致使tts模型难以达到预期的表现水平。
2、现有技术为了解决上述问题,会使用:
3、1、将预训练语言模型应用到表现力语音合成中,其采用一个预训练的bert模型来提取文本的语义特征,该bert模型在海量的文本上进行训练得到。将提取后的语义特征作为辅助信息加入到以tacotron2为骨干的语音合成模型中进行训练,实验结果表明,在语义特征的加持下,合成语音的表现力有显著提升。
4、2、使用图神经网络对句法特征进行建模。由于句法依存树本身就是一个树形结构,图数据结构可以很好地进行表征。此外,syntaspeech提出了一个图编码器,它可以帮助模型学习句法特征,然后用于辅助声学特征、韵律和音素时长的预测。对于词性标注特征,研究人员一般会使用一个可学习的嵌入表将其融合到语音合成模型中。
5、在实现本发明过程中,发明人发现相关技术中至少存在如下问题:
6、现有技术依赖于预先训练的语言模型或基本句法结构的粗粒度语义表示,并且没有对文本表现力,只通过提取文本的词性标注或者依存句法来代表语言学特征,也没有深入彻底地挖掘文本的语言学特征,使得tts在生成表现力强的语音时,效果不佳。
技术实现思路
1、为了至少解决现有技术中屏幕适配是在程序运行起来后才进行,拖慢了程序的流畅性,而设计多套布局文件可能无法列举全所有的尺寸,并不能很好地做到适配,同时还会增加apk大小的问题。
2、第一方面,本发明实施例提供一种具有表现力的语音数据集的合成方法,包括:
3、获取带有表现力的原始语音数据,对所述原始语音数据进行分割,得到表现力语音段,对所述表现力语音段进行语音识别,得到带有表现力语音段以及识别文本的语音数据集,其中,所述原始语音数据包括:评书;
4、对所述语音数据集中识别文本的拟声词以及标点符号进行调整,以修正因所述带有表现力语音段由于音高以及语速的错误识别,得到修正语音数据集;
5、对所述修正语音数据集进行文本表现力分析,确定出所述修正语音数据集内各带有表现力语音段以及识别文本所对应的文本表现力类别,其中,所述文本表现力类别包括:句式、场景、修辞手法、模仿人物和情感色彩;
6、利用大模型按照与所述文本表现力类别对应规则,对带有文本表现力类别的修正语音数据集进行批量标注,得到带有批量标注的具有表现力的语音数据集。
7、第二方面,本发明实施例提供一种具有表现力的语音数据集的合成系统,包括:
8、语音数据集确定模块,用于获取带有表现力的原始语音数据,对所述原始语音数据进行分割,得到表现力语音段,对所述表现力语音段进行语音识别,得到带有表现力语音段以及识别文本的语音数据集,其中,所述原始语音数据包括:评书;
9、修正模块,用于对所述语音数据集中识别文本的拟声词以及标点符号进行调整,以修正因所述带有表现力语音段由于音高以及语速的错误识别,得到修正语音数据集;
10、表现力分析模块,用于对所述修正语音数据集进行文本表现力分析,确定出所述修正语音数据集内各带有表现力语音段以及识别文本所对应的文本表现力类别,其中,所述文本表现力类别包括:句式、场景、修辞手法、模仿人物和情感色彩;
11、数据集合成模块,用于利用大模型按照与所述文本表现力类别对应规则,对带有文本表现力类别的修正语音数据集进行批量标注,得到带有批量标注的具有表现力的语音数据集。
12、第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的具有表现力的语音数据集的合成方法的步骤。
13、第四方面,本发明实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本发明任一实施例的具有表现力的语音数据集的合成方法的步骤。
14、第五方面,本发明实施例提供一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现本发明任一实施例的具有表现力的语音数据集的合成方法的步骤。
15、本发明实施例的有益效果在于:构造了一个高表现力语音合成数据集,该数据集来自于带有表现力的音频,并对该音频进行针对性处理,还通过语言学、文学等角度对文本表现力特征进行了分类,并且本方法还设计了一个大语言模型来辅助进行标注,更准确、高效地标注出数据集中的表现力类别。在tts效果上,比目前开源的数据集具有更高的表现力。
技术特征:1.一种具有表现力的语音数据集的合成方法,包括:
2.根据权利要求1所述的方法,其中,所述大模型按照与所述文本表现力类别对应规则包括:
3.根据权利要求2所述的方法,其中,所述利用所述大模型批量标注出强化后的修正语音数据集中文本表现力类别所对应的词语包括:
4.根据权利要求2所述的方法,其中,所述利用所述大模型批量标注出强化后的修正语音数据集中文本表现力类别所对应的词语包括:
5.根据权利要求1所述的方法,其中,在所述得到带有批量标注的具有表现力的语音数据集之后,所述方法还包括:
6.根据权利要求5所述的方法,其中,所述表现力编码器的结构包括:bert、句向量的bert、多头注意力层、上采样层、线性层以及四个独立可学习的嵌入层,其中,所述bert用于接收输入的语音数据集,输出单词级嵌入,所述句向量的bert接收大模型标记的情感色彩,输出情感色彩嵌入,利用所述多头注意力层、上采样层、线性层从所述单词级嵌入以及所述情感色彩嵌入中确定情绪分布的音素,所述四个独立可学习的嵌入层分别独立接收所述大模型标记的场景、句式、修辞手法、模仿人物,输出对应的音素,通过所述情绪分布的音素以及所述对应的音素得到测试结果。
7.一种具有表现力的语音数据集的合成系统,包括:
8.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1-6中任一项所述方法的步骤。
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-6中任一项所述方法的步骤。
技术总结本发明实施例提供一种具有表现力的语音数据集的合成方法、系统及电子设备。该方法包括:获取带有表现力的原始语音数据,进行分割得到表现力语音段,对表现力语音段进行语音识别,得到带有表现力语音段以及识别文本的语音数据集;对语音数据集中识别文本的拟声词以及标点符号进行调整,得到修正语音数据集;对修正语音数据集进行文本表现力分析,确定出修正语音数据集内各带有表现力语音段以及识别文本所对应的文本表现力类别;利用大模型按照与文本表现力类别对应规则,对带有文本表现力类别的修正语音数据集进行批量标注,得到带有批量标注的具有表现力的语音数据集。本发明实施例构造了高表现力语音合成数据集,在TTS效果上具有更高的表现力。技术研发人员:俞凯,刘森受保护的技术使用者:思必驰科技股份有限公司技术研发日:技术公布日:2024/4/17本文地址:https://www.jishuxx.com/zhuanli/20240618/23072.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。