多方言的语音合成方法、装置、电子设备及可读存储介质与流程
- 国知局
- 2024-06-21 11:48:42
本技术涉及人机交互,尤其是涉及一种多方言的语音合成方法、装置、电子设备及可读存储介质。
背景技术:
1、在人机交互场景(例如,语音助手、智能客服和虚拟交互系统)中,机器或者人机交互模型(例如语音助手模型、智能客服模型等)通常使用普通话与用户进行语音交流。其中,考虑到用户可能来自全国不同地方,而不同地区的用户所说的方言(方言例如粤语、闽南语等)不同,若让不同地区的用户在与机器进行语音交流时,人机交互模型使用该用户的方言与该用户进行语音交流,则有利于提高用户的交互体验,使得人机交互更为顺畅。
2、目前,为了实现人机交互模型可以使用同一种音色(同一个人的声音)输出多种方言音频时,例如,想让人机交互模型使用用户a的声音输出多种方言音频,从而使用用户a的声音与不同地区(即不同方言)的用户交流时,需要先收集用户a说不同方言时的音频。而通常情况下,一个用户只会说一两种方言,若要收集用户a说不同方言的音频,需要让该用户a模仿其他自己不熟悉的方言进行音频录制,这就会导致用户a录制出的方言音频不够地道、不够自然,甚至难以听懂。
3、若用这些录制出的不够地道、不够自然、甚至难以听懂的方言音频对人机交互模型进行模型训练时,则会导致该人机交互模型学会的方言不够正宗、地道,使得在人机交互时,人机交互模型输出的方言语音不自然甚至难以听懂,可懂度和自然度较低。
技术实现思路
1、有鉴于此,本技术的目的在于提供一种多方言的语音合成方法、装置、电子设备及可读存储介质,以使机器或者人机交互模型输出的音频数据的方言更地道,提高机器或者人机交互模型输出的音频数据可懂度和自然度。
2、第一方面,本技术实施例提供了一种多方言的语音合成方法,包括:
3、在人机交互过程中,采集目标用户的方言音频数据以及接收所述目标用户选择的虚拟交流对象;
4、根据所述方言音频数据中的交流内容和使用的目标方言,调取出匹配于所述交流内容和所述目标方言的回复音频数据;以及根据所述虚拟交流对象,调取出所述虚拟交流对象的参考音频数据;
5、从所述回复音频数据中提取出文本信息和所述目标方言的方言风格特征,从所述参考音频数据中提取出所述虚拟交流对象的语音风格特征,以根据所述文本信息、所述方言风格特征和所述语音风格特征,生成目标梅尔频谱;
6、将所述目标梅尔频谱输入到声码器中,得到目标音频数据,以向所述目标用户输出所述目标音频数据;其中,所述目标音频数据是使用所述虚拟交流对象的语音风格以及所述目标方言说出的用于回复所述目标用户的所述方言音频数据的音频数据。
7、结合第一方面,本技术实施例提供了第一方面的第一种可能的实施方式,其中,所述语音风格特征包括:音色特征、说话习惯特征、语音韵律特征;所述从所述回复音频数据中提取出文本信息和所述目标方言的方言风格特征,从所述参考音频数据中提取出所述虚拟交流对象的语音风格特征,以根据所述文本信息、所述方言风格特征和所述语音风格特征,生成目标梅尔频谱,包括:
8、使用训练完成的语调提取器从所述回复音频数据中提取出基频信息;
9、使用训练完成的语音风格及文本提取器从所述回复音频数据中提取出文本信息和所述目标方言的方言风格特征;
10、使用训练完成的全局语音特征编码器从所述参考音频数据中提取出所述虚拟交流对象的所述音色特征和所述说话习惯特征;
11、使用训练完成的局部韵律特征编码器从所述参考音频数据中提取出所述虚拟交流对象的所述语音韵律特征;
12、将所述基频信息、所述文本信息、所述方言风格特征、所述音色特征、所述说话习惯特征、所述语音韵律特征以及所述虚拟交流对象的身份标识信息输入到训练完成的解码器中,输出目标梅尔频谱。
13、结合第一方面的第一种可能的实施方式,本技术实施例提供了第一方面的第二种可能的实施方式,其中,所述语音风格及文本提取器包含顺序连接的多层conformer block层;在相邻的两个所述conformer block层之间,前一所述conformer block层的输出作为下一所述conformer block层的输入;所述使用训练完成的语音风格及文本提取器从所述回复音频数据中提取出文本信息和所述目标方言的方言风格特征,包括:
14、在将所述回复音频数据输入至所述语音风格及文本提取器后,将所述语音风格及文本提取器中的目标conformer block层的输出作为从所述回复音频数据中提取出文本信息和所述目标方言的方言风格特征;其中,所述目标conformer block层靠近所述语音风格及文本提取器中最后一conformer block层。
15、结合第一方面的第一种可能的实施方式,本技术实施例提供了第一方面的第三种可能的实施方式,其中,所述语调提取器、所述语音风格及文本提取器、所述全局语音特征编码器、所述局部韵律特征编码器、所述解码器是通过以下方式训练得到的:
16、使用音频训练样本对待训练的初始语音风格及文本提取器进行模型训练,得到训练完成的所述语音风格及文本提取器;
17、将样本对象的第一方言音频训练样本输入至待训练的初始语调提取器和训练完成的所述语音风格及文本提取器中,通过所述初始语调提取器从所述第一方言音频训练样本中提取出样本基频信息,通过所述语音风格及文本提取器从所述第一方言音频训练样本中提取出样本文本信息和样本方言风格特征;
18、将所述第一方言音频训练样本输入至待训练的初始全局语音特征编码器和初始局部韵律特征编码器中,通过所述初始全局语音特征编码器从所述第一方言音频训练样本中提取出所述样本对象的样本音色特征和样本说话习惯特征,通过所述初始局部韵律特征编码器从所述第一方言音频训练样本中提取出所述样本对象的样本语音韵律特征;
19、将所述样本基频信息、所述样本文本信息、所述样本方言风格特征、所述样本音色特征、所述样本说话习惯特征、所述样本语音韵律特征以及所述样本对象的身份标识信息输入到待训练的初始解码器中,输出样本梅尔频谱;
20、根据所述第一方言音频训练样本生成标签梅尔频谱;
21、根据所述样本梅尔频谱和所述标签梅尔频谱,计算损失函数值;
22、根据所述损失函数值判断是否满足训练完成条件;
23、当满足训练完成条件时,将当前训练轮次的所述初始语调提取器、所述初始全局语音特征编码器、所述初始局部韵律特征编码器、所述初始解码器作为训练完成后的所述语调提取器、所述语音风格及文本提取器、所述全局语音特征编码器、所述局部韵律特征编码器、所述解码器;
24、当未满足训练完成条件时,使用所述损失函数值更新所述初始语调提取器、所述初始全局语音特征编码器、所述初始局部韵律特征编码器、所述初始解码器中的可学习参数,以及继续执行将样本对象的第一方言音频训练样本输入至待训练的初始语调提取器和训练完成的所述语音风格及文本提取器中及后续步骤,直至计算得到的损失函数值满足训练完成条件时,将当前训练轮次的所述初始语调提取器、所述初始全局语音特征编码器、所述初始局部韵律特征编码器、所述初始解码器作为训练完成后的所述语调提取器、所述语音风格及文本提取器、所述全局语音特征编码器、所述局部韵律特征编码器、所述解码器。
25、结合第一方面的第三种可能的实施方式,本技术实施例提供了第一方面的第四种可能的实施方式,其中,所述音频训练样本包括预训练样本和第二方言音频训练样本,所述预训练样本包括普通话训练样本和第三方言音频训练样本,所述普通话训练样本的数量多于所述第三方言音频训练样本的数量;所述使用音频训练样本对待训练的初始语音风格及文本提取器进行模型训练,得到训练完成的所述语音风格及文本提取器,包括:
26、使用所述预训练样本对待训练的初始语音风格及文本提取器进行模型预训练,得到预备语音风格及文本提取器;
27、使用所述第二方言音频训练样本对所述预备语音风格及文本提取器进行模型训练,得到训练完成的所述语音风格及文本提取器。
28、结合第一方面,本技术实施例提供了第一方面的第五种可能的实施方式,其中,所述根据所述方言音频数据中的交流内容和使用的目标方言,调取出匹配于所述交流内容和所述目标方言的回复音频数据;以及根据所述虚拟交流对象,调取出所述虚拟交流对象的参考音频数据,包括:
29、根据所述方言音频数据中使用的目标方言,从预先存储的各个方言的音频数据中,调取出使用所述目标方言的音频数据;
30、根据所述方言音频数据中的交流内容,从使用所述目标方言的音频数据中,调取出用于回复所述交流内容的回复音频数据;
31、根据所述虚拟交流对象的身边标识信息,从预先存储的各个对象的参考音频数据中,调取出所述虚拟交流对象的参考音频数据。
32、第二方面,本技术实施例还提供一种多方言的语音合成装置,包括:
33、采集模块,用于在人机交互过程中,采集目标用户的方言音频数据以及接收所述目标用户选择的虚拟交流对象;
34、调取模块,用于根据所述方言音频数据中的交流内容和使用的目标方言,调取出匹配于所述交流内容和所述目标方言的回复音频数据;以及根据所述虚拟交流对象,调取出所述虚拟交流对象的参考音频数据;
35、提取模块,用于从所述回复音频数据中提取出文本信息和所述目标方言的方言风格特征,从所述参考音频数据中提取出所述虚拟交流对象的语音风格特征,以根据所述文本信息、所述方言风格特征和所述语音风格特征,生成目标梅尔频谱;
36、输出模块,用于将所述目标梅尔频谱输入到声码器中,得到目标音频数据,以向所述目标用户输出所述目标音频数据;其中,所述目标音频数据是使用所述虚拟交流对象的语音风格以及所述目标方言说出的用于回复所述目标用户的所述方言音频数据的音频数据。
37、结合第二方面,本技术实施例提供了第二方面的第一种可能的实施方式,其中,所述语音风格特征包括:音色特征、说话习惯特征、语音韵律特征;所述提取模块在用于从所述回复音频数据中提取出文本信息和所述目标方言的方言风格特征,从所述参考音频数据中提取出所述虚拟交流对象的语音风格特征,以根据所述文本信息、所述方言风格特征和所述语音风格特征,生成目标梅尔频谱时,具体用于:
38、使用训练完成的语调提取器从所述回复音频数据中提取出基频信息;
39、使用训练完成的语音风格及文本提取器从所述回复音频数据中提取出文本信息和所述目标方言的方言风格特征;
40、使用训练完成的全局语音特征编码器从所述参考音频数据中提取出所述虚拟交流对象的所述音色特征和所述说话习惯特征;
41、使用训练完成的局部韵律特征编码器从所述参考音频数据中提取出所述虚拟交流对象的所述语音韵律特征;
42、将所述基频信息、所述文本信息、所述方言风格特征、所述音色特征、所述说话习惯特征、所述语音韵律特征以及所述虚拟交流对象的身份标识信息输入到训练完成的解码器中,输出目标梅尔频谱。
43、结合第二方面的第一种可能的实施方式,本技术实施例提供了第二方面的第二种可能的实施方式,其中,所述语音风格及文本提取器包含顺序连接的多层conformer block层;在相邻的两个所述conformer block层之间,前一所述conformer block层的输出作为下一所述conformer block层的输入;所述提取模块在用于使用训练完成的语音风格及文本提取器从所述回复音频数据中提取出文本信息和所述目标方言的方言风格特征时,具体用于:
44、在将所述回复音频数据输入至所述语音风格及文本提取器后,将所述语音风格及文本提取器中的目标conformer block层的输出作为从所述回复音频数据中提取出文本信息和所述目标方言的方言风格特征;其中,所述目标conformer block层靠近所述语音风格及文本提取器中最后一conformer block层。
45、结合第二方面的第一种可能的实施方式,本技术实施例提供了第二方面的第三种可能的实施方式,其中,所述装置还包括训练模块,所述训练模块用于通过以下方式训练得到所述语调提取器、所述语音风格及文本提取器、所述全局语音特征编码器、所述局部韵律特征编码器、所述解码器:
46、使用音频训练样本对待训练的初始语音风格及文本提取器进行模型训练,得到训练完成的所述语音风格及文本提取器;
47、将样本对象的第一方言音频训练样本输入至待训练的初始语调提取器和训练完成的所述语音风格及文本提取器中,通过所述初始语调提取器从所述第一方言音频训练样本中提取出样本基频信息,通过所述语音风格及文本提取器从所述第一方言音频训练样本中提取出样本文本信息和样本方言风格特征;
48、将所述第一方言音频训练样本输入至待训练的初始全局语音特征编码器和初始局部韵律特征编码器中,通过所述初始全局语音特征编码器从所述第一方言音频训练样本中提取出所述样本对象的样本音色特征和样本说话习惯特征,通过所述初始局部韵律特征编码器从所述第一方言音频训练样本中提取出所述样本对象的样本语音韵律特征;
49、将所述样本基频信息、所述样本文本信息、所述样本方言风格特征、所述样本音色特征、所述样本说话习惯特征、所述样本语音韵律特征以及所述样本对象的身份标识信息输入到待训练的初始解码器中,输出样本梅尔频谱;
50、根据所述第一方言音频训练样本生成标签梅尔频谱;
51、根据所述样本梅尔频谱和所述标签梅尔频谱,计算损失函数值;
52、根据所述损失函数值判断是否满足训练完成条件;
53、当满足训练完成条件时,将当前训练轮次的所述初始语调提取器、所述初始全局语音特征编码器、所述初始局部韵律特征编码器、所述初始解码器作为训练完成后的所述语调提取器、所述语音风格及文本提取器、所述全局语音特征编码器、所述局部韵律特征编码器、所述解码器;
54、当未满足训练完成条件时,使用所述损失函数值更新所述初始语调提取器、所述初始全局语音特征编码器、所述初始局部韵律特征编码器、所述初始解码器中的可学习参数,以及继续执行将样本对象的第一方言音频训练样本输入至待训练的初始语调提取器和训练完成的所述语音风格及文本提取器中及后续步骤,直至计算得到的损失函数值满足训练完成条件时,将当前训练轮次的所述初始语调提取器、所述初始全局语音特征编码器、所述初始局部韵律特征编码器、所述初始解码器作为训练完成后的所述语调提取器、所述语音风格及文本提取器、所述全局语音特征编码器、所述局部韵律特征编码器、所述解码器。
55、结合第二方面的第三种可能的实施方式,本技术实施例提供了第二方面的第四种可能的实施方式,其中,所述音频训练样本包括预训练样本和第二方言音频训练样本,所述预训练样本包括普通话训练样本和第三方言音频训练样本,所述普通话训练样本的数量多于所述第三方言音频训练样本的数量;所述训练模块在用于使用音频训练样本对待训练的初始语音风格及文本提取器进行模型训练,得到训练完成的所述语音风格及文本提取器时,具体用于:
56、使用所述预训练样本对待训练的初始语音风格及文本提取器进行模型预训练,得到预备语音风格及文本提取器;
57、使用所述第二方言音频训练样本对所述预备语音风格及文本提取器进行模型训练,得到训练完成的所述语音风格及文本提取器。
58、结合第二方面,本技术实施例提供了第二方面的第五种可能的实施方式,其中,所述调取模块在用于根据所述方言音频数据中的交流内容和使用的目标方言,调取出匹配于所述交流内容和所述目标方言的回复音频数据;以及根据所述虚拟交流对象,调取出所述虚拟交流对象的参考音频数据时,具体用于:
59、根据所述方言音频数据中使用的目标方言,从预先存储的各个方言的音频数据中,调取出使用所述目标方言的音频数据;
60、根据所述方言音频数据中的交流内容,从使用所述目标方言的音频数据中,调取出用于回复所述交流内容的回复音频数据;
61、根据所述虚拟交流对象的身边标识信息,从预先存储的各个对象的参考音频数据中,调取出所述虚拟交流对象的参考音频数据。
62、第三方面,本技术实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面中任一种可能的实施方式中的步骤。
63、第四方面,本技术实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面中任一种可能的实施方式中的步骤。
64、本技术实施例提供的多方言的语音合成方法、装置、电子设备及可读存储介质,其中,在人机交互过程中,目标用户可以自己选择虚拟交流对象,在选择出虚拟交流对象后,根据采集到的目标用户的方言音频数据,调取出匹配于方言音频数据中的交流内容和使用的目标方言的回复音频数据,以及调取出虚拟交流对象的参考音频数据。接下来,从回复音频数据中提取出文本信息和目标方言的方言风格特征,从参考音频数据中提取出虚拟交流对象的语音风格特征,从而根据文本信息、方言风格特征和语音风格特征,生成用于回复给目标用户的目标音频数据。其中,目标音频数据是使用虚拟交流对象的语音风格以及目标方言说出的用于回复目标用户的方言音频数据的音频数据。相比于现有技术中,让虚拟交流对象模仿自己不熟悉的方言进行音频录制,本实施例的方式,无需让虚拟交流对象模仿各种方言进行音频录制,只需让虚拟交流对象使用自己最熟悉的方言(或普通话)进行音频录制,然后从虚拟交流对象录制的参考音频数据中提取出虚拟交流对象的语音风格特征即可。并且,针对每种方言,可以让最熟悉该方言的对象录制各种音频数据,也就是说,录制得到的各种音频数据的方言是最地道的,这样,在调取使用目标方言的回复音频数据时,可以调取到方言最地道的回复音频数据。本实施例中,从方言最地道的回复音频数据中提取文本信息和目标方言的方言风格特征,结合从参考音频数据中提取出虚拟交流对象的语音风格特征,那么,就会使得最终生成的目标音频数据是使用最地道的目标方言以及虚拟交流对象的语音风格说出的音频数据。这样可以使得人机交互中机器或者人机交互模型输出的目标音频数据更为地道、自然,有利于提高机器或者人机交互模型输出的目标音频数据可懂度和自然度。
65、为使本技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
本文地址:https://www.jishuxx.com/zhuanli/20240618/23703.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。