技术新讯 > 乐器声学设备的制造及制作,分析技术 > 可扩展发音人的声学模型实现方法、装置与流程  >  正文

可扩展发音人的声学模型实现方法、装置与流程

  • 国知局
  • 2024-06-21 11:36:31

本技术涉及语音合成,具体而言,涉及一种可扩展发音人的声学模型实现方法、装置。

背景技术:

1、语音合成技术是赋予计算机(或各种终端设备)具有像人一样的说话能力。tts(text to speech,文语转换)技术隶属于语音合成,它是将计算机自己产生的或者外部输入的文字信息转换为可以听懂的、流程的口语输出的技术。而语音合成系统一般由文本分析模块、声学模型、声码器三大部分构成。

2、在语音合成系统的基础上,多发音人语音合成系统的模型可以通过混合多发音人数据训练一个声学模型,再利用少量目标发音人的语料对预训练的声学模型进行部分模型参数的微调,即“预训练+微调”来实现。近年来,基于adapter的自适应技术在nlp(naturallanguage processing,自然语言处理)大模型微调上成果显著,已有文献指出可以在原有语音合成声学系统的基础模型上仅添加少量adapter层的方式来学习新发音人的特征。但上述无论哪种方式,都会形成一部分共享的层和参数或者一部分每个发音人独有的层和参数。因此,目前多发音人语音合成模型的推理引擎在输入的发音人个数可以大于1时,在推理时不同发音人需要选择各自独有的那部分层和参数进行推理,但由于每个发音人的参数在训练完成后是独立存在的状态。

3、针对上述问题,相关技术人员提供的一种较为简单的方法,即将batch size(批处理)大于1的输入变为多个batch size为1的输入,分别解码后再将结果拼成batch返回,然而这种方法会严重降低计算机gpu的推理效率。

4、针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

1、本技术实施例提供了一种可扩展发音人的声学模型实现方法、装置,以至少解决相关声学模型多个发音人批输入语音文本进行语音合成时,通过调用各个发音人的自适应模型参数依次对每个发音人的语音文本进行推理,导致推理处理效率较低的技术问题。

2、根据本技术实施例的一个方面,提供了一种可扩展发音人的声学模型实现方法,包括:响应于多个目标新增发音人的语音合成请求,确定语音合成请求中各个目标新增发音人的目标发音人标识;从预设的发音人索引表中确定与目标发音人标识对应的目标新增发音人的目标嵌入向量,其中,目标嵌入向量包括:发音人嵌入向量和自适应嵌入向量,发音人索引表内依次记录第一发音人的第一发音人标识及对应的第一发音人嵌入向量、多个新增发音人的新增发音人标识及对应的第二嵌入向量,第二嵌入向量包括:新增发音人对应的新增发音人嵌入向量和利用新增发音人的第二语音数据对目标声学模型进行自适应训练所得的自适应嵌入向量适配器参数,目标声学模型是将预设的适配器与基于第一发音人的第一语音数据训练所得的基准声学模型结合所得;基于多个所述目标新增发音人的目标嵌入向量确定所述目标声学模型内的目标适配器参数,并将所述目标适配器参数与所述目标声学模型进行重新组合,通过组合后的所述目标声学模型对多个所述目标发音人的语音合成请求进行响应。

3、可选地,基准声学模型的训练过程包括:构建深度学习模型,其中,深度学习模型包括:由单层前馈变压器fft模块组成的编码器、发音人嵌入模块、由n层fft模块组成的解码器,n为大于等于1的正整数;获取多个第一发音人的第一语音数据,其中,第一语音数据中包括:第一发音人的第一语音文本对应的第一音素序列编码以及第一语音音频对应的第一声学特征,且第一语音文本与第一语音音频相对应;依据多个第一发音人的第一语音数据对深度学习模型进行迭代训练,得到基准声学模型。

4、可选地,获取多个第一发音人的第一语音数据,包括:获取每个第一发音人的初始语音文本,以及与初始语音文本对应的初始语音音频,其中,初始语音文本中包括以下至少之一:文本信息、标点符号、韵律标注;将初始语音文本内的文本信息转换为初始音素序列,并将标点符号和韵律标注插入至初始音素序列内,得到第一音素序列;采用独热编码对第一音素序列进行编码,得到第一音素序列编码;将初始语音音频进行预处理操作,其中,预处理操作包括以下至少之一:采样、音量调整、剪裁;对预处理后的初始语音音频进行特征提取,得到第一声学特征,其中,第一声学特征包括以下至少之一:梅尔频谱特征、帧级别变量特征、音素级别时长特征。

5、可选地,依据多个第一发音人的第一语音数据对深度学习模型进行迭代训练,得到基准声学模型,包括:对于每个第一发音人的第一语音数据,将第一发音人的第一音素序列编码输入至深度学习模型中,依次经过深度学习模型内的编码器和解码器输出对应的第一流式声学特征和第一非流式声学特征;基于每个所述第一发音人的第一语音数据内的第一声学特征与所述第一流式声学特征和所述第一非流式声学特征确定目标损失函数,其中,所述目标损失函数包括:非流式均方误差损失函数、流式均方误差损失函数、对抗损失函数;利用梯度下降算法计算目标损失函数的最小值,并基于目标损失函数的最小值对深度学习模型的模型参数进行调整,得到基准声学模型。

6、可选地,利用新增发音人的第二语音数据对目标声学模型进行自适应训练所得的自适应嵌入向量,包括:获取新增发音人的第二语音数据,其中,第二语音数据包括:新增发音人的第二语音文本对应的第二音素序列编码以及第二语音音频对应的第二声学特征,且第二语音文本与第二语音音频相对应;获取基准声学模型,并利用适配器对基准声学模型内的解码器进行改进,得到目标声学模型,其中,适配器由降维的第一前馈神经网络、激活层、升维的第二前馈神经网络组成;利用新增发音人的第二语音数据对目标声学模型进行自适应模型训练,得到新增发音人的适配器参数,并对适配器参数进行拼接得到新增发音人对应的自适应嵌入向量,其中,适配器参数包括以下至少之一:n层适配器的第一前馈神经网络的第一权重矩阵和第一偏置向量、第二前馈神经网络的第二权重矩阵和第二偏置向量。

7、可选地,利用适配器对基准声学模型内的解码器进行改进,包括:对适配器进行初始化,并在基准声学模型内解码器的n层fft模块后分别增加一个初始化后的适配器,得到改进后的解码器,其中,fft模块由多头注意力机制模块、块状模块、条件层归一化模块、因果卷积模块组成。

8、可选地,对适配器进行初始化,包括:将第一前馈神经网络的第一权重矩阵和第二前馈神经网络的第二权重矩阵初始化为1,以及将第一前馈神经网络的第一偏置向量和第二前馈神经网络的第二偏置向量初始化为0。

9、可选地,对适配器参数进行拼接得到新增发音人对应的自适应嵌入向量,包括:将新增发音人对应的适配器参数内第一层适配器至第n层适配器,依次将每个适配器内的第一前馈神经网络的第一权重矩阵和第一偏置向量,第二前馈神经网络的第二权重矩阵和第二偏置向量进行横向拼接,得到新增发音人对应的自适应嵌入向量。

10、可选地,基于多个目标新增发音人的目标嵌入向量确定目标声学模型内的目标适配器参数,包括:对每个目标新增发音人的目标自适应嵌入向量进行切片和转换,得到对应的n层目标适配器对应的目标适配器参数;对每层目标适配器对应的目标适配器参数,分别将多个目标新增发音人对应的第一前馈神经网络的第一权重矩阵、第一前馈神经网络的第一偏置向量、第二前馈神经网络的第二权重矩阵、第二前馈神经网络的第二偏置向量进行拼接,得到第一目标权重矩阵、第一目标偏置向量、第二目标权重矩阵、第二目标偏置向量;由多个目标新增发音人对应的目标发音人嵌入向量、每层目标适配器对应的第一目标权重矩阵、第一目标偏置向量、第二目标权重矩阵、第二目标偏置向量得到目标声学模型的目标适配器参数。

11、根据本技术实施例的另一方面,还提供了一种可扩展发音人的声学模型实现装置,包括:第一确定模块,用于响应于多个目标新增发音人的语音合成请求,确定语音合成请求中各个目标新增发音人的目标发音人标识;第二确定模块,用于从预设的发音人索引表中确定与目标发音人标识对应的目标新增发音人的目标嵌入向量,其中,目标嵌入向量包括:发音人嵌入向量和自适应嵌入向量,发音人索引表内依次记录第一发音人的第一发音人标识及对应的第一发音人嵌入向量、多个新增发音人的新增发音人标识及对应的第二嵌入向量,第二嵌入向量包括:新增发音人对应的新增发音人嵌入向量和利用新增发音人的第二语音数据对目标声学模型进行自适应训练所得的自适应嵌入向量适配器参数,目标声学模型是将预设的适配器与基于第一发音人的第一语音数据训练所得的基准声学模型结合所得;模型生成模块,用于基于多个所述目标新增发音人的目标嵌入向量确定所述目标声学模型内的目标适配器参数,并将所述目标适配器参数与所述目标声学模型进行重新组合,通过组合后的所述目标声学模型对多个所述目标发音人的语音合成请求进行响应。

12、根据本技术实施例的另一方面,还提供了一种非易失性存储介质,该非易失性存储介质包括存储的计算机程序,其中,非易失性存储介质所在设备通过运行该计算机程序执行上述的可扩展发音人的声学模型实现方法。

13、根据本技术实施例的另一方面,还提供了一种电子设备,该电子设备包括:存储器和处理器,其中,存储器中存储有计算机程序,处理器被配置为通过计算机程序执行上述的可扩展发音人的声学模型实现方法。

14、在本技术实施例中,响应于多个目标新增发音人的语音合成请求,确定语音合成请求中各个目标新增发音人的目标发音人标识;从预设的发音人索引表中确定与目标发音人标识对应的目标新增发音人的目标嵌入向量,其中,目标嵌入向量包括:发音人嵌入向量和自适应嵌入向量,发音人索引表内依次记录第一发音人的第一发音人标识及对应的第一发音人嵌入向量、多个新增发音人的新增发音人标识及对应的第二嵌入向量,第二嵌入向量包括:新增发音人对应的新增发音人嵌入向量和利用新增发音人的第二语音数据对目标声学模型进行自适应训练所得的自适应嵌入向量适配器参数,目标声学模型是将预设的适配器与基于第一发音人的第一语音数据训练所得的基准声学模型结合所得;基于多个所述目标新增发音人的目标嵌入向量确定所述目标声学模型内的目标适配器参数,并将所述目标适配器参数与所述目标声学模型进行重新组合,通过组合后的所述目标声学模型对多个所述目标发音人的语音合成请求进行响应。

15、在本技术实施例中,通过利用新增发音人的语音数据对添加适配器后的目标声学模型进行自适应训练,得到属于该新增发音人独有的层和参数,并以此建立一个发音人索引表,后续再响应多个新增发音人的语音合成请求时,可以依据该新增发音人的发音人标识找到对应的发音人嵌入向量,并将多个新增发音人嵌入向量内的独有层和参数进行组合,得到可以处理各个新增发音人的语音合成请求的多发音人声学模型,从而无需再每次对不同的新增发音人进行语音合成时,均调用该新增发音人独有的那部分层和参数进行推理,从而无需循环操作,提升计算机的推理效率,进而解决了相关声学模型多个发音人批输入语音文本进行语音合成时,通过调用各个发音人的自适应模型参数依次对每个发音人的语音文本进行推理,导致推理处理效率较低技术问题。

本文地址:https://www.jishuxx.com/zhuanli/20240618/22366.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。