语音合成方法以及系统、电子设备以及存储介质与流程
- 国知局
- 2024-06-21 11:45:59
本发明涉及计算机,具体而言,涉及一种语音合成方法、一种语音合成系统、一种电子设备以及一种存储介质。
背景技术:
1、语音合成技术是通过机械电子的方法把文本转换成音频的技术,而个性化的语音合成技术则是用户可以定义语音合成音色的合成技术,相关技术如图1所示,首先将发音人表征(音色表征/风格表征)进行复制成与内容表征一样长的维度,然后将发音人表征和内容表征进行直接拼接,从而得到带有音色/风格全局控制信息的内容表征。也就是说,个性化的语音合成要求模型能适应不同音色不同风格的发音人音色建模与合成。目前大多数的多音色模型/零次学习音色建模模型多走大模型路线,通过堆叠更大参数量、更多层数的深度神经网络来达到提升模型容量,建模多样音色变化的效果,然而随之而来的代价是更多的算力成本,以及对推理效率性能的牺牲,模型的实时性大打折扣。
技术实现思路
1、本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。
2、为此,本发明的第一个方面提出了一种语音合成方法。
3、本发明的第二个方面提出了一种语音合成系统。
4、本发明的第三个方面提出了一种电子设备。
5、本发明的第四个方面提出了一种存储介质。
6、本发明的第五个方面提出了一种计算机程序产品。
7、有鉴于此,根据本发明的第一个方面,提出了一种语音合成方法,包括:获取待合成音色的音色表征;根据音色表征确定第一卷积神经网络;根据文本的内容表征和第一卷积神经网络得到第一表征,其中,文本包括待输出的文本内容;根据第一表征和音色表征得到语音信息。
8、本发明提供的语音合成方法,主要包括:首先获取待合成音色的音色表征,该待合成音色的音色表征可以包括特定的发音人的音色或风格表征或者是其他特定的音色表征。获取的方法可以为直接从其他地方获取得到,也可以为对发音人输入的参考音频声学特征经过处理后获取。在获取得到音色表征后,根据确定的音色表征构建第一卷积神经网络,也就是说,第一卷积神经网络为条件动态卷积神经网络,其条件动态由音色表征所控制,使得音色表征与第一卷积神经网络相关联,不同的音色表征会得到不同的第一卷积神经网络。得到第一卷积神经网络后,根据文本的内容表征和第一卷积神经网络得到第一表征,即利用第一卷积神经网络对文本的内容表征进行卷积操作,由于第一卷积神经网络与音色表征相关联,因此在第一卷积神经网络对文本的内容表征进行卷积操作的过程中会将发音人的音色或者风格信息注入到文本的内容表征中,从而得到了第一表征。其中,文本的内容表征指的是模型所想要输出的文本内容,其可以通过对文本进行编码得到。在得到第一表征后,由于第一表征是文本的内容表征进行卷积操作得到,因此还需要将第一表征和音色表征进行结合并进行处理,才能得到最终的语音信息,其中,将第一表征和音色表征进行结合可以为将第一表征和音色表征沿时间轴进行拼接,然后对拼接后的表征进行处理,得到最终的语音信息。通过将第一表征和音色表征进行结合并处理,从而使得音色表征再次注入内容表征中。本发明通过根据发音人的音色表征来构建条件动态卷积神经网络,进而利用条件动态卷积神经网络对文本的内容表征进行卷积操作,从而使得发音人的音色信息注入到内容表征中,达到了在不过多提升模型参数的前提下提升表现力,进而实现了在不大规模增加模型参数的前提下,做到了更高效、更具鲁棒性的音色建模。
9、根据本发明的上述语音合成方法,还可以具有以下技术特征:
10、在一些技术方案中,可选地,根据音色表征确定第一卷积神经网络的步骤,包括:根据音色表征和多层感知器确定第一卷积核参数;根据第一卷积核参数确定第一卷积神经网络。
11、在该技术方案中,根据音色表征确定第一卷积神经网络的步骤,包括:首先需要构建一个多层感知器(multilayer perceptron,mlp),其中,这个多层感知器可以由多个堆叠的线性层结构组成。然后根据音色表征和多层感知器得到第一卷积核参数,其中,将音色表征输入至多层感知器中,多层感知器会对输入的表征进行非线性变换,得到一个更高层次的表征,这个过程是通过学习权重参数实现的,权重参数可以根据训练数据和目标结果进行优化调整,然后在多层感知器中,第一卷积核参数是通过反向传播算法和梯度下降优化算法进行更新的,这些参数会根据输入的音色表征和目标结果进行调整,也就是说,通过在多层感知器中输入音色表征,从而确定出了与音色表征相关联的第一卷积核参数。然后根据得到第一卷积核参数构建第一卷积神经网络。本发明通过利用音色表征确定第一卷积核参数,从而实现了将音色表征与第一卷积核参数进行动态关联,进而根据第一卷积核参数确定第一卷积神经网络,从而使得第一卷积神经网络成为了以音色表征为条件的动态卷积神经网络,从而达到了在不过多提升模型尺寸的前提下提升模型表现力的技术效果。
12、在一些技术方案中,可选地,第一卷积神经网络为条件动态卷积神经网络。
13、在该技术方案中,第一卷积神经网络可以为条件动态卷积神经网络。其条件动态由音色表征所控制,使得音色表征与第一卷积神经网络相关联,不同的音色表征会得到不同的第一卷积神经网络。通过采用条件动态卷积神经网络,从而达到在不过多提升模型尺寸的前提下,提升了模型的表现力。
14、在一些技术方案中,可选地,根据第一表征和音色表征得到语音信息的步骤,包括:根据第一表征和音色表征进行拼接得到第二表征;对第二表征进行时长扩展得到第三表征;根据第三表征和音色表征得到语音信息。
15、在该技术方案中,根据第一表征和音色表征得到语音信息的步骤,包括:首先根据第一表征和音色表征进行拼接得到第二表征,也就是说,首先,将音色表征的长度扩展为第一表征的长度,然后将第一表征和音色扩展后的音色表征进行拼接,从而实现了沿着第一表征的时间轴增加全局音色表征以加强音色控制的技术效果。在得到第二表征后,对第二表征进行时长扩展得到第三表征,即首先使用第二表征对语音信息的时长进行预测,可以通过训练一个时长预测模型实现,时长预测模型可以根据第二表征也就是语音信息的内容估计语音信息的长度,这样就得到了一个与语音信息具有相同时长或相似长度的扩展内容表征即第三表征。最后再根据第三表征和音色表征进行处理,再次增强语音信息中的音色表征,从而得到最终的语音信息。通过将第一表征和音色表征进行拼接,使得音色表征再次注入至内容表征中,同时对得到第二表征进行时长扩展使得得到的语音信息能够保证预设的时长。
16、在一些技术方案中,可选地,对第二表征进行时长扩展得到第三表征的步骤,包括:根据文本的内容表征确定语音信息的长度;根据语音信息的长度预测语音信息的时长;根据语音信息的时长对第二表征进行时长扩展得到第三表征。
17、在该技术方案中,对第二表征进行时长扩展得到第三表征的步骤,包括:首先根据文本的内容表征确定最后输出的语音信息的长度,进而再根据语音信息的长度确定语音信息的时长,即将语音信息输出完毕后所需要的时间,最后再根据语音信息的时长对第二表征进行时长扩展,使得第二表征变成与语音信息具有相同时长或相似长度的扩展内容表征即第三表征。通过对第二表征进行时长扩展得到第三表征,从而保证了语音信息的预设时长。
18、在一些技术方案中,可选地,根据第三表征和音色表征得到语音信息的步骤,包括:根据音色表征确定第二卷积神经网络;根据第三表征和第二卷积神经网络得到第四表征;根据第四表征和音色表征得到语音信息。
19、在该技术方案中,根据第三表征和音色表征得到语音信息的步骤,包括:首先根据音色表征确定第二卷积神经网络,其中,第二卷积神经网络与第一卷积神经网络可以相同也可以不同,也就是说,在得到第三表征后,需要再进行一次音色特征注入,在这次的注入过程中,音色特征通过多层感知器得到的卷积核参数可以与第一卷积核参数相同也可以不同,其决定性因素为使用的多层感知器的参数。在得到第二卷积神经网络后,将之前得到的第三表征输入至第二卷积神经网络中,从而得到第四表征,进而根据第四表征和音色表征得到最终的语音信息,其中,可以为先将第四表征和音色表征进行拼接,其拼接方法与第一表征和音色表征进行拼接的方法相同。在拼接后会得到一个再次加强的风格控制的内容表征,然后对该内容表征进行解码得出最终的声学特征,在通过声码器从而得到了最终的合成后的语音信息。通过对第三表征再次进行音色特征注入,从而加强了语音信息中的音色特征。
20、根据本发明的第二个方面,提出了一种语音合成系统,包括:第一获取模块,第一获取模块用于获取待合成音色的音色表征;第一确定模块,第一确定模块用于根据音色表征确定第一卷积神经网络;第一处理模块,第一处理模块用于根据文本的内容表征和第一卷积神经网络得到第一表征;第二处理模块,第二处理模块用于根据第一表征和音色表征得到语音信息。
21、本发明提供的语音合成系统具体包括:第一获取模块、第一确定模块、第一处理模块、第二处理模块。其中,首先第一获取模块获取待合成音色的音色表征,该待合成音色的音色表征可以包括特定的发音人的音色或风格表征或者是其他特定的音色表征。获取的方法可以为直接从其他地方获取得到,也可以为对发音人输入的参考音频声学特征经过处理后获取。在获取得到音色表征后,第一确定模块根据确定的音色表征构建第一卷积神经网络,也就是说,第一卷积神经网络为条件动态卷积神经网络,其条件动态由音色表征所控制,使得音色表征与第一卷积神经网络相关联,不同的音色表征会得到不同的第一卷积神经网络。得到第一卷积神经网络后,第一处理模块根据文本的内容表征和第一卷积神经网络得到第一表征,即利用第一卷积神经网络对文本的内容表征进行卷积操作,由于第一卷积神经网络与音色表征相关联,因此在第一卷积神经网络对文本的内容表征进行卷积操作的过程中会将发音人的音色或者风格信息注入到文本的内容表征中,从而得到了第一表征。其中,文本的内容表征指的是模型所想要输出的文本内容,其可以通过对文本进行编码得到。在得到第一表征后,由于第一表征是文本的内容表征进行卷积操作得到,因此第二处理模块还需要将第一表征和音色表征进行结合并进行处理,才能得到最终的语音信息,其中,将第一表征和音色表征进行结合可以为将第一表征和音色表征沿时间轴进行拼接,然后对拼接后的表征进行处理,得到最终的语音信息。通过将第一表征和音色表征进行结合并处理,从而使得音色表征再次注入内容表征中。本发明通过根据发音人的音色表征来构建条件动态卷积神经网络,进而利用条件动态卷积神经网络对文本的内容表征进行卷积操作,从而使得发音人的音色信息注入到内容表征中,达到了在不过多提升模型参数的前提下提升表现力,进而实现了在不大规模增加模型参数的前提下,做到了更高效、更具鲁棒性的音色建模。
22、根据本发明的第三个方面,提出了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上述任一项的语音合成方法的步骤。
23、本发明提供的电子设备,处理器执行计算机程序时实现上述语音合成方法的步骤,能够实现上述任一技术方案的技术效果,在此不再赘述。
24、根据本发明的第四个方面,提出了一种存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上述任一项的语音合成方法的步骤。
25、本发明提供的存储介质,计算机程序被处理器执行时实现上述语音合成方法的步骤,能够实现上述任一技术方案的技术效果,在此不再赘述。
26、根据本发明的第五个方面,提出了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如上述任一技术方案中的语音合成方法的步骤。
27、本技术方案提供的计算机程序产品实现如本发明任一技术方案的语音合成方法的步骤,因而其具有如本发明任一技术方案的语音合成方法的全部有益效果,在此不再赘述。
28、本发明的附加方面和优点将在下面的描述部分中变得明显,或通过本发明的实践了解到。
本文地址:https://www.jishuxx.com/zhuanli/20240618/23421.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表