技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音转换方法、装置、设备、存储介质和程序产品与流程 > 正文

语音转换方法、装置、设备、存储介质和程序产品与流程

国知局
2024-06-21 11:54:28

本公开涉及语音合成和金融领域，更具体地涉及一种语音转换方法、装置、设备、存储介质和程序产品。

背景技术：

1、语音合成技术发展迅速，广泛应用于手机导航、电话机器人等场景，是语音交互的重要模块。人类语音中包含了大量文本之外的信息，如韵律、情感、风格等，语音合成结果在清晰、正确表达出文字信息的同时，表达出文字所代表的情感也是提高人机交互体验的重要指标。

2、但现有的语音合成技术，难以满足用户需要的情感。无监督方法相对来说缺乏可解释性和可控性，而半监督情绪控制方法对数据依赖程度高，需要额外的注释，缺乏可解释行和可控性，实用性较差，在表达性语音合成过程中没有实现风格控制且难以保持音质和音色的稳定。

技术实现思路

1、鉴于上述问题，本公开提供了一种语音转换方法、装置、设备、存储介质和程序产品

2、根据本公开的第一个方面，提供了一种语音转换方法，包括：获取待转换文本；将待转换文本输入至上下文融合模型，输出包含有上下文信息的目标编码向量；利用语音风格处理模型处理目标编码向量，得到嵌入风格向量，其中，目标语音转换模型包括上下文融合模型和语音风格处理模型；根据目标编码向量和嵌入风格向量，生成带有语音风格的目标输出语音，其中，语音风格表征目标输出语音的情感变化特征。

3、根据本公开的实施例，将待转换文本输入至上下文融合模型，输出包含有上下文信息的目标编码向量，包括：将待转换文本输入至深度双向语言模型，输出包含上下文信息的上下文向量；将待转换文本输入至文本编码器，输出初始编码向量，其中，上下文融合模型包括深度双向语言模型和文本编码器；根据上下文向量和初始编码向量，生成目标编码向量。

4、根据本公开的实施例，利用语音风格处理模型处理目标编码向量，得到嵌入风格向量，包括：利用时长预测模块处理目标编码向量，得到第一语音向量，其中，第一语音向量表征音素持续时长；利用音高预测模块处理第一语音向量，得到第二语音向量，其中，第二语音向量表征语音的能量强度；利用解码器对第一语音向量、第二语音向量和嵌入向量进行归一化处理，得到解码向量，其中，嵌入向量表征模仿者的语音风格；利用风格提取模型处理解码向量，得到嵌入风格向量。

5、根据本公开的实施例，利用时长预测模块处理目标编码向量，得到第一语音向量，包括：利用持续时间预测器处理目标编码向量，得到预测时长向量，其中，持续时间预测器是利用多个时长向量样本和与时长向量样本对应的时长向量标签训练得到的；利用长度调节器处理预测时长向量，得到音素长度向量；根据预测时长向量和音素长度向量，生成第一语音向量。

6、根据本公开的实施例，利用音高预测模块处理第一语音向量，得到第二语音向量，包括：利用音高预测器处理第一语音向量，得到预测音高向量；利用能量预测器处理预测音高向量，得到语音能量向量；根据预测音高向量和语音能量向量，生成第二语音向量。

7、根据本公开的实施例，利用解码器对第一语音向量、第二语音向量和嵌入向量进行归一化处理，得到解码向量，包括：

8、利用条件归一化层处理第一语音向量、第二语音向量和嵌入向量，得到解码向量。

9、根据本公开的实施例，利用风格提取模型处理解码向量，得到嵌入风格向量，包括：利用transformer模型处理解码向量，得到预测梅尔频谱；利用风格提取器处理预测梅尔频谱，得到嵌入风格向量，其中，风格提取器是利用多个梅尔频谱样本和与梅尔频谱样本对应的梅尔频谱标签训练得到的。

10、根据本公开的实施例，根据目标编码向量和嵌入风格向量，生成带有语音风格的目标输出语音，包括：根据目标编码向量和嵌入风格向量，生成语音融合向量；利用语音解码器处理语音融合向量，得到目标输出语音。

11、本公开的第二方面提供了一种语音转换装置，包括：

12、文本获取模块，用于获取待转换文本；

13、目标编码输出模块，用于将待转换文本输入至上下文融合模型，输出包含有上下文信息的目标编码向量；

14、嵌入风格得到模块，用于利用语音风格处理模型处理目标编码向量，得到嵌入风格向量，其中，目标语音转换模型包括上下文融合模型和语音风格处理模型；以及

15、目标语音生成模块，用于根据目标编码向量和嵌入风格向量，生成带有语音风格的目标输出语音，其中，语音风格表征目标输出语音的情感变化特征。

16、本公开的第三方面提供了一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得个或多个处理器执行上述方法。

17、本公开的第四方面还提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行上述方法。

18、本公开的第五方面还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述方法。

19、根据本公开的实施例，通过利用语音风格处理模型对文本的目标编码向量进行处理，则可以预测该文本可以嵌入在语音中的语音风格(即嵌入风格向量)，由于目标编码向量是考虑全局上下文信息，因此在将嵌入风格向量和目标编码向量进行结合以后能够得到情感较为丰富的目标输出语音。

技术特征：

1.一种语音转换方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，将所述待转换文本输入至上下文融合模型，输出包含有上下文信息的目标编码向量，包括：

3.根据权利要求1所述的方法，其特征在于，利用语音风格处理模型处理所述目标编码向量，得到嵌入风格向量，包括：

4.根据权利要求3所述的方法，其特征在于，利用时长预测模块处理所述目标编码向量，得到第一语音向量，包括：

5.根据权利要求3或4所述的方法，其特征在于，利用音高预测模块处理所述第一语音向量，得到第二语音向量，包括：

6.根据权利要求3所述的方法，其特征在于，利用解码器对所述第一语音向量、所述第二语音向量和嵌入向量进行归一化处理，得到解码向量，包括：

7.根据权利要求3或4所述的方法，其特征在于，利用风格提取模型处理所述解码向量，得到所述嵌入风格向量，包括：

8.根据权利要求1所述的方法，其特征在于，根据所述目标编码向量和所述嵌入风格向量，生成带有语音风格的目标输出语音，包括：

9.一种语音转换装置，其特征在于，所述装置包括：

10.一种电子设备，包括：

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现根据权利要求1～8中任一项所述方法的步骤。

12.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现根据权利要求1～8中任一项所述方法的步骤。

技术总结本公开提供了一种语音转换方法、装置、设备、存储介质和程序产品，可以应用于语音合成技术领域和金融领域。该方法包括：获取待转换文本；将待转换文本输入至上下文融合模型，输出包含有上下文信息的目标编码向量；利用语音风格处理模型处理目标编码向量，得到嵌入风格向量，其中，目标语音转换模型包括上下文融合模型和语音风格处理模型；根据目标编码向量和嵌入风格向量，生成带有语音风格的目标输出语音，其中，语音风格表征目标输出语音的情感变化特征。技术研发人员：杨卓勋,施耀一,张赵晨子受保护的技术使用者：中国工商银行股份有限公司技术研发日：技术公布日：2024/5/29