技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音合成方法、装置、计算机设备和存储介质与流程 > 正文

语音合成方法、装置、计算机设备和存储介质与流程

国知局
2024-06-21 11:46:42

本技术涉及人工智能，特别是涉及一种语音合成方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术：

1、富有表现力的语音合成系统是目前语音合成领域中比较活跃的方向，它和单纯的语音合成系统的区别是，它更关注合成声音的风格、情感、韵律等等，在金融领域的自动客服中应用广泛。

2、经过韵律特征调整的拼接波形语音合成系统，在拼接语音波形片段之前，可以根据上下文的要求，方便地控制语音信号的韵律参数，对拼接单元的韵律特征进行调整，使合成波形既保持了原始发音的主要音段特征，又能使拼接单元的韵律特征符合上下文的要求，从而获得与传统未经过韵律特征调整的拼接波形语音合成系统相比更高的清晰度和自然度。

3、然而经过韵律特征调整的拼接波形语音合成系统也有明显的缺点，该方案一般只选取一个男性或女性说话人的情感语料来构建音库，导致当前使用的录音数据库所涵盖的语音单元组合较少，导致合成的语音特性比较单一，降低了语音合成的质量。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种能够提升语音合成质量的语音合成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

2、第一方面，本技术提供了一种语音合成方法。所述方法包括：

3、获取语音库问题集；所述语音库问题集包括对象账户在进行业务办理过程输入的询问类型的语音对应的文本信息的集合；

4、基于所述语音库问题集、目标标注文件和声学参数提取结果，对单音素模型进行训练，得到语音合成模型库；所述声学参数提取结果包括针对训练语音数据库进行声学参数提取处理后的提取结果；所述语音合成模型库包括训练好的各所述单音素模型；

5、根据所述语音合成模型库合成得到与待合成语音文本对应的目标语音音频。

6、在其中一个实施例中，所述对单音素模型进行训练，得到语音合成模型库，包括：

7、利用所述声学参数提取结果和所述目标标注文件构建得到所述单音素模型；

8、在语音库问题集的指导下，利用决策树对所述单音素模型进行聚类，得到所述语音合成模型库。

9、在其中一个实施例中，所述利用所述声学参数提取结果和所述目标标注文件构建得到所述单音素模型，包括：

10、根据频谱参数和基频参数建立语境模型；

11、基于所述语境模型，使用多空间概率分布作为模型的状态输出概率分布，使用高斯分布或者伽马分布建立状态时长模型来描述语音的时间结构，得到所述单音素模型。

12、在其中一个实施例中，所述根据所述语音合成模型库合成得到与待合成语音文本对应的目标语音音频，包括：

13、根据所述目标标注文件中的上下文标注文件，利用决策树从所述语音合成模型库的各所述单音素模型筛选出目标模型，并将筛选出所述目标模型拼接生成语句模型；

14、根据所述语句模型确定与所述待合成语音文本对应的所述目标语音音频。

15、在其中一个实施例中，所述根据所述语句模型确定与所述待合成语音文本对应的所述目标语音音频，包括：

16、根据所述语句模型生成所述待合成语音文本的频谱参数序列和基频参数序列；

17、将所述频谱参数序列和所述基频参数序列作为所述待合成语音文本的目标声学参数；

18、采用语音信号合成算法将所述目标声学参数合成为所述待合成语音文本对应的所述目标语音音频。

19、在其中一个实施例中，所述方法还包括：

20、获取所述训练语音数据库；所述训练语音数据库包括用于对所述单音素模型进行训练的数据库；

21、对所述训练语音数据库进行声学参数提取，得到所述声学参数提取结果。

22、在其中一个实施例中，所述方法还包括：

23、获取文本语料信息；文本语料信息表征与所述训练语音数据库中的语音对应的文本语料；

24、对所述文本语料信息进行文本分析，得到单音素标注文件和上下文标注文件；

25、将所述单音素标注文件和所述上下文标注文件作为所述目标标注文件。

26、第二方面，本技术还提供了一种语音合成装置。所述装置包括：

27、问题集获取模块，用于获取语音库问题集；所述语音库问题集包括对象账户在进行业务办理过程输入的询问类型的语音对应的文本信息的集合；

28、模型训练模块，用于基于所述语音库问题集、目标标注文件和声学参数提取结果，对单音素模型进行训练，得到语音合成模型库；所述声学参数提取结果包括针对训练语音数据库进行声学参数提取处理后的提取结果；所述语音合成模型库包括训练好的各所述单音素模型；

29、语音合成模块，用于根据所述语音合成模型库合成得到与待合成语音文本对应的目标语音音频。

30、第三方面，本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

31、获取语音库问题集；所述语音库问题集包括对象账户在进行业务办理过程输入的询问类型的语音对应的文本信息的集合；

32、基于所述语音库问题集、目标标注文件和声学参数提取结果，对单音素模型进行训练，得到语音合成模型库；所述声学参数提取结果包括针对训练语音数据库进行声学参数提取处理后的提取结果；所述语音合成模型库包括训练好的各所述单音素模型；

33、根据所述语音合成模型库合成得到与待合成语音文本对应的目标语音音频。

34、第四方面，本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

35、获取语音库问题集；所述语音库问题集包括对象账户在进行业务办理过程输入的询问类型的语音对应的文本信息的集合；

36、基于所述语音库问题集、目标标注文件和声学参数提取结果，对单音素模型进行训练，得到语音合成模型库；所述声学参数提取结果包括针对训练语音数据库进行声学参数提取处理后的提取结果；所述语音合成模型库包括训练好的各所述单音素模型；

37、根据所述语音合成模型库合成得到与待合成语音文本对应的目标语音音频。

38、第五方面，本技术还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

39、获取语音库问题集；所述语音库问题集包括对象账户在进行业务办理过程输入的询问类型的语音对应的文本信息的集合；

40、基于所述语音库问题集、目标标注文件和声学参数提取结果，对单音素模型进行训练，得到语音合成模型库；所述声学参数提取结果包括针对训练语音数据库进行声学参数提取处理后的提取结果；所述语音合成模型库包括训练好的各所述单音素模型；

41、根据所述语音合成模型库合成得到与待合成语音文本对应的目标语音音频。

42、上述语音合成方法、装置、计算机设备、存储介质和计算机程序产品，首先获取语音库问题集，然后基于语音库问题集、目标标注文件和声学参数提取结果，对单音素模型进行训练，得到语音合成模型库，最后根据语音合成模型库合成得到与待合成语音文本对应的目标语音音频，根据语境信息设计一套决策树聚类所需的问题集，扩充了使用的录音数据库所涵盖的语音单元组合，避免了合成的语音特性单一的问题，提升了语音合成的质量。