技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音合成方法、装置、电子设备及计算机可读存储介质与流程 > 正文

语音合成方法、装置、电子设备及计算机可读存储介质与流程

国知局
2024-06-21 11:28:45

本技术涉及语音合成，具体涉及一种语音合成方法、装置、电子设备及计算机可读存储介质。

背景技术：

1、语音合成是可以将文本信息转换为逼真的语音信息的技术。随着人工智能的不断发展，语音合成技术取得了很大的突破，合成语音的自然度已经能与真实语音相媲美。然而，现有的语音合成技术合成的语音比较机械，不带感情，以致自然度和适用性较差。

技术实现思路

1、本技术实施例公开一种语音合成方法、装置、电子设备及计算机可读存储介质，用于提高合成语音的自然度和适用性。

2、第一方面，本技术实施例公开了一种语音合成方法，包括：

3、获取目标文本信息；

4、使用第一大语言模型识别所述目标文本信息中的情感，得到目标情感信息，所述目标情感信息包括一个或多个情感信息，所述多个情感信息包括不同级别的情感信息；

5、根据所述目标文本信息和所述目标情感信息，使用第一语音合成模型合成语音得到目标语音信息。

6、第二方面，本技术实施例公开了一种语音合成装置，包括：

7、获取单元，用于获取目标文本信息；

8、识别单元，用于使用第一大语言模型识别所述目标文本信息中的情感，得到目标情感信息，所述目标情感信息包括一个或多个情感信息，所述多个情感信息包括不同级别的情感信息；

9、合成单元，用于根据所述目标文本信息和所述目标情感信息，使用第一语音合成模型合成语音，得到目标语音信息。

10、作为一种可能的实施方式，所述目标情感信息还包括一个或多个情感强度以及所述一个或多个情感信息与所述目标文本信息中对应文本内容之间的对应关系，所述一个或多个情感信息与所述一个或多个情感强度一一对应。

11、作为一种可能的实施方式，所述获取单元，还用于获取包括多个训练文本信息的训练数据；

12、所述识别单元，还用于使用所述第一大语言模型识别第一训练文本信息中的情感，得到第一训练情感信息，所述第一训练文本信息为所述多个训练文本信息中任一训练文本信息；

13、所述装置还包括：

14、第一确定单元，用于使用语音识别模型确定所述第一训练文本信息对应第一语音信息中每帧语音信息对应的文本内容；

15、所述第一确定单元，还用于根据所述第一训练情感信息以及所述每帧语音信息对应的文本内容，确定所述每帧语音信息对应的情感信息；

16、训练单元，用于根据所述第一训练文本信息、所述第一训练情感信息和所述每帧语音信息对应的情感信息，对初始语音合成模型进行训练，得到所述第一语音合成模型。

17、作为一种可能的实施方式，所述训练单元具体用于：

18、根据所述第一训练文本信息和所述第一训练情感信息使用所述语音合成模块合成第二语音信息；

19、根据所述每帧语音信息对应的情感信息，使用所述情感辨别器辨别所述第二语音信息和所述每帧语音信息中对应帧语音信息对应的情感是否相同；

20、根据所述情感辨别器的辨别结果优化所述初始语音合成模型的参数，得到所述第一语音合成模型。

21、作为一种可能的实施方式，所述获取单元，还用于获取用户反馈结果，所述用户反馈结果包括多个用户对所述第一语音合成模型合成的语音的反馈结果；

22、所述装置还包括：

23、第一优化单元，用于根据所述用户反馈结果对所述第一大语言模型的参数进行优化，得到第二大语言模型；

24、所述第一优化单元，还用于根据所述用户反馈结果对所述第一语音合成模型的参数进行优化，得到第二语音合成模型；

25、所述识别单元使用第一大语言模型识别所述目标文本信息中的情感，得到目标情感信息包括：

26、使用所述第二大语言模型识别所述目标文本信息中的情感，得到目标情感信息；

27、所述合成单元根据所述目标文本信息和所述目标情感信息，使用第一语音合成模型合成语音得到目标语音信息包括：

28、根据所述目标文本信息和所述目标情感信息，使用所述第二语音合成模型合成语音，得到目标语音信息。

29、作为一种可能的实施方式，所述获取单元，还用于获取多个待合成文本信息；

30、所述识别单元，还用于使用所述第一大语言模型识别第一待合成文本信息中的情感，得到第一情感信息，所述第一待合成文本信息为所述多个待合成文本信息中的任一待合成文本信息；

31、所述合成单元，还用于根据所述第一待合成文本信息和所述第一情感信息，使用所述第一语音合成模型合成语音，得到第一语音列表，所述第一语音列表包括多个语音信息，所述多个语音信息按照与所述第一情感信息的匹配度从高到低进行排序；

32、所述装置还包括：

33、排序单元，用于对所述多个语音信息按照所述多个用户对所述多个语音信息的打分结果从高到低的顺序进行排序，得到第二语音列表；

34、第二确定单元，用于根据所述多个待合成文本信息、所述第一情感信息和所述第二语音列表，确定所述用户反馈结果。

35、作为一种可能的实施方式，所述装置还包括：

36、建立单元，用于建立包括多个用户资料的用户资料库，第一用户资料包括第一用户对所述第一语音合成模型合成语音的打分结果，所述第一用户资料为所述多个用户资料中的任一用户资料；

37、所述获取单元，用于在所述第一用户需要合成语音的情况下，从所述用户资料库中获取所述第一用户资料；

38、第二优化单元，用于使用所述第一用户资料优化所述第一大语言模型，得到第三大语言模型；

39、所述第二优化单元，还用于使用所述第一用户资料优化所述第一语音合成模型，得到第三语音合成模型；

40、所述识别单元使用第一大语言模型识别所述目标文本信息中的情感，得到目标情感信息包括：

41、使用所述第三大语言模型识别所述目标文本信息中的情感，得到目标情感信息；

42、所述合成单元根据所述目标文本信息和所述目标情感信息使用第一语音合成模型合成语音，得到目标语音信息包括：

43、根据所述目标文本信息和所述目标情感信息使用所述第三语音合成模型合成语音，得到目标语音信息。

44、作为一种可能的实施方式，所述获取单元，还用于获取第一文本信息；

45、所述识别单元，还用于使用所述第一大语言模型识别所述第一文本信息中的情感，得到第二情感信息；

46、所述合成单元，还用于根据所述第一文本信息和所述第二情感信息，使用所述第一语音合成模型合成语音，得到第三语音信息；

47、所述获取单元，还用于获取所述第一用户对所述第三语音信息的打分结果；

48、所述装置还包括：

49、第三确定单元，用于根据所述第一文本信息、所述第二情感信息、所述第三语音信息和所述打分结果，确定所述第一用户资料。

50、第三方面，本技术实施例公开了一种电子设备，包括处理器和存储器，所述处理器调用所述存储器中存储的计算机程序执行第一方面公开的方法。

51、第四方面，本技术实施例公开了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序或计算机指令，当该计算机程序或计算机指令被处理器运行时，实现如上述第一方面公开的方法。

52、第五方面，本技术实施例公开了一种计算机程序产品，该计算机程序产品包括计算机程序代码，当该计算机程序代码被处理器运行时，使得上述方法被执行。

53、本技术实施例中，获取目标文本信息；使用第一大语言模型识别目标文本信息中的情感得到目标情感信息，目标情感信息包括一个或多个情感信息，多个情感信息包括不同级别的情感信息；根据目标文本信息和目标情感信息，使用第一语音合成模型合成语音得到目标语音信息。可见，在合成语音的时候，使用了文本信息对应的情感信息，可以使合成的语音信息带有相应的感情，降低了合成的语音信息的机械性，从而可以提高合成语音的自然度和适用性。