技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音合成方法、装置、系统及存储介质与流程 > 正文

语音合成方法、装置、系统及存储介质与流程

国知局
2024-06-21 11:39:55

本技术的实施方式涉及数据处理，更具体地，本技术的实施方式涉及一种语音合成方法、装置、系统及存储介质。

背景技术：

1、本部分旨在为权利要求书中陈述的本技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

2、语音合成，又称文语转换(text to speech，简称tts)，是一种将文本转为语音的技术，该技术的实现主要包括前处理、音频合成和后处理，前处理和后处理主要是逻辑运算一般运行在服务器的中央处理器(central processing unit，简称cpu)端，而音频合成需要大量的计算，通常运行在服务器的图形处理器(graphics processing unit，简称gpu)端。

3、其中，后处理的音频压缩算法最为耗时，约占整个语音合成服务流程的70％，从而导致cpu满负荷运行而gpu利用率低，造成服务资源的浪费。

技术实现思路

1、为此，非常需要一种改进的方法，以解决现有技术中如何提高gpu利用率的技术问题。

2、在本上下文中，本技术的实施方式期望提供一种语音合成方法、装置、系统及存储介质。

3、在本技术实施方式的第一方面中，提供了一种语音合成方法，所述方法包括：

4、获取目标文本的语音合成请求；其中，所述语音合成请求用于指示对所述目标文本分别进行前处理服务、音频合成服务和后处理服务；所述前处理服务用于将所述目标文本转换为目标音素，所述音频合成服务用于将所述目标音素合成为目标合成音频，所述后处理服务用于将所述目标合成音频转换为目标语音；

5、从预设的前处理服务器中确定当前空闲的第一目标cpu，并在所述第一目标cpu运行所述前处理服务；其中，所述前处理服务器包括至少一个cpu；

6、在所述前处理服务完成的情况下，从预设的音频合成服务器中确定当前空闲的第一目标gpu，并在所述第一目标gpu运行所述音频合成服务；其中，所述音频合成服务器包括至少一个gpu；

7、在所述音频合成服务完成的情况下，从预设的后处理服务器中确定当前空闲的第二目标cpu，并在所述第二目标cpu运行所述后处理服务，以得到所述目标文本对应的所述目标语音；其中，所述后处理服务器包括至少两个cpu。

8、在本技术的一个实施例中，从预设的音频合成服务器中确定当前空闲的第一目标gpu，并在所述第一目标gpu运行所述音频合成服务，包括：

9、获取所述音频合成服务包括的m个目标音色；

10、从预设的音频合成服务器中确定当前空闲的gpu集合；其中，所述gpu集合至少包括m个目标gpu；

11、分别为每一个所述目标音色配置一个所述目标gpu，并在所述目标gpu中对所述目标音色进行音频合成。

12、在本技术的另一实施例中，在所述第一目标cpu运行所述前处理服务，包括：

13、在所述第一目标cpu对所述目标文本进行文本正则和字音转换处理，得到所述目标文本对应的所述目标音素。

14、在本技术的又一个实施例中，在所述第一目标gpu运行所述音频合成服务，包括：

15、在所述第一目标gpu基于深度学习神经网络对所述目标音素进行合成，得到所述目标合成音频。

16、在本技术的再一个实施例中，在所述第二目标cpu运行所述后处理服务，包括：

17、在所述第二目标cpu对所述目标合成音频进行音频后处理，得到所述目标语音；其中，所述音频后处理至少包括调节声速、调节声调和音频压缩中的一种。

18、在本技术的再一个实施例中，从预设的前处理服务器中确定当前空闲的第一目标cpu之前，所述方法还包括：

19、配置所述前处理服务器、所述音频合成服务器和所述后处理服务器；其中，所述前处理服务器用于处理所述前处理服务，所述音频合成服务器用于处理所述音频合成服务，所述后处理服务器用于处理所述后处理服务。

20、在本技术实施方式的第二方面中，提供了一种语音合成装置，所述装置包括：

21、获取模块，用于获取目标文本的语音合成请求；其中，所述语音合成请求用于指示对所述目标文本分别进行前处理服务、音频合成服务和后处理服务；所述前处理服务用于将所述目标文本转换为目标音素，所述音频合成服务用于将所述目标音素合成为目标合成音频，所述后处理服务用于将所述目标合成音频转换为目标语音；

22、第一确定模块，用于从预设的前处理服务器中确定当前空闲的第一目标cpu，并在所述第一目标cpu运行所述前处理服务；其中，所述前处理服务器包括至少一个cpu；

23、第二确定模块，用于在所述前处理服务完成的情况下，从预设的音频合成服务器中确定当前空闲的第一目标gpu，并在所述第一目标gpu运行所述音频合成服务；其中，所述音频合成服务器包括至少一个gpu；

24、第三确定模块，用于在所述音频合成服务完成的情况下，从预设的后处理服务器中确定当前空闲的第二目标cpu，并在所述第二目标cpu运行所述后处理服务，以得到所述目标文本对应的所述目标语音；其中，所述后处理服务器包括至少两个cpu。

25、在本技术实施方式的第三方面中，提供了一种语音合成系统，所述系统包括：前处理服务器、音频合成服务器和后处理服务器；其中，所述前处理服务器包括至少一个cpu；所述音频合成服务器包括至少一个gpu；所述后处理服务器包括至少两个cpu；

26、所述前处理服务器用于获取目标文本的语音合成请求；其中，所述语音合成请求用于指示对所述目标文本分别进行前处理服务、音频合成服务和后处理服务；所述前处理服务用于将所述目标文本转换为目标音素，所述音频合成服务用于将所述目标音素合成为目标合成音频，所述后处理服务用于将所述目标合成音频转换为目标语音；确定当前空闲的第一目标cpu，并在所述第一目标cpu运行所述前处理服务；

27、所述音频合成服务器用于在所述前处理服务完成的情况下，确定当前空闲的第一目标gpu，并在所述第一目标gpu运行所述音频合成服务；

28、所述后处理服务器用于在所述音频合成服务完成的情况下，确定当前空闲的第二目标cpu，并在所述第二目标cpu运行所述后处理服务，以得到所述目标文本对应的所述目标语音。

29、在本技术实施方式的第四方面中，提供了一种电子装置，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

30、存储器，用于存放计算机程序；

31、处理器，用于执行存储器上所存放的程序时，实现第一方面任一项实施例所述的语音合成方法的步骤。

32、在本技术实施方式的第五方面中，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项实施例所述的语音合成方法的步骤。

33、根据本技术实施方式的语音合成方法，获取目标文本的语音合成请求；其中，所述语音合成请求用于指示对所述目标文本分别进行前处理服务、音频合成服务和后处理服务；所述前处理服务用于将所述目标文本转换为目标音素，所述音频合成服务用于将所述目标音素合成为目标合成音频，所述后处理服务用于将所述目标合成音频转换为目标语音；从预设的前处理服务器中确定当前空闲的第一目标cpu，并在所述第一目标cpu运行所述前处理服务；其中，所述前处理服务器包括至少一个cpu；在所述前处理服务完成的情况下，从预设的音频合成服务器中确定当前空闲的第一目标gpu，并在所述第一目标gpu运行所述音频合成服务；其中，所述音频合成服务器包括至少一个gpu；在所述音频合成服务完成的情况下，从预设的后处理服务器中确定当前空闲的第二目标cpu，并在所述第二目标cpu运行所述后处理服务，以得到所述目标文本对应的所述目标语音；其中，所述后处理服务器包括至少两个cpu。该方法，将前处理服务在前处理服务器中处理，将音频合成服务在音频合成服务器中处理，将后处理服务在后处理服务器中处理，每一个处理步骤中都是从对应的服务器中选择空闲的cpu或gpu处理，可以避免等待时间，提高了gpu的利用率。