技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音合成方法、装置、设备、存储介质和程序产品与流程 > 正文

语音合成方法、装置、设备、存储介质和程序产品与流程

国知局
2024-06-21 11:31:38

本公开实施例涉及语音合成，特别是涉及一种语音合成方法、装置、设备、存储介质和程序产品。

背景技术：

1、语音合成(tts，text-to-speech)技术指的是可以将任意文本转换成语音的技术，目前语音合成技术已广泛应用于语音助手、导航播报等多种场景中。在这多种场景中，一般是通过将语音合成技术构成语音合成系统，并将语音合成系统运行在特定设备上，从而通过语音合成系统实现在语音助手、导航播报等多种场景下的语音输出。

2、语音合成系统一般由文本分析模块、声学模型和声码器三个模块构成。其中，文本分析模块用于将外部传输的文本转化成语言特征并输入至声学模型，声学模型用于将语言特征转化为声学特征(例如一般是mel谱，梅尔谱)并输入至声码器，声码器最终将声学特征转化为语音信号并进行输出。

3、然而，目前语音合成系统中的声码器，其在将声学特征转化为语音信号的过程中所涉及的运算过程较为耗时，从而导致整个语音合成系统的运算效率较低。

技术实现思路

1、本公开实施例提供一种语音合成方法、装置、设备、存储介质和程序产品，可以节省将声学特征转化为语音信号的过程中所涉及的运算过程的时间，提高整个语音合成系统的运算效率。

2、第一方面，本公开实施例提供一种语音合成方法，应用于终端，该方法包括：

3、根据语音文本获取声学特征；

4、将声学特征输入至声码器中进行语音转换处理，获取语音文本对应的语音信号；

5、其中，语音转换处理包括上采样处理，上采样处理包括多个运算过程，且多个运算过程中目标运算过程采用的数据格式的第一精度小于其他运算过程采用的数据格式的第二精度。

6、第二方面，本公开实施例提供一种语音合成方法，应用于服务器，该方法包括：

7、接收终端发送的语音文本；

8、根据语音文本获取声学特征；

9、将声学特征输入至声码器中进行语音转换处理，获取语音文本对应的语音信号；其中，语音转换处理包括上采样处理，上采样处理包括多个运算过程，且多个运算过程中目标运算过程采用的数据格式的第一精度小于其他运算过程采用的数据格式的第二精度；

10、将语音信号发送至终端。

11、第三方面，本公开实施例提供一种语音合成装置，应用于终端，该装置包括：

12、第一确定模块，用于根据语音文本获取声学特征；

13、第一转换模块，用于将声学特征输入至声码器中进行语音转换处理，获取语音文本对应的语音信号；其中，语音转换处理包括上采样处理，上采样处理包括多个运算过程，且多个运算过程中目标运算过程采用的数据格式的第一精度小于其他运算过程采用的数据格式的第二精度。

14、第四方面，本公开实施例提供一种语音合成装置，应用于服务器，该装置包括：

15、接收模块，用于接收终端发送的语音文本；

16、第二确定模块，用于根据语音文本获取声学特征；

17、第二转换模块，用于将声学特征输入至声码器中进行语音转换处理，获取语音文本对应的语音信号；其中，语音转换处理包括上采样处理，上采样处理包括多个运算过程，且多个运算过程中目标运算过程采用的数据格式的第一精度小于其他运算过程采用的数据格式的第二精度；

18、发送模块，用于将语音信号发送至终端。

19、第五方面，本公开实施例提供一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述第一方面的方法。

20、第六方面，本公开实施例提供一种服务器，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述第二方面的方法。

21、第七方面，本公开实施例提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述第一方面和第二方面的方法。

22、第八方面，本公开实施例提供一种计算机程序产品，其包括计算机程序，计算机程序被处理器执行时实现上述第一方面和第二方面的方法。

23、本公开实施例提供的语音合成方法、装置、设备、存储介质和程序产品，通过根据语音文本获取声学特征，并将声学特征输入至声码器中进行语音转换处理，获取语音文本对应的语音信号；其中，语音转换处理包括上采样处理，上采样处理包括多个运算过程，且多个运算过程中的目标运算过程采用的数据格式的第一精度小于其他运算过程采用的数据格式的第二精度。在该方法中，由于在语音转换处理的上采样处理中，可以采用多个不同精度的数据格式执行上采样处理中所涉及的多个运算过程，相比单纯采用高精度的数据格式执行整个上采样处理中所涉及的多个运算过程，在保证最终结果的精度的前提下，该方法夹杂的低精度数据格式的处理过程可以降低上采样处理过程的复杂度，节省上采样处理过程中的耗时，从而可以缩短整个语音转换处理过程的耗时，进而提高整个语音合成系统的运算效率。

技术特征：

1.一种语音合成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述第一精度的数据格式为半精度浮点数，所述第二精度的数据格式为单精度浮点数。

3.根据权利要求1或2所述的方法，其特征在于，所述上采样处理采用单指令多数据流simd进行数据运算。

4.根据权利要求1所述的方法，其特征在于，所述将所述声学特征输入至声码器中进行语音转换处理，获取所述语音文本对应的语音信号，包括：

5.根据权利要求4所述的方法，其特征在于，所述按照所述第二精度的数据格式和所述第一精度的数据格式，对所述预卷积结果循环进行第一预设次数的上采样处理，确定上采样结果，包括：

6.根据权利要求4或5所述的方法，其特征在于，所述第一预设次数的上采样处理过程中每次上采样的采样倍数不相同。

7.根据权利要求5所述的方法，其特征在于，所述采用所述第一精度的数据格式对所述反卷积结果进行残差运算处理，确定初始上采样结果之前，所述方法还包括：

8.根据权利要求5所述的方法，其特征在于，所述采用所述第二精度的数据格式对所述反卷积结果进行残差运算处理，确定初始上采样结果之后，所述方法还包括：

9.根据权利要求5所述的方法，其特征在于，所述采用所述第一精度的数据格式对所述反卷积结果进行残差运算处理，确定初始上采样结果，包括：

10.根据权利要求9所述的方法，其特征在于，所述第二预设次数与所述第一预设次数相同。

11.一种语音合成方法，其特征在于，所述方法包括：

12.一种语音合成装置，其特征在于，所述装置包括：

13.一种语音合成装置，其特征在于，所述装置包括：

14.一种终端，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述的方法的步骤。

15.一种服务器，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求11所述的方法的步骤。

16.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。

17.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。

技术总结本公开实施例涉及一种语音合成方法、装置、设备、存储介质和程序产品。所述方法包括：根据语音文本获取声学特征；将所述声学特征输入至声码器中进行语音转换处理，获取所述语音文本对应的语音信号；其中，所述语音转换处理包括上采样处理，所述上采样处理包括多个运算过程，且所述多个运算过程中目标运算过程采用的数据格式的第一精度小于其他运算过程采用的数据格式的第二精度。采用本方法能够节省将声学特征转化为语音信号的过程中所涉及的运算过程的时间，提高整个语音合成系统的运算效率。技术研发人员：杨梓业,季晓东,张睿雄,龚彩霞受保护的技术使用者：北京嘀嘀无限科技发展有限公司技术研发日：技术公布日：2024/3/4