技术新讯 > 乐器声学设备的制造及制作,分析技术 > 流式语音合成方法、装置、电子设备和存储介质与流程 > 正文

流式语音合成方法、装置、电子设备和存储介质与流程

国知局
2024-06-21 10:38:25

本发明涉及信息处理，尤其涉及一种流式语音合成方法、装置、电子设备和存储介质。

背景技术：

1、随着深度神经网络在语音合成领域的成功应用，语音合成技术近年来取得了巨大的突破，并在各领域取得了广泛的应用。

2、现有技术中，语音合成一般包括文本前端、声学模型和声码器三个主要模块，其中声学模型又包括编码器和解码器两个主要模块。流式语音合成一般是指将扩展成帧级的编码器输出特征流式的依次送入解码器和声码器得到对应的语音输出。目前的流式语音合成一般通过将编码器输出特征划分为固定尺寸的块，依次送入解码器和声码器进行语音合成。但是，分块较大将会直接增加首帧时延，降低系统反应速度；分块较小将会降低整体推理速度并影响合成效果。因此分块方法往往难以平衡，不可避免的会影响用户的感知体验。

技术实现思路

1、本发明提供了一种流式语音合成方法、装置、电子设备和存储介质，以解决因固定分块尺寸而导致的首帧时延与整体推理速度及合成效果无法兼顾的问题，实现了在不影响首帧时延的情况下，提高整体推理速度并提高合成效果，从而改善用户的感知体验。

2、根据本发明的一方面，提供了一种流式语音合成方法，应用于语音合成模型，该方法包括：

3、确定当前次处理周期使用的当前尺寸信息，并基于所述当前尺寸信息确定当前特征块，所述当前特征块是由从当前输入特征中截取所述当前尺寸信息的特征组成，截取后剩余的当前输入特征为当前剩余特征，所述当前尺寸信息为应从当前输入特征中截取特征的帧数，所述输入特征为将待合成文本信息进行编码并按照音素时长信息扩展为帧级所得到的特征，所述音素时长信息为一个音素对应语音音频中的帧数；

4、对所述当前特征块进行语音合成推理，输出所述当前特征块对应的当前语音音频，并确定当前推理消耗时间；

5、基于所述当前尺寸信息确定所述当前特征块的当前时长信息，并基于所述当前推理消耗时间和所述当前时长信息确定所述语音合成模型的当前实时率，所述当前时长信息为当前特征块对应输出的语音音频的时长信息；

6、基于所述当前尺寸信息和所述当前实时率确定下一尺寸信息，以供进入下一次处理周期加载使用；

7、当所述下一尺寸信息大于或等于所述当前剩余特征的帧数，则将所述当前剩余特征全部送入所述语音合成模块进行推理得到当前剩余特征对应的剩余语音音频，否则将所述当前剩余特征作为当前输入特征，所述下一尺寸信息作为当前尺寸信息并重复前述步骤。

8、根据本发明的另一方面，提供了一种流式语音合成装置，应用于语音合成模型，该装置包括：

9、特征块确定模块，用于确定当前次处理周期使用的当前尺寸信息，并基于所述当前尺寸信息确定当前特征块，所述当前特征块是由从当前输入特征中截取所述当前尺寸信息的特征组成，截取后剩余的当前输入特征为当前剩余特征，所述当前尺寸信息为应从当前输入特征中截取特征的帧数，所述输入特征为将待合成文本信息进行编码并按照音素时长信息扩展为帧级所得到的特征，所述音素时长信息为一个音素对应语音音频中的帧数；

10、时间确定模块，用于对所述当前特征块进行语音合成推理，输出所述当前特征块对应的当前语音音频，并确定当前推理消耗时间；

11、第一信息确定模块，用于基于所述当前尺寸信息确定所述当前特征块的当前时长信息，并基于所述当前推理消耗时间和所述当前时长信息确定所述语音合成模型的当前实时率，所述当前时长信息为当前特征块对应输出的语音音频的时长信息；

12、第二信息确定模块，用于基于所述当前尺寸信息和所述当前实时率确定下一尺寸信息，以供进入下一次处理周期加载使用；

13、判断模块，用于当所述下一尺寸信息大于或等于所述当前剩余特征的帧数，则将所述当前剩余特征全部送入所述语音合成模块进行推理得到当前剩余特征对应的剩余语音音频，否则将所述当前剩余特征作为当前输入特征，所述下一尺寸信息作为当前尺寸信息并重复前述步骤。

14、根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：

15、至少一个处理器；以及

16、与所述至少一个处理器通信连接的存储器；其中，

17、所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的流式语音合成方法。

18、根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明任一实施例所述的流式语音合成方法。

19、本发明实施例的技术方案，确定当前次处理周期使用的当前尺寸信息，并基于当前尺寸信息确定当前特征块，确定对当前特征块进行语音合成推理的当前推理消耗时间，基于当前尺寸信息确定当前特征块的当前时长信息，并基于当前推理消耗时间和当前时长信息确定语音合成模型的当前实时率，基于当前尺寸信息和当前实时率确定下一尺寸信息；当下一尺寸信息大于或等于当前剩余特征的帧数，则将当前剩余特征全部送入语音合成模块得到剩余语音音频，否则继续确定下一尺寸信息。本申请技术方案基于当前尺寸信息和当前实时率准确确定下一尺寸信息，从而实现对于输入特征的合理分配，解决了因固定分块尺寸而导致的首帧时延与整体推理速度降低及合成效果无法兼顾的问题，实现了在不影响首帧时延的情况下，提高整体推理速度并提高合成效果，从而改善用户的感知体验。

20、应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

技术特征：

1.一种流式语音合成方法，其特征在于，应用于语音合成模型，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述输入特征确定的过程，包括：

3.根据权利要求1所述的方法，其特征在于，确定当前次处理周期使用的当前尺寸信息，包括：

4.根据权利要求1所述的方法，其特征在于，基于所述当前尺寸信息确定所述当前特征块的当前时长信息，并基于所述当前推理消耗时间和所述当前时长信息确定所述语音合成模型的当前实时率，包括：

5.根据权利要求1所述的方法，其特征在于，基于所述当前尺寸信息和所述当前实时率确定下一尺寸信息，包括：

6.一种流式语音合成装置，其特征在于，应用于语音合成模型，所述装置包括：

7.根据权利要求1所述的装置，其特征在于，特征块确定模块包括输入特征确定单元，用于：

8.根据权利要求1所述的装置，其特征在于，特征块确定模块包括尺寸信息确定单元，用于：

9.一种电子设备，其特征在于，所述电子设备包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-5中任一项所述的流式语音合成方法。

技术总结本发明公开了一种流式语音合成方法、装置、电子设备和存储介质。该方法包括：确定当前次处理周期使用的当前尺寸信息，并基于当前尺寸信息确定当前特征块，确定对当前特征块进行语音合成推理的当前推理消耗时间，基于当前尺寸信息确定当前特征块的当前时长信息，并基于当前推理消耗时间和当前时长信息确定语音合成模型的当前实时率，基于当前尺寸信息和当前实时率确定下一尺寸信息；当下一尺寸信息大于或等于当前剩余特征的帧数，则将当前剩余特征全部送入语音合成模块得到剩余语音音频，否则继续重复上述步骤。本申请解决了因固定分块尺寸而导致首帧时延与整体推理速度降低及合成效果无法兼顾的问题，提高了整体推理速度和合成效果。技术研发人员：张毅,陈博,付振,王明月,何金鑫,孙宇嘉,王紫烟,梁小明受保护的技术使用者：中国第一汽车股份有限公司技术研发日：技术公布日：2024/1/15