技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音处理方法、装置、电子设备及存储介质与流程 > 正文

语音处理方法、装置、电子设备及存储介质与流程

国知局
2024-06-21 11:48:34

本申请涉及语音处理，尤其涉及一种语音处理方法、装置、电子设备及存储介质。

背景技术：

1、在语音合成技术领域中，非自回归tts(text to speech，文本到语音)模型吸引了工业界和学术界越来越多的关注，其中，语音合成模型fastspeech2因其优秀的语音合成效果和响应速度，赢得了大多数互联网公司的关注，并将其运用于线上。fastspeech2的输入为音素数据(包括拼音和韵律)，输出为音频数据，如梅尔频谱mel-spectrogram，mel-spectrogram再经声码器处理后生成语音。语音的韵律感和自然度(即音质)在语音表现力上非常重要，因此，如何提升语音合成的音质，是目前需要解决的问题之一。

技术实现思路

1、本申请实施例的目的是提供一种语音处理方法、装置、电子设备及存储介质，用以提升语音合成的韵律感和自然度。

2、为解决上述技术问题，本申请实施例是这样实现的：

3、一方面，本申请实施例提供一种语音处理方法，包括：

4、将目标音素数据输入语音处理模型进行语音处理，得到所述目标音素数据对应的目标频谱数据；所述目标音素数据包括多个音素单元；

5、根据所述目标频谱数据，生成所述目标音素数据的语音数据；

6、所述将目标音素数据输入语音处理模型进行语音处理，得到所述目标音素数据对应的目标频谱数据包括：

7、提取所述目标音素数据的音频特征信息；

8、根据所述音频特征信息，生成所述目标音素数据的第一频谱数据；所述第一频谱数据包括每个音素单元的多帧第一频谱特征；

9、提取所述第一频谱特征之间的关联特征信息；所述关联特征信息用于表征所述第一频谱特征在时域上的频谱关系；

10、根据所述第一频谱特征和所述关联特征信息，生成所述目标频谱数据。

11、另一方面，本申请实施例提供一种语音处理装置，包括：

12、模型处理模块，用于将目标音素数据输入语音处理模型进行语音处理，得到所述目标音素数据对应的目标频谱数据；所述目标音素数据包括多个音素单元；

13、语音生成模块，用于根据所述目标频谱数据，生成所述目标音素数据的语音数据；

14、所述模型处理模块在将目标音素数据输入语音处理模型进行语音处理，得到所述目标音素数据对应的目标频谱数据时，执行为以下步骤：

15、提取所述目标音素数据的音频特征信息；

16、根据所述音频特征信息，生成所述目标音素数据的第一频谱数据；所述第一频谱数据包括每个音素单元的多帧第一频谱特征；

17、提取所述第一频谱特征之间的关联特征信息；所述关联特征信息用于表征所述第一频谱特征在时域上的频谱关系；

18、根据所述第一频谱特征和所述关联特征信息，生成所述目标频谱数据。

19、再一方面，本申请实施例提供一种电子设备，包括处理器和与所述处理器电连接的存储器，所述存储器存储有计算机程序，所述处理器用于从所述存储器调用并执行所述计算机程序以实现上述语音处理方法。

20、再一方面，本申请实施例提供一种计算机可读存储介质，用于存储计算机程序，所述计算机程序能够被处理器执行以实现上述语音处理方法。

21、采用本申请实施例的技术方案，通过语音处理模型提取目标音素数据的音频特征信息，根据音频特征信息生成目标音素数据的第一频谱数据，第一频谱数据包括目标音素数据中每个音素单元的多帧第一频谱特征，进而提取第一频谱特征之间的关联特征信息，并根据第一频谱特征和关联特征信息，生成目标音素数据对应的目标频谱数据。然后再根据目标频谱数据生成目标音素数据的语音数据。由于在生成目标频谱数据时依据了第一频谱特征之间的关联特征信息，该关联特征信息用于表征第一频谱特征在时域上的频谱关系(即音素单元在频谱维度的相关性)，因此，目标频谱数据能够反映出目标音素数据的各个音素单元之间的相关性。由于音素单元之间的相关性在语音合成过程中起关键作用，例如，相邻的音素单元之间的相关性可能导致语音数据的音调发生改变(如“你好”在连读时，“你”读成二声更加自然)；再例如，相邻的音素单元之间的相关性会影响多音字的正确发音(如“便宜”中的“偏”应读为“pian”，而并非“bian”)；再例如，相邻的音素单元之间的相关性会导致特殊读法(如儿化音)；等等。可见，音素单元之间的相关性越强，即目标频谱数据中包含的关联特征信息越完整，那么合成的语音的韵律感和自然度也就越强，因此解决了利用语音处理模型合成语音时、由于未考虑音素单元之间的相关性而导致语音较生硬、音质较差的问题，提升了语音合成的韵律感和自然度。

技术特征：

1.一种语音处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述语音处理模型包括：特征提取模块、第一频谱生成模块和第二频谱生成模块；

3.根据权利要求2所述的方法，其特征在于，所述第二频谱生成模块包括：因果卷积层和双向门限循环网络层；

4.根据权利要求3所述的方法，其特征在于，所述因果卷积层提取所述关联特征信息，并根据所述第一频谱特征和所述关联特征信息，对每帧第一频谱特征进行因果卷积处理，得到所述每帧第一频谱特征对应的因果卷积特征，包括：

5.根据权利要求4所述的方法，其特征在于，所述提取所述当前帧第一频谱特征和所述当前帧第一频谱特征的前一帧第一频谱特征之间的所述关联特征信息，包括：

6.根据权利要求4所述的方法，其特征在于，所述将所述当前帧第一频谱特征的初始因果卷积结果和所述当前帧第一频谱特征进行融合处理，得到所述当前帧第一频谱特征对应的所述因果卷积特征，包括：

7.根据权利要求1所述的方法，其特征在于，所述语音处理模型通过以下步骤训练得到：

8.一种语音处理装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括处理器和与所述处理器电连接的存储器，所述存储器存储有计算机程序，所述处理器用于从所述存储器调用并执行所述计算机程序以实现如权利要求1-7任一项所述的语音处理方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质用于存储计算机程序，所述计算机程序能够被处理器执行以实现如权利要求1-7任一项所述的语音处理方法。

技术总结本申请实施例公开了一种语音处理方法、装置、电子设备及存储介质。方法包括：将目标音素数据输入语音处理模型，所述目标音素数据包括多个音素单元；提取所述目标音素数据的音频特征信息；根据所述音频特征信息，生成所述目标音素数据的第一频谱数据；所述第一频谱数据包括每个音素单元的多帧第一频谱特征；提取第一频谱特征之间的关联特征信息；所述关联特征信息用于表征所述第一频谱特征在时域上的频谱关系；根据所述第一频谱特征和所述关联特征信息，生成所述目标频谱数据。根据所述目标频谱数据，生成所述目标音素数据的语音数据。本申请能够提升语音合成的韵律感和自然度。技术研发人员：刘鹏飞受保护的技术使用者：马上消费金融股份有限公司技术研发日：技术公布日：2024/5/6