技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音合成方法、装置、电子设备及存储介质与流程  >  正文

语音合成方法、装置、电子设备及存储介质与流程

  • 国知局
  • 2024-06-21 10:39:10

本申请涉及语音合成,具体而言,涉及一种语音合成方法、装置、电子设备及存储介质。

背景技术:

1、当前的语音合成技术在模仿人类语音方面取得了巨大进展,这得益于深度学习模型的应用。深度学习模型通过神经网络学习声音特征和语音模式,使得合成语音在音色、语调和风格方面更接近于真实说话人。然而,尽管取得了显著进展,语音合成仍然面临着挑战,主要体现在合成语音的自然度问题上。

2、存在上述问题的主要原因在于模型尚未能够全面理解人类语音的复杂性。真实语音中蕴含着丰富的情感、语境、以及个体特有的说话习惯,而当前的模型难以准确捕捉到这些微妙之处。

3、针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

1、本发明实施例提供了一种语音合成方法、装置、电子设备及存储介质,以至少解决现有语音合成技术中自然度不够的技术问题。

2、根据本发明实施例的一个方面,提供了一种语音合成方法,包括:利用语音信号处理技术从待克隆对象的音频数据中提取音频特征,其中,所述音频特征包括基频、能量、音速时长、和梅尔频谱;在编码端使用编码器从所述音频数据中提取文本特征,并使用自监督学习方法从所述音频数据中提取声音的空间向量;基于所述音频特征、所述文本特征、和所述空间向量,生成维度大于预设维度的特征向量矩阵;基于所述特征向量矩阵,在解码端利用多周期判别器来进行对抗训练,以进行语音合成。

3、根据本发明实施例的另一方面,还提供了一种语音合成装置,包括:音频提取模块,被配置为利用语音信号处理技术从待克隆对象的音频数据中提取音频特征,其中,所述音频特征包括基频、能量、音速时长、和梅尔频谱;文本提取模块,被配置为在编码端使用编码器从所述音频数据中提取文本特征,并使用自监督学习方法从所述音频数据中提取声音的空间向量;生成模块,被配置为基于所述音频特征、所述文本特征、和所述空间向量,生成维度大于预设维度的特征向量矩阵;训练模块,被配置为基于所述特征向量矩阵,在解码端利用多周期判别器来进行对抗训练,以进行语音合成。

4、在本发明实施例中,利用语音信号处理技术从待克隆对象的音频数据中提取音频特征,其中,所述音频特征包括基频、能量、音速时长、和梅尔频谱;在编码端使用编码器从所述音频数据中提取文本特征,并使用自监督学习方法从所述音频数据中提取声音的空间向量;基于所述音频特征、所述文本特征、和所述空间向量,生成维度大于预设维度的特征向量矩阵;基于所述特征向量矩阵,在解码端利用多周期判别器来进行对抗训练,以进行语音合成。通过上述方案,解决了现有语音合成技术中自然度不够的技术问题。

技术特征:

1.一种语音合成方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,使用自监督学习方法从所述音频数据中提取声音的空间向量,包括:

3.根据权利要求1所述的方法,其特征在于,基于所述特征向量矩阵,在解码端利用多周期判别器来进行对抗训练,包括:

4.根据权利要求3所述的方法,其特征在于,利用所述多周期判别器对混合后的所述语音合成样本与真实音频数据进行对抗训练,包括:

5.根据权利要求4所述的方法,其特征在于,基于所述对抗损失,所述多周期判别器动态调整所述生成器的学习率和损失权重,包括:

6.根据权利要求1所述的方法,其特征在于,在利用语音信号处理技术从待克隆对象的音频数据中提取音频特征之前,所述方法还包括:

7.根据权利要求6所述的方法,其特征在于,通过分析所述不同的簇的特征,来对所述不同的簇进行筛选,包括:

8.一种语音合成装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读存储介质,其上存储有程序,其特征在于,在所述程序运行时,使得计算机执行如权利要求1至7中任一项所述的方法。

技术总结本申请提供了一种语音合成方法、装置、电子设备及存储介质,其中,该方法包括:利用语音信号处理技术从待克隆对象的音频数据中提取音频特征,其中,所述音频特征包括基频、能量、音速时长、和梅尔频谱;在编码端使用编码器从所述音频数据中提取文本特征,并使用自监督学习方法从所述音频数据中提取声音的空间向量;基于所述音频特征、所述文本特征、和所述空间向量,生成维度大于预设维度的特征向量矩阵;基于所述特征向量矩阵,在解码端利用多周期判别器来进行对抗训练,并基于对抗训练的结果进行语音合成。本申请解决了现有语音合成技术中自然度不够的技术问题。技术研发人员:蒋正浩,王建成受保护的技术使用者:世优(北京)科技有限公司技术研发日:技术公布日:2024/1/15

本文地址:https://www.jishuxx.com/zhuanli/20240618/20945.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。