技术新讯 > 乐器声学设备的制造及制作,分析技术 > 模型训练方法、装置、电子设备和可读存储介质与流程  >  正文

模型训练方法、装置、电子设备和可读存储介质与流程

  • 国知局
  • 2024-06-21 10:39:43

本申请属于人工智能,具体涉及一种模型训练方法、装置、电子设备和可读存储介质。

背景技术:

1、目前,随着人们的生活节奏变快,在电子设备中播放语音时,正常的语速已经无法满足人们的需求,二倍速、三倍速、四倍速等高倍速已成为越来越多人选择的语音播放语速。

2、在现有技术中,为了满足用户需求,在基于不同的语速合成语音的过程中,采取强制调整语音时长的方式,从而导致语音的时长与语音特征不对应,最终导致合成的语音中出现破音等现象。

技术实现思路

1、本申请实施例的目的是提供一种模型训练方法,能够解决在现有技术中合成的语音中出现破音等现象的问题。

2、第一方面,本申请实施例提供了一种模型训练方法,该方法包括:获取语音训练集和音素序列训练集,其中,所述语音训练集包括至少一个语音的第一语音特征向量和每个语音对应的语速,所述音素序列训练集包括与所述语音训练集中每一个语音对应的音素序列;将所述语音训练集包括的各个语速和所述音素序列训练集输入至第一模型,并输出语音合成集,其中,所述语音合成集包括由所述第一模型合成的各个语音的第二语音特征向量;根据所述语音训练集中的各个第一语音特征向量和所述语音合成集中的各个第二语音特征向量,对所述第一模型进行训练。

3、第二方面,本申请实施例提供了一种模型训练装置,该装置包括:获取模块,用于获取语音训练集和音素序列训练集,其中,所述语音训练集包括至少一个语音的第一语音特征向量和每个语音对应的语速,所述音素序列训练集包括与所述语音训练集中每一个语音对应的音素序列;第一输出模块,用于将所述语音训练集包括的各个语速和所述音素序列训练集输入至第一模型,并输出语音合成集,其中,所述语音合成集包括由所述第一模型合成的各个语音的第二语音特征向量;训练模块,用于根据所述语音训练集中的各个第一语音特征向量和所述语音合成集中的各个第二语音特征向量,对所述第一模型进行训练。

4、第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

5、第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

6、第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。

7、第六方面,本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如第一方面所述的方法。

8、这样,在本申请的实施例中,收集语音训练集,语音训练集包括大量语音对应的第一语音特征向量,以及每个语音对应的语速;同时,获取与语音训练集中每个语音对应的音素序列,形成音素序列训练集。进一步地,将训练集中的音素序列与其对应语音的语速输入至第一模型,从而由第一模型预测出对应的第二语音特征向量,第二语音特征向量用于合成语音,进而基于预测出来的大量第二语音特征向量与对应的训练集中的第一语音特征向量,对第一模型进行训练,以使得预测出来的第二语音特征向量尽可能地接近第一语音特征向量。可见,基于本申请的实施例训练的模型,可用于针对不同语速输出语音,不需要强制调整语音时长,从而确保语音中不会出现破音等现象。

技术特征:

1.一种模型训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述语音训练集包括第一语音的第一语音特征向量,所述第一语音对应第一语速,所述音素序列训练集包括与所述第一语音对应第一音素序列;所述第一模型包括编码器、基频预测器、语速模块、时长预测器、扩展器和解码器;

3.根据权利要求2所述的方法,其特征在于,所述将所述第一音素序列输入至所述编码器,并输出第一音素特征向量之前,所述方法还包括:

4.根据权利要求2所述的方法,其特征在于,所述将所述第一音素特征向量输入至所述基频预测器,并输出第一基频特征向量之后,所述根据所述语音训练集中的各个第一语音特征向量和所述语音合成集中的各个第二语音特征向量,对所述第一模型进行训练,包括:

5.根据权利要求2所述的方法,其特征在于,所述将所述第一特征向量输入至所述时长预测器,并输出第一时长特征向量之后,所述根据所述语音训练集中的各个第一语音特征向量和所述语音合成集中的各个第二语音特征向量,对所述第一模型进行训练,包括:

6.一种模型训练装置,其特征在于,所述装置包括:

7.根据权利要求6所述的装置,其特征在于,所述语音训练集包括第一语音的第一语音特征向量,所述第一语音对应第一语速,所述音素序列训练集包括与所述第一语音对应第一音素序列;所述第一模型包括编码器、基频预测器、语速模块、时长预测器、扩展器和解码器;

8.根据权利要求7所述的装置,其特征在于,所述装置还包括:

9.根据权利要求7所述的装置,其特征在于,所述训练模块,包括:

10.根据权利要求7所述的装置,其特征在于,所述训练模块,包括:

11.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1~5任一项所述的模型训练方法的步骤。

12.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1~5任一项所述的模型训练方法的步骤。

技术总结本申请公开了一种模型训练方法、装置、电子设备和可读存储介质,属于人工智能技术领域。所述方法包括:获取语音训练集和音素序列训练集,其中,所述语音训练集包括至少一个语音的第一语音特征向量和每个语音对应的语速,所述音素序列训练集包括与所述语音训练集中每一个语音对应的音素序列;将所述语音训练集包括的各个语速和所述音素序列训练集输入至第一模型,并输出语音合成集,其中,所述语音合成集包括由所述第一模型合成的各个语音的第二语音特征向量;根据所述语音训练集中的各个第一语音特征向量和所述语音合成集中的各个第二语音特征向量,对所述第一模型进行训练。技术研发人员:冯萌受保护的技术使用者:维沃移动通信有限公司技术研发日:技术公布日:2024/1/16

本文地址:https://www.jishuxx.com/zhuanli/20240618/21035.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。