技术新讯 > 乐器声学设备的制造及制作,分析技术 > 声音特征识别模型的训练方法及装置与流程 > 正文

声音特征识别模型的训练方法及装置与流程

国知局
2024-06-21 10:40:13

本公开涉及终端，尤其涉及一种声音特征识别模型的训练方法及装置。

背景技术：

1、在用户日常使用手机、平板电脑等终端的过程中，经常遇到需要对文本进行语音播报的情况。

2、例如，在不同语种的同声传译过程中，需要优先对原始语音进行识别和翻译，得到翻译后的文本内容，并在此基础上，再可对翻译后的文本内容进行播报，以得到翻译后的语音。在该场景下，除了文本内容，语音的音色、语调等均会对用户的理解产生影响。

技术实现思路

1、本公开提供一种声音特征识别模型的训练方法及装置，能够在不限制识别对象的前提下，识别用户的声音特征。

2、根据本公开的第一方面，提供一种声音特征识别模型的训练方法，包括：

3、对样本语音进行特征识别，以得到所述样本语音的标准声音特征；

4、将所述样本语音作为待训练模型的输入，以对所述待训练模型进行调整，直至调整后的待训练模型输出的声音特征与所述标准声音特征一致；

5、将调整后的待训练模型确定为训练得到的声音特征识别模型。

6、可选的，还包括：

7、将原始语音输入所述声音特征识别模型，以由所述声音特征识别模型输出所述原始语音的目标声音特征；

8、基于待播报文本和所述目标声音特征，合成与所述原始语音的声音特征一致的目标语音。

9、可选的，还包括：

10、对第一语种的所述原始语音进行语音翻译，得到第二语种的目标文本内容；

11、将所述目标文本内容作为所述待播报文本。

12、可选的，所述对第一语种的所述原始语音进行语音翻译，得到第二语种的目标文本内容，包括：

13、将第一语种的所述原始语音作为预先训练得到的语音翻译模型的输入，以由所述语音翻译模型对所述原始语音进行语音识别和文本翻译后，输出第二语种的目标文本内容。

14、可选的，所述语音翻译模型中包含语音编码器和文本解码器，其中，所述语音编码器用于将所述原始语音识别为文本，所述文本解码器用于对所述语音编码器输出的文本进行翻译。

15、可选的，所述标准声音特征包括：所述样本语音的音色特征。

16、可选的，所述标准声音特征还包括下述至少一项：

17、所述样本语音的语调特征、所述样本语音的响度特征。

18、根据本公开的第二方面，提供一种语音合成模型的训练方法，包括：

19、对样本语音进行特征识别，以得到所述样本语音的标准声音特征；

20、将所述样本语音和样本文本作为待训练模型的输入，以对所述待训练模型进行调整，直至调整后的待训练模型输出的语音的声音特征与所述标准声音特征一致；

21、将调整后的待训练模型确定为训练得到的语音合成模型。

22、可选的，还包括：

23、将原始语音和待播报文本输入所述语音合成模型，以由所述语音合成模型输出与所述原始语音的声音特征一致、与所述待播报文本内容一致的目标语音。

24、可选的，还包括：

25、对第一语种的所述原始语音进行语音翻译，得到第二语种的目标文本内容；

26、将所述目标文本内容作为所述待播报文本。

27、可选的，所述待训练模型中包含待训练的声音特征识别子模型；所述对所述待训练模型进行调整，直至调整后的待训练模型输出的语音的声音特征与所述标准声音特征一致，包括：

28、将所述样本语音作为待训练的声音特征识别子模型的输入，以对待训练的声音特征识别子模型进行调整，直至调整后的声音特征识别子模型基于所述样本语音输出的声音特征，与所述标准声音特征一致。

29、根据本公开的第三方面，提供一种声音特征识别模型的训练装置，包括：

30、第一识别单元，用于对样本语音进行特征识别，以得到所述样本语音的标准声音特征；

31、第一调整单元，用于将所述样本语音作为待训练模型的输入，以对所述待训练模型进行调整，直至调整后的待训练模型基于所述样本语音输出的声音特征与所述标准声音特征一致；

32、第一确定单元，用于将调整后的待训练模型确定为训练得到的声音特征识别模型。

33、根据本公开的第四方面，提供一种语音合成模型的训练装置，包括：

34、第二识别单元，用于对样本语音进行特征识别，以得到所述样本语音的标准声音特征；

35、第二调整单元，用于将所述样本语音和样本文本作为待训练模型的输入，以对所述待训练模型进行调整，直至调整后的待训练模型输出的语音的声音特征与所述标准声音特征一致；

36、第二确定单元，用于将调整后的待训练模型确定为训练得到的语音合成模型。

37、根据本公开的第五方面，提供一种电子设备，包括：

38、处理器；

39、用于存储处理器可执行指令的存储器；

40、其中，所述处理器通过运行所述可执行指令以实现如第一方面或第二方面所述的方法。

41、根据本公开的第六方面，提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如第一方面或第二方面所述方法的步骤。

42、在本公开的技术方案中，优先获取了样本语音的标准声音特征，在此基础上，即可将样本语音作为待训练模型的输入，以对待训练模型进行调整，直至调整后的待训练模型基于样本语音输出的声音特征，与优先获取的标准声音特征一致，此时，即可将调整后的待训练模型确定为训练得到的声音特征识别模型。

43、应当理解的是，本公开相当于是将优先获取的标准声音特征作为声音特征识别模型是否训练完成的标准。通过该方式，对用于模型训练的样本语音数量没有要求，即便只有单个样本也可以完成声音特征识别模型的训练，避免了相关技术通过分类方式训练模型，而对样本数量存在要求的问题。除此之外，通过该方式训练得到的声音特征识别模型的本质为“确定语音的声音特征”的识别逻辑，可以实现对任意语音的声音特征识别，避免了相关技术中识别对象受到样本语音限制的问题。

技术特征：

1.一种声音特征识别模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求2所述的方法，其特征在于，还包括：

4.根据权利要求3所述的方法，其特征在于，所述对第一语种的所述原始语音进行语音翻译，得到第二语种的目标文本内容，包括：

5.根据权利要求4所述的方法，其特征在于，所述语音翻译模型中包含语音编码器和文本解码器，其中，所述语音编码器用于将所述原始语音识别为文本，所述文本解码器用于对所述语音编码器输出的文本进行翻译。

6.根据权利要求1所述的方法，其特征在于，所述标准声音特征包括：所述样本语音的音色特征。

7.根据权利要求6所述的方法，其特征在于，所述标准声音特征还包括下述至少一项：

8.一种语音合成模型的训练方法，其特征在于，包括：

9.根据权利要求8所述的方法，其特征在于，还包括：

10.根据权利要求9所述的方法，其特征在于，还包括：

11.根据权利要求8所述的方法，其特征在于，所述待训练模型中包含待训练的声音特征识别子模型；所述对所述待训练模型进行调整，直至调整后的待训练模型输出的语音的声音特征与所述标准声音特征一致，包括：

12.一种声音特征识别模型的训练装置，其特征在于，包括：

13.一种语音合成模型的训练装置，其特征在于，包括：

14.一种电子设备，其特征在于，包括：

15.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现如权利要求1-11中任一项所述方法的步骤。

技术总结本公开是关于一种声音特征识别模型的训练方法及装置，该方法，包括：对样本语音进行特征识别，以得到所述样本语音的标准声音特征；将所述样本语音作为待训练模型的输入，以对所述待训练模型进行调整，直至调整后的待训练模型输出的声音特征与所述标准声音特征一致；将调整后的待训练模型确定为训练得到的声音特征识别模型。技术研发人员：黄武伟,杨丰煜,张鹏举,徐哲哲,鄢孔舒格受保护的技术使用者：北京小米移动软件有限公司技术研发日：技术公布日：2024/1/22