技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音合成、语音识别方法、训练方法、装置、电子设备、存储介质与流程 > 正文

语音合成、语音识别方法、训练方法、装置、电子设备、存储介质与流程

国知局
2024-06-21 11:48:24

本技术涉及多媒体内容处理的，具体地涉及语音合成模型的训练方法、语音识别模型的训练方法、语音合成方法、语音识别方法以及相关的装置、模型、电子设备及存储介质。

背景技术：

1、现有技术中，基于文本音频段对数据对tts(语音合成)模型进行训练，目前的训练方案中，无标签的纯文本、纯音频由于没有标签或者没有标注，无法有效利用，另外，如果采用无监督的方式训练文本的编码器和音频的编码器，需要在下游任务做finetune(对特定任务或者领域的适应)，训练方式较为复杂，训练成本和难度较高。

2、此背景技术的说明旨在帮助理解相关领域内的相关技术，并不代表承认背景技术内容属于现有技术。

技术实现思路

1、因此，本技术实施例意图提供一种语音合成模型训练方法、语音识别模型训练方法、语音合成方法、语音识别方法以及相关的模型、电子设备及存储介质。通过本技术实施例的方案，可以将文本、音频或音频文本对离散编码后混合输入到自回归模型中，实现了无监督训练中的多种模态的训练数据的混合输入，从而降低了模型训练成本和难度。

2、第一方面，本技术实施例提供了语音合成模型训练方法，包括如下步骤：

3、获取训练数据集，所述训练数据集包括多条数据条目，所述数据条目的类型包括纯文本数据条目、纯音频数据条目和文本音频对数据条目；

4、从所述训练数据集选取多条数据条目，生成多个批处理数据条目集，其中，每个批处理数据条目集中有纯文本数据条目、纯音频数据条目和文本音频对数据条目，所述批处理数据条目集中的所述纯文本数据条目、纯音频数据条目和文本音频对数据条目之间的比例满足设定比例条件；

5、对所述批处理数据条目集中的数据条目进行离散编码处理，生成多条数据条目离散编码，其中每条数据条目离散编码中包括文本离散编码和语音离散编码，所述数据条目离散编码中文本离散编码位于所述语音离散编码前；

6、根据所述多个批处理数据条目集中的多条数据条目离散编码对自回归模型进行训练，生成目标语音合成模型。

7、在本技术的一些实施例中，所述文本离散编码包括文本离散编码内容，所述语音离散编码包括语音离散编码内容；所述对所述批处理数据条目集中的数据条目进行离散编码，生成多条数据条目离散编码，包括：

8、响应于数据条目为纯文本数据条目，对纯文本数据条目中的文本内容离散编码处理，获取所述文本离散编码内容，将所述语音离散编码内容设置为空；

9、响应于数据条目为纯音频数据条目，对纯音频数据条目中的音频内容离散编码处理，获取所述语音离散编码内容，将所述文本离散编码内容设置为空；

10、响应于数据条目为文本音频对数据条目，对文本音频对数据条目中的文本内容离散编码处理，获取所述文本离散编码内容，对文本音频对数据条目中的音频内容离散编码处理，获取所述语音离散编码内容。

11、在本技术的一些实施例中，所述文本离散编码还包括文本离散编码开始标志和文本离散编码结束标志，所述文本离散编码内容位于所述文本离散编码开始标志和文本离散编码结束标志之间；所述语音离散编码还包括语音离散编码开始标志和语音离散编码结束标志，所述语音离散编码内容位于所述语音离散编码开始标志和语音离散编码结束标志之间。

12、在本技术的一些实施例中，对文本内容离散编码处理，获取所述文本离散编码内容，包括：

13、对所述文本内容进行音素转换，生成所述文本离散编码内容。

14、在本技术的一些实施例中，对音频内容离散编码处理，获取所述语音离散编码内容，包括：

15、将所述音频内容输入音频编码器，获取所述语音离散编码内容。

16、第二方面，本技术实施例提供一种语音合成方法，包括如下步骤：

17、获取输入数据，所述输入数据包括目标文本；

18、对所述输入数据进行离散编码处理，获取输入数据离散编码，所述输入数据离散编码包括文本离散编码和语音离散编码，所述文本离散编码位于所述语音离散编码前；

19、将所述输入数据离散编码输入到目标语音合成模型，获取输出语音离散编码；

20、将所述输出语音离散编码输入语音解码器解码，获取目标输出音频。

21、在本技术的一些实施例中，所述输入数据还包括具有设定音色、环境声的目标音频段。

22、在本技术的一些实施例中，所述文本离散编码包括文本离散编码内容，所述语音离散编码包括语音离散编码内容；

23、当所述输入数据为目标文本时，所述对所述输入数据进行离散编码处理，获取输入数据离散编码，包括：

24、对所述目标文本进行离散编码处理，获取所述文本离散编码内容，将所述语音离散编码内容置空；

25、当所述输入数据为目标文本和目标音频段时，所述对所述输入数据进行离散编码处理，获取输入数据离散编码，包括：

26、对所述目标文本进行离散编码处理，获取所述文本离散编码内容，对所述目标音频段进行离散编码处理，获取所述语音离散编码内容。

27、在本技术的一些实施例中，当所述输入数据为目标文本时，所述将所述输入数据离散编码输入到目标语音合成模型，获取输出语音离散编码，包括：

28、将输入数据离散编码输入到目标语音合成模型，解码计算后，获取输出语音离散编码；

29、当所述输入数据为目标文本和目标音频段时，所述将所述输入数据离散编码输入到目标语音合成模型，获取输出语音离散编码，包括：

30、将所述文本离散编码内容输入数据离散编码输入到目标语音合成模型，并将所述语音离散编码内容按照提示词方式输入到所述目标语音合成模型，解码计算后，获取输出语音离散编码。

31、在本技术的一些实施例中，所述目标语音合成模型由本技术任一实施例中语音合成模型训练方法训练得到。

32、第三方面，本技术实施例提供一种语音识别模型训练方法，包括如下步骤：

33、获取训练数据集，所述训练数据集包括多条数据条目，所述数据条目的类型包括纯文本数据条目、纯音频数据条目和文本音频对数据条目；

34、从所述训练数据集选取多条数据条目，生成多个批处理数据条目集，其中，每个批处理数据条目集中有纯文本数据条目、纯音频数据条目和文本音频对数据条目，所述批处理数据条目集中的所述纯文本数据条目、纯音频数据条目和文本音频对数据条目之间的比例满足设定比例条件；

35、对所述批处理数据条目集中的数据条目进行离散编码处理，生成多条数据条目离散编码，其中每条数据条目离散编码中包括文本离散编码和语音离散编码，所述数据条目离散编码中所述语音离散编码位于所述文本离散编码前；

36、根据所述多个批处理数据条目集中的多条数据条目离散编码对自回归模型进行训练，生成语音识别模型。

37、在本技术的一些实施例中，所述文本离散编码包括文本离散编码内容，所述语音离散编码包括语音离散编码内容；所述对所述批处理数据条目集中的数据条目进行离散编码，生成多条数据条目离散编码，包括：

38、响应于数据条目为纯文本数据条目，对纯文本数据条目中的文本内容离散编码处理，获取所述文本离散编码内容，将所述语音离散编码内容设置为空；

39、响应于数据条目为纯音频数据条目，对纯音频数据条目中的音频内容离散编码处理，获取所述语音离散编码内容，将所述文本离散编码内容设置为空；

40、响应于数据条目为文本音频对数据条目，对文本音频对数据条目中的文本内容离散编码处理，获取所述文本离散编码内容，对文本音频对数据条目中的音频内容离散编码处理，获取所述语音离散编码内容。

41、在本技术的一些实施例中，所述文本离散编码还包括文本离散编码开始标志和文本离散编码结束标志，所述文本离散编码内容位于所述文本离散编码开始标志和文本离散编码结束标志之间；所述语音离散编码还包括语音离散编码开始标志和语音离散编码结束标志，所述语音离散编码内容位于所述语音离散编码开始标志和语音离散编码结束标志之间。

42、在本技术的一些实施例中，对文本内容离散编码处理，获取所述文本离散编码内容，包括：

43、对所述文本内容进行音素转换，生成所述文本离散编码内容。

44、在本技术的一些实施例中，对音频内容离散编码处理，获取所述语音离散编码内容，包括：

45、将所述音频内容输入音频编码器，获取所述语音离散编码内容。

46、第四方面，本技术实施例提供一种语音识别方法，包括如下步骤：

47、获取输入数据，所述输入数据包括目标音频；

48、对所述输入数据进行离散编码处理，获取输入数据离散编码，所述输入数据离散编码包括文本离散编码和语音离散编码，所述语音离散编码位于所述文本离散编码前；

49、将所述输入数据离散编码输入到目标语音识别模型，获取输出文本离散编码；

50、对所述输出文本离散编码进行反离散编码处理，获取目标输出文本。

51、在本技术的一些实施例中，所述文本离散编码包括文本离散编码内容，所述语音离散编码包括语音离散编码内容；

52、所述对所述输入数据进行离散编码处理，获取输入数据离散编码，包括：

53、对所述目标音频进行离散编码处理，获取所述语音离散编码内容，将所述文本离散编码内容置空。

54、在本技术的一些实施例中，所述将所述输入数据离散编码输入到目标语音识别模型，获取输出文本离散编码，包括：

55、将输入数据离散编码输入到目标语音识别模型，解码计算后，获取所述输出文本离散编码。

56、在本技术的一些实施例中，所述目标语音识别模型由本技术任一实施例中语音识别模型训练方法训练得到。

57、第五方面，本技术实施例提供一种语音合成模型训练装置，包括训练数据集获取模块、批处理数据集成模块、离散编码处理模块和训练模块，其中，

58、所述训练数据集获取模块被配置为获取训练数据集，所述训练数据集包括多条数据条目，所述数据条目的类型包括纯文本数据条目、纯音频数据条目和文本音频对数据条目；

59、所述批处理数据集成模块被配置为从所述训练数据集选取多条数据条目，生成多个批处理数据条目集，其中，每个批处理数据条目集中有纯文本数据条目、纯音频数据条目和文本音频对数据条目，所述批处理数据条目集中的所述纯文本数据条目、纯音频数据条目和文本音频对数据条目之间的比例满足设定比例条件；

60、所述离散编码处理模块被配置为对所述批处理数据条目集中的数据条目进行离散编码处理，生成多条数据条目离散编码，其中每条数据条目离散编码中包括文本离散编码和语音离散编码，所述数据条目离散编码中文本离散编码位于所述语音离散编码前；

61、所述训练模块根据所述多个批处理数据条目集中的多条数据条目离散编码对自回归模型进行训练，生成目标语音合成模型。

62、第六方面，本技术实施例提供一种语音合成模型，所述语音合成模型由本技术任一实施例中的语音合成模型训练方法训练得到。

63、第七方面，本技术实施例提供一种语音合成装置，包括输入数据获取模块、离散编码处理模块、模型计算模块和语音解码器模块，其中，

64、所述输入数据获取模块被配置为获取输入数据，所述输入数据包括目标文本；

65、所述离散编码处理模块被配置为对所述输入数据进行离散编码处理，获取输入数据离散编码，所述输入数据离散编码包括文本离散编码和语音离散编码，所述文本离散编码位于所述语音离散编码前；

66、所述模型计算模块被配置为将所述输入数据离散编码输入到目标语音合成模型，获取输出语音离散编码；

67、所述语音解码器模块被配置为对所述输出语音离散编码进行语音解码，获取目标输出音频。

68、第八方面，本技术实施例提供一种语音识别模型训练装置，包括训练数据集获取模块、批处理数据集成模块、离散编码处理模块和训练模块，其中，

69、所述训练数据集获取模块被配置为获取训练数据集，所述训练数据集包括多条数据条目，所述数据条目的类型包括纯文本数据条目、纯音频数据条目和文本音频对数据条目；

70、所述批处理数据集成模块被配置为从所述训练数据集选取多条数据条目，生成多个批处理数据条目集，其中，每个批处理数据条目集中有纯文本数据条目、纯音频数据条目和文本音频对数据条目，所述批处理数据条目集中的所述纯文本数据条目、纯音频数据条目和文本音频对数据条目之间的比例满足设定比例条件；

71、所述离散编码处理模块被配置为对所述批处理数据条目集中的数据条目进行离散编码处理，生成多条数据条目离散编码，其中每条数据条目离散编码中包括文本离散编码和语音离散编码，所述数据条目离散编码中所述语音离散编码位于所述文本离散编码前；

72、所述训练模块被配置为根据所述多个批处理数据条目集中的多条数据条目离散编码对自回归模型进行训练，生成语音识别模型。

73、第九方面，本技术实施例提供一种语音识别模型，所述语音识别模型由本技术任一实施例中的语音识别模型训练方法训练得到。

74、第十方面，本技术实施例提供一种语音识别装置，包括输入数据获取模块、离散编码处理模块、模型计算模块和反离散编码处理模块，其中，

75、所述输入数据获取模块被配置为获取输入数据，所述输入数据包括目标音频；

76、所述离散编码处理模块被配置为对所述输入数据进行离散编码处理，获取输入数据离散编码，所述输入数据离散编码包括文本离散编码和语音离散编码，所述语音离散编码位于所述文本离散编码前；

77、所述模型计算模块被配置为将所述输入数据离散编码输入到目标语音识别模型，获取输出文本离散编码；

78、所述反离散编码模块被配置为对所述输出文本离散编码进行反离散编码处理，获取目标输出文本。

79、第十一方面，本技术实施例提供计算机可读存储介质，其上存储有计算机程序，其中，所述程序被处理器执行时，实现任一本技术实施例的方法。

80、第十二方面，本技术实施例提供电子设备，包括：处理器和存储有计算机程序的存储器，所述处理器被配置为在运行计算机程序时执行任一本技术实施例的方法。

81、本技术方案提供了语音合成模型、语音识别模型训练方法，将纯文本、纯音频、文本音频对数据按照设定比例进行混合形成批处理训练数据，对批处理训练数据中的数据条目进行离散编码处理，形成数据条目离散编码，每条数据条目离散编码中都有文本离散编码和语音离散编码，将数据条目离散编码输入到自回归模型中进行训练，最终获得目标的语音合成模型或者语音识别模型。通过将纯文本、纯音频、文本音频对对应的离散编码混合输入到自回归模型中，提升了模型训练速度，降低了训练难度，利用纯文本对应的离散编码训练自回归模型的语言理解和生成语言的能力，利用纯音频对应的离散编码提升自回归模型的声学理解能力，细化模型如何理解和生成原始语音的能力，能够提升捕捉情感或者特定音色的能力，利用文本音频对对应的离散编码训练自回归模型利用前一段文本、音频预测后一段音频或者文本的能力。

82、本技术实施例能够根据所需模型的特性调整数据条目中的文本离散编码和语音离散编码的前后顺序，如果所需模型为语音合成模型，则将文本离散编码设置在语音离散编码之前，如果所需模型为语音识别模型，则将语音离散编码设置在文本离散编码之前，针对不同的生成任务不需调整模型架构，调整输入的训练数据的中的前后位置关系，即能满足要求，提升了模型架构的复用特性，具有广泛推广的价值。本技术实施例采用无监督和有监督数据混合的方式对自回归模型进行训练，提升数据的利用率，同时不需要多阶段训练，降低了训练难度。本技术方案还提供了语音合成方法，采用离散编码的方式表征音频，相对于传统的梅尔谱，更具有上下文学习能力，再采用音频提示词的方式生成音频时，生成的音频能保持音频提示词的环境音和说话人情绪。本技术方案中的语音识别方法，将输入音频离散编码后输入到模型，即能识别对应的文本，避免采用梅尔谱来表征音频，更具有上下文学习能力，输出文本更加精确。

83、本技术实施例的其他可选特征和技术效果一部分在下文描述，一部分可通过阅读本文而明白。