技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别方法、模型训练方法、装置、设备及存储介质与流程 > 正文

语音识别方法、模型训练方法、装置、设备及存储介质与流程

国知局
2024-06-21 11:38:49

本技术涉及人工智能，更具体地说，涉及一种语音识别方法、模型训练方法、装置、设备及存储介质。

背景技术：

1、语音识别技术是一种将语音信号转换成文本的技术。现有的基于深度学习的语音识别系统非常依赖于训练数据的数量，高性能的语音识别系统通常需要大量的带标注语音数据来进行训练。然而，语音数据标注成本较高，获取难度较大，相比之下，无标注语音更加容易获取。

2、自监督学习是基于无标注语音数据进行语音识别模型训练的常用方式，自监督学习通常包含预训练和微调两个阶段，预训练阶段是通过无标注语音数据集对语音识别模型进行自监督训练，得到预训练的语音识别模型；微调阶段则是利用少量有标注的语音数据对预训练的语音识别模型进行微调，得到最终的语音识别模型。

3、目前，基于自监督学习训练得到的语音识别模型的识别准确率较低，因此，如何提高语音识别模型的识别准确率成为亟待解决的技术问题。

技术实现思路

1、有鉴于此，本技术提供了一种语音识别方法、模型训练方法、装置、设备及存储介质，以提高语音识别模型的识别准确率。

2、为了实现上述目的，现提出的方案如下：

3、一种语音识别模型训练方法，包括：

4、利用无标注语音数据集对语音识别模型进行第一轮自监督预训练，得到第一预训练的语音识别模型；

5、将所述无标注语音数据集中的无标注语音数据输入所述第一预训练的语音识别模型，得到所述第一预训练的语音识别模型的目标中间层输出的各个无标注语音数据的隐层特征序列；

6、基于各个无标注语音数据的隐层特征序列确定各个无标注语音数据的至少两个第一类伪标签；不同的第一类伪标签对应不同粒度的语义信息；

7、利用所述无标注语音数据集，以及无标注语音数据的至少两个第一类伪标签对所述第一预训练的语音识别模型进行第二轮自监督预训练，得到第二预训练的语音识别模型；任一无标注语音数据的对应不同粒度的第一类伪标签用于确定所述第一预训练的语音识别模型的不同网络层的自监督损失；

8、利用有标注的语音数据集对所述第二预训练的语音识别模型进行有监督的训练，得到目标语音识别模型。

9、上述方法，可选的，所述基于各个无标注语音数据的隐层特征序列确定各个无标注语音数据的至少两个第一类伪标签，包括：

10、对各个无标注语音数据的隐层特征序列进行n次聚类，不同次聚类采用的聚类数不同；n为大于1的整数；

11、对应任一无标注语音数据，基于n次聚类结果对所述任一无标注语音数据标注n个第一类伪标签；所述任一无标注语音数据的n个第一类伪标签表征所述任一无标注语音数据在不同次聚类结果中所属的聚类类别。

12、上述方法，可选的，对于所述任一无标注语音数据的第一伪标签和第二伪标签，如果所述第一伪标签对应的第一聚类数小于所述第二伪标签对应的第二聚类数，则所述第一伪标签用于确定所述第一预训练的语音识别模型的第一网络层的自监督损失，所述第二伪标签用于确定所述第一预训练的语音识别模型的第一网络层的自监督损失；

13、所述第一伪标签和第二伪标签是所述任一无标注语音数据的任意两个第一类伪标签；所述第二网络层低于所述第二网络层。

14、上述方法，可选的，所述利用无标注语音数据集对语音识别模型进行第一轮自监督预训练，包括：

15、对所述无标注语音数据集中的无标注语音数据进行一次聚类，该次聚类采用的聚类数小于所述n次聚类采用的最大聚类数；

16、根据该一次聚类结果对各个无标注语音数据标注第二类伪标签；任一无标注语音数据的第二类伪标签表征所述任一无标注语音数据在该次聚类结果中所属的聚类类别；

17、利用所述无标注语音数据集，以及无标注语音数据的第二类伪标签对语音识别模型进行第一轮自监督预训练，得到第一预训练的语音识别模型；任一无标注语音数据的第二类伪标签用于确定所述语音识别模型的最高网络层的自监督损失。

18、上述方法，可选的，所述利用所述无标注语音数据集，以及无标注语音数据的至少两个第一类伪标签对所述第一预训练的语音识别模型进行第二轮自监督预训练，包括：

19、通过所述第一预训练的语音识别模型对各个无标注语音数据分别进行编码，得到各个无标注语音数据的编码特征序列；任一无标注语音数据的编码特征序列中的不同特征对应所述任一无标注语音数据的不同语音帧；

20、对所述任一无标注语音数据的编码特征序列进行掩码，得到所述任一无标注语音数据的掩码特征序列；

21、对所述掩码特征序列进行多个层级的隐层特征提取，得到各个层级的隐层特征序列；

22、以基于至少两个目标层级的各无标注语音数据的隐层特征序列确定的第一类伪标签趋近于所述目标层级的所述第一类伪标签为目标，对所述第一预训练的语音识别模型的参数进行更新。

23、上述方法，可选的，所述以基于至少两个目标层级的隐层特征序列确定的第一类伪标签趋近于所述目标层级的第一类伪标签为目标，对所述第一预训练的语音识别模型的参数进行更新，包括：

24、对应任一目标层级以及任一无标注语音数据，以基于所述任一无标注语音数据的被掩盖位置在所述任一目标层级的隐层特征确定的第一类伪标签趋近于所述目标层级的第一类伪标签为目标，对所述第一预训练的语音识别模型的参数进行更新。

25、上述方法，可选的，对所述掩码特征序列进行多个层级的隐层特征提取，包括：

26、对所述掩码特征序列进行多个层级的基于自注意力的隐层特征提取；其中，较高层级的自注意力范围，大于较低层级的自注意力范围。

27、上述方法，可选的，所述对所述掩码特征序列进行多个层级的基于自注意力的隐层特征提取，包括：

28、对所述掩码特征序列进行多个层级的基于多头自注意力的隐层特征提取；其中，

29、多个自注意力头中的至少一个自注意力头的自注意力范围是隐层特征序列的局部范围。

30、上述方法，可选的，所述多个自注意力头中的第一自注意力头和第二自注意力头的自注意力范围是隐层特征序列的局部范围；其中，

31、对于所述隐层特征序列中的任一隐层特征，该任一隐层特征对应所述第一自注意力头的注意力范围是所述隐层特征序列中位于该任一隐层特征之前的多个隐层特征；该任一隐层特征对应所述第二自注意力头的注意力范围是所述隐层特征序列中位于该任一隐层特征之后的多个隐层特征。

32、一种语音识别方法，包括：

33、将待识别语音输入语音识别模型，得到所述语音识别模型输出的语音识别结果；

34、所述语音识别模型通过如上任一项所述的语音识别模型训练方法训练得到。

35、一种语音识别模型训练装置，包括：

36、第一预训练模块，用于利用无标注语音数据集对语音识别模型进行第一轮自监督预训练，得到第一预训练的语音识别模型；

37、输入模块，用于将所述无标注语音数据集中的无标注语音数据输入所述第一预训练的语音识别模型，得到所述第一预训练的语音识别模型的目标中间层输出的各个无标注语音数据的隐层特征序列；

38、伪标签确定模块，用于基于各个无标注语音数据的隐层特征序列确定各个无标注语音数据的至少两个第一类伪标签；不同的第一类伪标签对应不同粒度的语义信息；

39、第二预训练模块，用于利用所述无标注语音数据集，以及无标注语音数据的至少两个第一类伪标签对所述第一预训练的语音识别模型进行第二轮自监督预训练，得到第二预训练的语音识别模型；任一无标注语音数据的不同第一类伪标签用于确定所述第一预训练的语音识别模型的不同网络层的自监督损失；

40、微调模块，用于利用有标注的语音数据集对所述第二预训练的语音识别模型进行有监督的训练，得到目标语音识别模型。

41、一种语音处理设备，包括存储器和处理器；

42、所述存储器，用于存储程序；

43、所述处理器，用于执行所述程序，实现如上任一项所述的语音识别模型训练方法，和/或，如上所述的语音识别方法的各个步骤。

44、一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上任一项所述的语音识别模型训练方法，和/或，如上所述的语音识别方法的各个步骤。

45、从上述的技术方案可以看出，本技术实施例提供的语音识别方法、模型训练方法、装置、设备及存储介质，对语音识别模型训练的方式为：利用无标注语音数据集对语音识别模型进行第一轮自监督预训练，得到第一预训练的语音识别模型；将无标注语音数据集中的无标注语音数据输入第一预训练的语音识别模型，得到第一预训练的语音识别模型的目标中间层输出的各个无标注语音数据的隐层特征序列；基于各个无标注语音数据的隐层特征序列确定各个无标注语音数据的至少两个第一类伪标签；不同的第一类伪标签对应不同粒度的语义信息；利用无标注语音数据集，以及无标注语音数据的至少两个第一类伪标签对第一预训练的语音识别模型进行第二轮自监督预训练，得到第二预训练的语音识别模型；任一无标注语音数据的不同的第一类伪标签用于确定第一预训练的语音识别模型的不同网络层的自监督损失；利用有标注的语音数据集对第二预训练的语音识别模型进行有监督的训练，得到目标语音识别模型。

46、本技术对语音识别模型的训练过程包括两轮自监督预训练和一轮有监督的微调，在第二轮自监督预训练过程中，利用对应不同语义粒度的第一类伪标签计算语音识别模型的不同层的自监督损失，使得预训练的语音识别模型可以学习到不同粒度的语音内容信息，从而提高语音识别模型的识别准确率。