技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别方法、装置、设备及可读存储介质与流程 > 正文

语音识别方法、装置、设备及可读存储介质与流程

国知局
2024-06-21 11:28:19

本技术涉及语音处理，更具体的说，是涉及一种语音识别方法、装置、设备及可读存储介质。

背景技术：

1、目前的语音识别模型有传统的语音识别模型和端到端语音识别模型，其中，传统的语音识别模型是声学模型和语言模型独立建模的，端到端语音识别模型具有声学和语言联合建模的优点，成为现阶段应用最广泛的语音识别模型。

2、语音识别应用场景包括很多个领域，比如教育、医疗、车载等等，因此，如何保证端到端语音识别模型在各领域的识别效果，成为本领域技术人员亟待解决的技术问题。

技术实现思路

1、鉴于上述问题，本技术提出了一种语音识别方法、装置、设备及可读存储介质。具体方案如下：

2、一种语音识别方法，所述方法包括：

3、获取待识别语音数据；

4、确定所述待识别语音数据的声学特征序列；

5、获取所述待识别语音数据所属领域的提示向量参数，所述提示向量参数是用于指示所述领域专有的语音识别信息；

6、将所述提示向量参数和所述声学特征序列，输入多领域语音识别模型，所述多领域语音识别模型对所述提示向量参数和所述声学特征序列进行编解码处理，得到所述语音数据的识别结果，所述多领域语音识别模型和所述提示向量参数是通过对端到端语音识别模型进行领域自适应训练得到的。

7、可选地，所述多领域语音识别模型，包括：编码器和解码器；所述编码器中包括n个编码块，所述解码器中包括n个解码块，所述编码块和所述解码块均包括注意力机制模块；

8、所述多领域语音识别模型对所述提示向量参数和所述声学特征序列进行编解码处理，得到所述语音数据的识别结果，包括：

9、所述编码器基于所述提示向量参数和所述声学特征序列进行编码处理，所述解码器基于所述提示向量参数和所述编码器的输出进行解码处理，得到所述语音数据的识别结果。

10、可选地，所述提示向量参数包括键提示向量参数和值提示向量参数，每个注意力机制模块的处理方式包括：

11、确定查询向量参数、键向量参数和值向量参数；

12、将所述键提示向量参数与所述键向量参数进行拼接，得到键拼接向量参数；

13、将所述值提示向量参数与所述值向量参数进行拼接，得到值拼接向量参数；

14、基于所述查询向量参数、所述键拼接向量参数和所述值拼接向量参数，计算所述注意力机制模块的输出。

15、可选地，所述编码块包括第一注意力机制模块，针对每个编码块的注意力机制模块，所述查询向量参数、键向量参数和值向量参数的确定方式，包括：

16、基于所述编码块的原始输入计算查询向量参数、键向量参数和值向量参数；

17、其中，第一个编码块的原始输入为所述待识别语音数据的声学特征序列，除所述第一个编码块之外的其他编码块的原始输入为其上一个编码块的输出。

18、可选地，所述解码块包括第二注意力机制模块和第三注意力机制模块，针对所述解码块的每个注意力机制模块，所述查询向量参数、键向量参数和值向量参数的确定方式，包括：

19、基于所述注意力机制模块的原始输入计算查询向量参数、键向量参数和值向量参数；

20、其中，第一个解码块的第二注意力机制模块的原始输入为已解码出的文本序列，第三注意力机制模块的原始解码输入为该解码块中第一注意力机制模块输出和所述编码器的输出；除所述第一个解码块之外的其他解码块的第二注意力机制模块的原始输入为其上一个解码块的输出，第三注意力机制模块的原始输入为该解码块中第二注意力机制模块的输出。

21、可选地，所述基于所述查询向量参数、所述键拼接向量参数和所述值拼接向量参数，计算所述注意力机制模块的输出，包括：

22、将所述查询向量参数与所述键拼接向量参数进行矩阵相乘，得到注意力机制的权重；

23、将所述注意力机制的权重与所述值拼接向量参数进行矩阵相乘，得到所述注意力机制模块的输出。

24、可选地，所述注意力机制模块为单头注意力机制模块或多头注意力机制模块中的每个注意力机制层。

25、可选地，所述对端到端语音识别模型进行领域自适应训练的方式包括：

26、获取各领域的语音识别训练数据，以及，各领域的初始提示向量参数；每个领域的语音识别训练数据包括所述领域的训练用语音的声学特征序列，以及与所述训练用语音对应的文本标注序列；

27、将各个领域的训练用语音的声学特征序列输入端到端语音识别模型，将各个领域的提示向量参数输入所述端到端语音识别模型中各注意力机制模块，得到所述端到端语音识别模型输出的结果；

28、根据所述端到端语音识别模型输出的结果以及所述训练用语音对应的文本标注序列，确定所述端到端语音识别模型的预测损失；

29、根据所述端到端语音识别模型的预测损失，对各个领域的提示向量参数进行更新，训练结束后得到所述多领域语音识别模型以及各个领域的提示向量参数。

30、一种语音识别装置，所述装置包括：

31、语音数据获取单元，用于获取待识别语音数据；

32、声学特征序列确定单元，用于确定所述待识别语音数据的声学特征序列；

33、提示向量参数获取单元，用于获取所述待识别语音数据所属领域的提示向量参数，所述提示向量参数是用于指示所述领域专有的语音识别信息；

34、识别单元，用于将所述提示向量参数和所述声学特征序列，输入多领域语音识别模型，所述多领域语音识别模型对所述提示向量参数和所述声学特征序列进行编解码处理，得到所述语音数据的识别结果，所述多领域语音识别模型和所述提示向量参数是通过对端到端语音识别模型进行领域自适应训练得到的。

35、可选地，所述多领域语音识别模型，包括：编码器和解码器；所述编码器中包括n个编码块，所述解码器中包括n个解码块，所述编码块和所述解码块均包括注意力机制模块；

36、所述识别单元，具体用于：

37、所述编码器基于所述提示向量参数和所述声学特征序列进行编码处理，所述解码器基于所述提示向量参数和所述编码器的输出进行解码处理，得到所述语音数据的识别结果。

38、可选地，所述提示向量参数包括键提示向量参数和值提示向量参数，所述注意力机制模块，包括：

39、确定单元，用于确定查询向量参数、键向量参数和值向量参数；

40、第一拼接单元，用于将所述键提示向量参数与所述键向量参数进行拼接，得到键拼接向量参数；

41、第二拼接单元，将所述值提示向量参数与所述值向量参数进行拼接，得到值拼接向量参数；

42、计算单元，用于基于所述查询向量参数、所述键拼接向量参数和所述值拼接向量参数，计算所述注意力机制模块的输出。

43、可选地，所述编码块包括第一注意力机制模块，针对每个编码块的注意力机制模块，所述确定单元，具体用于：

44、基于所述编码块的原始输入计算查询向量参数、键向量参数和值向量参数；

45、其中，第一个编码块的原始输入为所述待识别语音数据的声学特征序列，除所述第一个编码块之外的其他编码块的原始输入为其上一个编码块的输出。

46、可选地，所述解码块包括第二注意力机制模块和第三注意力机制模块，针对所述解码块的每个注意力机制模块，所述确定单元，具体用于：

47、基于所述注意力机制模块的原始输入计算查询向量参数、键向量参数和值向量参数；

48、其中，第一个解码块的第二注意力机制模块的原始输入为已解码出的文本序列，第三注意力机制模块的原始解码输入为该解码块中第一注意力机制模块输出和所述编码器的输出；除所述第一个解码块之外的其他解码块的第二注意力机制模块的原始输入为其上一个解码块的输出，第三注意力机制模块的原始输入为该解码块中第二注意力机制模块的输出。

49、可选地，所述计算单元，具体用于：

50、将所述查询向量参数与所述键拼接向量参数进行矩阵相乘，得到注意力机制的权重；

51、将所述注意力机制的权重与所述值拼接向量参数进行矩阵相乘，得到所述注意力机制模块的输出。

52、可选地，所述注意力机制模块为单头注意力机制模块或多头注意力机制模块中的每个注意力机制层。

53、可选地，所述对端到端语音识别模型进行领域自适应训练的方式包括：

54、获取各领域的语音识别训练数据，以及，各领域的初始提示向量参数；每个领域的语音识别训练数据包括所述领域的训练用语音的声学特征序列，以及与所述训练用语音对应的文本标注序列；

55、将各个领域的训练用语音的声学特征序列输入端到端语音识别模型，将各个领域的提示向量参数输入所述端到端语音识别模型中各注意力机制模块，得到所述端到端语音识别模型输出的结果；

56、根据所述端到端语音识别模型输出的结果以及所述训练用语音对应的文本标注序列，确定所述端到端语音识别模型的预测损失；

57、根据所述端到端语音识别模型的预测损失，对各个领域的提示向量参数进行更新，训练结束后得到所述多领域语音识别模型以及各个领域的提示向量参数。

58、一种语音识别设备，包括存储器和处理器；

59、所述存储器，用于存储程序；

60、所述处理器，用于执行所述程序，实现如上所述的语音识别方法的各个步骤。

61、一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上所述的语音识别方法的各个步骤。

62、借由上述技术方案，本技术公开了一种语音识别方法、装置、设备及可读存储介质。本方案中，预先对端到端语音识别模型进行领域自适应训练得到多领域语音识别模型以及各领域的提示向量参数，每个领域的提示向量参数用于指示该领域专有的语音识别信息，在获取待识别语音数据、确定待识别语音数据的声学特征序列之后，获取待识别语音数据所属领域的提示向量参数，将该提示向量参数和声学特征序列，输入该领域的多领域语音识别模型，多领域语音识别模型对提示向量参数和声学特征序列进行编解码处理，得到语音数据的识别结果。本方案可有效保证端到端语音识别模型在各领域识别效果。