技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别方法、装置、设备及存储介质与流程 > 正文

语音识别方法、装置、设备及存储介质与流程

国知局
2024-06-21 11:36:58

本技术涉及语音处理，更具体地说，涉及一种语音识别方法、装置、设备及存储介质。

背景技术：

1、自动语音识别(automatic speech recognition，asr)是一种将语音序列转换为对应文本序列的技术，在语音输入法、字幕生成等场景中有广泛的应用。目前，较常用的语音识别方法是基于端到端网络的语音识别方法，但是，端到端网络缺乏定制能力，只能实现通用场景下的语音识别，在特定业务场景下的语音识别能力较弱。

技术实现思路

1、有鉴于此，本技术提供了一种语音识别方法、装置、设备及存储介质，以提高特定业务场景下的语音识别效果。

2、为了实现上述目的，现提出的方案如下：

3、一种语音识别方法，包括：

4、对语音进行特征提取，得到所述语音的各个语音帧的特征；

5、通过端到端网络对各个语音帧的特征进行编码，得到各个语音帧的编码特征；

6、通过所述端到端网络和第一解码网络对所述各个语音帧的编码特征进行解码，得到多个字序列；

7、通过所述第一解码网络对所述多个字序列进行解码，得到第一词序列；

8、通过基于热词激励的第二解码网络对所述各个语音帧的编码特征进行解码，得到第二词序列；

9、在所述第一词序列和所述第二词序列中筛选出置信度高的词序列作为语音识别结果。

10、上述方法，可选的，所述通过基于热词激励的第二解码网络对所述各个语音帧的编码特征进行解码，包括：

11、通过基于热词激励的第一子解码网络对所述各个语音帧的编码特征进行一遍解码，得到多个第一初始词序列；通过基于热词激励的第二子解码网络对所述多个第一初始词序列进行二遍解码，得到所述第二词序列；

12、或者，

13、通过基于热词和特定句式构建的第三子解码网络对所述各个语音帧的编码特征进行解码，得到所述第二词序列；

14、或者，

15、通过基于第一类热词激励的第一子解码网络对所述各个语音帧的编码特征进行一遍解码，得到多个第一初始词序列；通过基于所述第一类热词激励的第二子解码网络对所述多个第一初始词序列进行二遍解码，得到第一候选词序列；通过基于第二类热词和特定句式构建的第三子解码网络对所述各个语音帧的编码特征进行解码，得到第二候选词序列；在所述第一候选词序列和所述第二候选词序列中筛选出置信度高的候选词序列作为所述第二词序列。

16、上述方法，可选的，所述在所述第一候选词序列和所述第二候选词序列中筛选出置信度高的候选词序列，包括：

17、获得所述第一候选词序列中的各个词的第一评分总和，以及所述第二候选序列中的各个词的第二评分总和；

18、将所述第一评分总和，以及所述第二评分总和中较大值对应的候选词序列确定为置信度高的候选词序列；或者，

19、将所述第二评分总和与预设加权系数相乘，得到加权后评分；将所述加权后评分和所述第一评分总和中的较大值对应的候选词序列确定为置信度高的候选词序列。

20、上述方法，可选的，通过第一解码网络对所述多个字序列进行解码，包括：

21、通过第四子解码网络对所述多个字序列进行一遍解码，得到多个第二初始词序列；

22、通过第五子解码网络对所述多个第二初始词序列进行二遍解码，得到所述第一词序列。

23、上述方法，可选的，所述在所述第一词序列和所述第二词序列中筛选出置信度高的词序列作为语音识别结果，包括：

24、获得所述第一词序列的第一单字平均分，以及所述第二词序列的第二单字平均分；

25、将所述第一单字平均分和所述第二单字平均分中的较大值对应的词序列确定为语音识别结果。

26、上述方法，可选的，所述方法还包括：

27、如果所述第一单字平均分等于所述第二单字平均分，获得所述第一词序列中的第一单字数量，以及所述第二词序列中的第二单字数量；

28、如果所述第二单字数量与所述第一单字数量的差距大于预设阈值，将所述第二词序列确定为语音识别结果，否则，将所述第一词序列确定为语音识别结果。

29、上述方法，可选的，在所述第二解码网络包括第一子解码网络、第二子解码网络和第三子解码网络的情况下，在将所述第一单字平均分和所述第二单字平均分中的较大值对应的词序列确定为语音识别结果之前，还包括：

30、判断所述第二词序列是否满足第一条件；所述第一条件包括：所述第二词序列来自所述第三子解码网络，或者，所述第二词序列来自所述基于热词激励的第二子解码网络，且所述第二词序列中包含用于激励所述第二子解码网络的热词；

31、若所述第二词序列不满足第一条件，将所述第一单字平均分和所述第二单字平均分中的较大值对应的词序列确定为语音识别结果。

32、上述方法，可选的，还包括：

33、如果所述第二词序列满足第一条件，将所述第二词序列确定为语音识别结果。

34、上述方法，可选的，所述端到端网络通过如下方式训练得到：

35、通过所述端到端网络对语音样本进行编码，得到所述语音样本的编码特征；

36、通过所述端到端网络和所述第一解码网络对所述编码特征进行解码，得到目标字序列；

37、通过输出模块对所述编码特征进行解码，得到目标音素序列；

38、以所述目标字序列趋近于所述语音样本对应的字序列标签，所述目标音素序列趋近于所述语音样本对应的音素序列标签为目标，对所述端到端网络的参数进行更新。

39、一种语音识别装置，包括：

40、特征提取模块，用于对语音进行特征提取，得到所述语音的各个语音帧的特征；

41、第一识别模块，用于通过端到端网络和第一解码网络对各个语音帧的特征进行编码，得到各个语音帧的编码特征；通过所述端到端网络对所述各个语音帧的编码特征进行解码，得到多个字序列；

42、第二识别模块，用于通过所述第一解码网络对所述多个字序列进行解码，得到第一词序列；

43、第三识别模块，用于通过基于热词激励的第二解码网络对所述各个语音帧的编码特征进行解码，得到第二词序列；

44、筛选模块，用于在所述第一词序列和所述第二词序列中筛选出置信度高的词序列作为语音识别结果。

45、一种语音识别设备，包括存储器和处理器；

46、所述存储器，用于存储程序；

47、所述处理器，用于执行所述程序，实现如上任一项所述的语音识别方法的各个步骤。

48、一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如上任一项所述的语音识别方法的各个步骤。

49、从上述的技术方案可以看出，本技术实施例提供的语音识别方法、装置、设备及存储介质，对语音进行特征提取，得到语音的各个语音帧的特征；通过端到端网络对各个语音帧的特征进行编码，得到各个语音帧的编码特征；通过端到端网络对各个语音帧的编码特征进行解码，得到多个字序列；通过第一解码网络对多个字序列进行解码，得到第一词序列；通过基于热词激励的第二解码网络对各个语音帧的编码特征进行解码，得到第二词序列；在第一词序列和第二词序列中筛选出置信度高的词序列作为语音识别结果。本技术在端到端网络的基础上提供两路不同的解码网络将语音解码为两路词序列，其中一路解码网络是将基于端到端网络识别到的多个字序列解码为一个词序列，另一路解码网络是对端到端网络编码得到的各个语音帧的编码特征进行基于热词激励的解码，得到另一个词序列，这样既保留了端到端网络在通用场景下的语音识别效果，又提高了特定业务场景下热词的语音识别效果，通过从两路解码网络得到的词序列中筛选出置信度高的词序列作为语音识别结果，实现了整个识别系统在通用语音识别效果与个性化需求之间的平衡。