技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别方法、装置、设备及可读存储介质与流程 > 正文

语音识别方法、装置、设备及可读存储介质与流程

国知局
2024-06-21 11:41:28

本技术涉及语音输入，更具体的说，是涉及一种语音识别方法、装置、设备及可读存储介质。

背景技术：

1、语音输入技术能够极大简化人们在日常生活中的交流和信息输入难度，语音输入技术需要对用户输入的语音进行识别，得到识别结果。不同的用户在语音输入时，有不同的用词习惯和发音习惯，比如，不同年龄段的用户具有不同的用词习惯，年轻用户对流行词(比如“泰酷啦”)的使用较为频繁，不同地区的用户的具有不同的口音、方言等，但是，目前的语音输入技术在对用户输入的语音进行识别时，缺乏对用户个性化的用词习惯和发音习惯的考虑，导致识别结果可能与用户的输入意图不符。比如，用户想输入“这真是泰酷啦”，识别结果是“这真是太酷了”，则识别结果中的“太酷了”与用户的输入意图不符。

2、因此，如何提供一种语音识别方法，以使识别结果能够满足用户的个性化需求，成为本领域技术人员亟待解决的技术问题。

技术实现思路

1、鉴于上述问题，本技术提出了一种语音识别方法、装置、设备及可读存储介质。具体方案如下：

2、一种语音识别方法，所述方法包括：

3、获取用户的待识别语音数据，所述用户的个性化文本特征，以及预设的候选词表；

4、对所述待识别语音数据进行识别，得到原始识别结果；

5、基于所述待识别语音数据、所述原始识别结果、所述用户的个性化文本特征序列以及所述候选词表，确定目标词以及所述目标词对应的推荐词表，所述目标词为所述原始识别结果中与所述候选词表中词语的发音相似的词语，所述目标词对应的推荐词表是基于所述用户的个性化文本特征序列对所述候选词表中各候选词进行排序后得到的排序后的候选词表。

6、可选地，获取所述用户的个性化文本特征，包括：

7、从所述用户的终端侧获取所述用户的个性化文本特征，所述用户的个性化文本特征是所述终端侧对所述用户的历史上屏文本信息进行特征提取后得到的。

8、可选地，所述基于所述待识别语音数据、所述原始识别结果、所述用户的个性化文本特征序列以及所述候选词表，确定目标词以及所述目标词对应的推荐词表，包括：

9、确定所述待识别语音数据的声学特征序列；

10、基于所述原始识别结果、所述候选词表、所述声学特征序列和所述个性化文本特征，确定目标词以及所述目标词对应的推荐词表。

11、可选地，所述基于所述原始识别结果、所述候选词表、所述声学特征序列和所述个性化文本特征，确定目标词以及所述目标词对应的推荐词表，包括：

12、将所述声学特征序列和所述个性化文本特征进行融合，得到融合特征序列；

13、将所述融合特征序列、所述原始识别结果以及所述候选词表输入推荐模型，所述推荐模型从所述原始识别结果中确定出所述目标词，并对所述候选词表进行排序，得到排序后的候选词表。

14、可选地，在所述基于所述待识别语音数据、所述原始识别结果、所述用户的个性化文本特征序列以及所述候选词表，确定目标词以及所述目标词对应的推荐词表之后，所述方法还包括：

15、获取用户对所述目标词以及所述目标词对应的推荐词表的操作后产生的操作行为数据；

16、判断所述操作行为数据是否为有效操作行为数据；

17、如果所述操作行为数据是有效操作行为数据，则基于所述操作行为数据对所述推荐模型进行迭代优化。

18、可选地，所述判断所述操作行为数据是否为有效操作行为数据，包括：

19、获取所述用户对所述目标词以及所述目标词对应的推荐词表进行操作后的最终上屏文本；

20、计算所述原始识别结果与所述最终上屏文本的发音距离；

21、如果所述发音距离大于预设阈值，则确定所述操作行为数据为有效操作行为数据。

22、可选地，所述基于所述操作行为数据对所述推荐模型进行迭代优化，包括：

23、确定所述操作行为数据对应的奖励；

24、利用所述操作行为数据对应的奖励，对所述推荐模型进行迭代优化。

25、一种语音识别装置，所述装置包括：

26、获取单元，用于获取用户的待识别语音数据，所述用户的个性化文本特征，以及预设的候选词表；

27、识别单元，用于对所述待识别语音数据进行识别，得到原始识别结果；

28、推荐单元，用于基于所述待识别语音数据、所述原始识别结果、所述用户的个性化文本特征序列以及所述候选词表，确定目标词以及所述目标词对应的推荐词表，所述目标词为所述原始识别结果中与所述候选词表中词语的发音相似的词语，所述目标词对应的推荐词表是基于所述用户的个性化文本特征序列对所述候选词表中各候选词进行排序后得到的排序后的候选词表。

29、可选地，所述获取单元，具体用于：

30、从所述用户的终端侧获取所述用户的个性化文本特征，所述用户的个性化文本特征是所述终端侧对所述用户的历史上屏文本信息进行特征提取后得到的。

31、可选地，所述推荐单元，包括：

32、声学特征序列确定单元，用于确定所述待识别语音数据的声学特征序列；

33、确定单元，用于基于所述原始识别结果、所述候选词表、所述声学特征序列和所述个性化文本特征，确定目标词以及所述目标词对应的推荐词表。

34、可选地，所述确定单元，包括：

35、融合单元，用于将所述声学特征序列和所述个性化文本特征进行融合，得到融合特征序列；

36、推荐模型应用单元，用于将所述融合特征序列、所述原始识别结果以及所述候选词表输入推荐模型，所述推荐模型从所述原始识别结果中确定出所述目标词，并对所述候选词表进行排序，得到排序后的候选词表。

37、可选地，所述装置还包括：

38、操作行为数据获取单元，用于在所述基于所述待识别语音数据、所述原始识别结果、所述用户的个性化文本特征序列以及所述候选词表，确定目标词以及所述目标词对应的推荐词表之后，获取用户对所述目标词以及所述目标词对应的推荐词表的操作后产生的操作行为数据；

39、判断单元，用于判断所述操作行为数据是否为有效操作行为数据；

40、迭代优化单元，用于如果所述操作行为数据是有效操作行为数据，则基于所述操作行为数据对所述推荐模型进行迭代优化。

41、可选地，所述判断单元，具体用于：

42、获取所述用户对所述目标词以及所述目标词对应的推荐词表进行操作后的最终上屏文本；

43、计算所述原始识别结果与所述最终上屏文本的发音距离；

44、如果所述发音距离大于预设阈值，则确定所述操作行为数据为有效操作行为数据。

45、可选地，所述迭代优化单元，具体用于：

46、确定所述操作行为数据对应的奖励；

47、利用所述操作行为数据对应的奖励，对所述推荐模型进行迭代优化。

48、一种语音识别设备，包括存储器和处理器；

49、所述存储器，用于存储程序；

50、所述处理器，用于执行所述程序，实现如上所述的语音识别方法的各个步骤。

51、一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上所述的语音识别方法的各个步骤。

52、借由上述技术方案，本技术公开了一种语音识别方法、装置、设备及可读存储介质。在对用户的待识别语音数据进行识别，得到原始识别结果之后；基于待识别语音数据、原始识别结果、用户的个性化文本特征序列以及候选词表，确定目标词以及目标词对应的推荐词表，其中，目标词为原始识别结果中与候选词表中词语的发音相似的词语，目标词对应的推荐词表是基于用户的个性化文本特征序列对候选词表中各候选词进行排序后得到的排序后的候选词表。基于该方案，如果原始识别结果中的目标词不能满足用户的个性化需求，用户即可从目标词对应的推荐词表中选取能够满足用户的个性化需求的词，进而使识别结果能够满足用户的个性化需求。