技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别歧义消除方法及装置与流程 > 正文

语音识别歧义消除方法及装置与流程

国知局
2024-06-21 11:46:06

本发明涉及制冷设备的语音识别，尤其涉及一种制冷设备的语音识别歧义消除方法及装置。

背景技术：

1、随着科技的进步，用户对于制冷设备的智能化提出了新的要求，例如在用户使用冰箱的场景中，用户对冰箱发出语音，冰箱进行语音识别，然后按照语音命令进行对应的操作。

2、虽然语音识别技术目前比较成熟，但是还无法做到100％的准确率，即使语音识别准确识别了这些字，但用户的日常对话一般内容较为简短，存在一些内容的省略，仅通过该省略句无法判断用户的真实意图。举例而言，用户说“放小苹果”，不能完全准确的判断用户是想播放小苹果的音乐，还是想向冰箱中添加小苹果这一食材。

3、所以，在用户对制冷设备进行语音控制时，还无法完全达到用户的预期，距离完全理解用户的意图还有很长的路要走。

技术实现思路

1、为解决上述的现有技术问题中的至少其一，本发明的目的在于提供一种在制冷设备的使用场景下，能准确理解用户意图的语音识别歧义消除的方法及装置。

2、为实现上述发明目的，本发明一实施方式提供一种语音识别歧义消除方法，包括如下步骤：

3、将语音数据转译为文本数据；

4、在歧义词典中查询所述文本数据中是否存在歧义词；

5、若是，继续如下步骤：

6、获取图像数据，其中，所述图像数据包括用户所持物品或未持物品的图像；

7、将所述图像数据输入图像模型，得到图像识别结果；

8、获取与智能决策参数对应的量化数据智能决策参数，其中，所述智能决策参数是智能决策模型中的若干参数，所述文本数据在智能决策模型中匹配的若干参数，所述智能决策模型是使用经大量训练用文本数据、训练用图像识别结果和多个训练用判断参数，经过机器学习训练获得的决策模型；

9、将所述文本数据、所述图像识别结果和所述量化数据输入所述智能决策模型，得到决策文本；

10、将所述决策文本输入语言模型，得到用户意图识别结果，其中，所述语言模型是经大量文本训练的用于识别意图的深度学习模型。

11、作为本发明的进一步改进，所述图像模型为二分类模型，所述图像识别结果包括有和没有两种结果；

12、若结果为有，所述图像数据包括所述歧义词的内容；

13、若结果为没有，所述图像数据不包括所述歧义词的内容。

14、作为本发明的进一步改进，还包括步骤：

15、若所述歧义词内容为食材词汇，当所述图像识别结果为有，所述决策文本中的食材词汇确定为食材意图。

16、作为本发明的进一步改进，所述智能决策模型可以使用决策树或gbdt算法进行训练。

17、作为本发明的进一步改进，还包括步骤：

18、在歧义词典中查询所述文本数据中是否存在歧义词；

19、若否，将所述文本数据输入所述语言模型，得到用户意图识别结果。

20、作为本发明的进一步改进，所述步骤将语音数据转译为文本数据包括：

21、将所述语音数据降噪，得到用户语音加强数据；

22、截取所述用户语音加强数据，得到用户语音数据；

23、识别所述用户语音数据，得到文本数据。

24、作为本发明的进一步改进，所述步骤识别所述用户语音数据，得到文本数据包括：

25、识别所述用户语音数据，得到待检查文本数据；

26、检查所述待检查文本中是否有错别字；

27、若有，纠正所述待检查文本数据中的错别字得到文本数据；

28、若无，所述待检查文本数据为所述文本数据。

29、作为本发明的进一步改进，所述若干参数包括用户习惯参数、用户特征参数、是否为周末参数、时间参数、气温参数。

30、为实现上述发明目的之一，本发明一实施例提供了一种语音识别歧义消除装置，包括：

31、转译模块，用于将语音数据转译为文本数据；

32、查询模块，用于在歧义词典中查询所述文本数据中是否存在歧义词；

33、图像获取模块，用于获取图像数据，其中，所述图像数据包括用户所持物品或未持物品的图像；

34、图像模型模块，用于将所述图像数据输入图像模型，得到图像识别结果；

35、量化数据获取模块，用于获取与智能决策参数对应的量化数据，其中，所述智能决策参数是智能决策模型中的若干参数，所述智能决策模型是使用大量训练用文本数据、训练用图像识别结果和训练用判断参数，经过机器学习训练获得的决策模型；

36、决策模块，用于将所述文本数据、所述图像识别结果和所述量化数据输入所述智能决策模型，得到决策文本；

37、意图识别模块，用于将所述决策文本输入语言模型，得到用户意图识别结果，其中，所述语言模型是经大量文本训练的用于识别意图的深度学习模型。

38、为实现上述发明目的之一，本发明一实施例提供了一种电子设备，包括：

39、存储模块，存储计算机程序；

40、处理模块，执行所述计算机程序时可实现上述的语音识别歧义消除方法中的步骤。

41、为实现上述发明目的之一，本发明一实施例提供了一种可读存储介质，其存储有计算机程序，该计算机程序被处理模块执行时可实现上述的语音识别歧义消除方法中的步骤。

42、与现有技术相比，本发明具有以下有益效果：运用该语音识别歧义消除的方法及装置，当语音含有歧义内容时，通过结合图像数据的图像识别结果，以及融合多项智能决策参数的数据信息做决策，可以直接对语音中的歧义内容进行判断，也就是说，对用户的语音含有歧义的内容能够消除，更清楚地理解用户的真实需求，提高了用户的使用体验。

技术特征：

1.一种语音识别歧义消除方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的语音识别歧义消除方法，其特征在于，所述图像模型为二分类模型，所述图像识别结果包括有和没有两种结果；

3.根据权利要求2所述的语音识别歧义消除方法，其特征在于，还包括步骤：

4.根据权利要求1所述的语音识别歧义消除方法，其特征在于，所述智能决策模型可以使用决策树或gbdt算法进行训练。

5.根据权利要求1所述的语音识别歧义消除方法，其特征在于，还包括步骤：

6.根据权利要求1所述的语音识别歧义消除方法，其特征在于，所述步骤将语音数据转译为文本数据包括：

7.根据权利要求6所述的语音识别歧义消除方法，其特征在于，所述步骤识别所述用户语音数据，得到文本数据包括：

8.根据权利要求1所述的语音识别歧义消除方法，其特征在于，所述若干参数包括用户习惯参数、用户特征参数、是否为周末参数、时间参数、气温参数。

9.一种语音识别歧义消除装置，其特征在于，包括：

10.一种电子设备，其特征在于，包括：

11.一种可读存储介质，其存储有计算机程序，其特征在于，该计算机程序被处理模块执行时可实现权利要求1至9中任意一项所述的语音识别歧义消除方法中的步骤。

技术总结本发明揭示了一种语音识别歧义消除方法及装置，方法包括步骤：若歧义词典中查询文本数据中存在歧义词；则获取图像数据；将所述图像数据输入图像模型，得到图像识别结果；获取与所述智能决策参数对应的量化数据；将所述文本数据、所述图像识别结果和所述量化数据输入所述智能决策模型，得到决策文本；将所述决策文本输入语言模型，得到用户意图识别结果。当语音含有歧义内容时，通过结合图像数据的图像识别结果，以及融合多项智能决策参数的数据信息做决策，可以直接对语音中的歧义内容进行判断，清楚地理解用户的真实需求，提高了用户的使用体验。技术研发人员：马坚,李敏,曾谁飞,刘卫强,孔令磊,张景瑞受保护的技术使用者：青岛海尔电冰箱有限公司技术研发日：技术公布日：2024/4/24