技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别方法、装置、电子设备及计算机可读存储介质与流程  >  正文

语音识别方法、装置、电子设备及计算机可读存储介质与流程

  • 国知局
  • 2024-06-21 11:26:58

本技术涉及计算机,具体而言,本技术涉及一种语音识别方法、装置、电子设备及计算机可读存储介质。

背景技术:

1、近年来,随着语音识别技术显著发展,语音识别的应用场景愈加广泛,例如,语音识别可以应用于工业控制、语音拨号系统、智能家电、声控智能玩具、智能对话查询系统等许多领域。在实际应用中,基于语音识别可以为用户提供自然、友好的服务,服务例如数据库检索服务、家庭服务、宾馆服务、旅行社服务系统、订票系统、医疗服务、银行服务、股票查询服务等等。

2、但是,在相关技术中,通常存在语音识别结果准确率低的技术问题。

技术实现思路

1、本技术的目的旨在至少能解决上述的技术缺陷之一,特别是语音识别结果准确率低的技术缺陷。

2、根据本技术的一个方面,提供了一种语音识别方法,该方法包括:1、一种语音识别方法,其特征在于,包括:

3、获取待识别的第一语音信息;

4、将所述第一语音信息输入至预设识别模型,对所述第一语音信息进行信息识别,得到预测识别结果;其中,所述预测识别结果中包括预测指令意图和/或预测命名实体;

5、根据参考数据,对所述预测识别结果进行补充校正处理,得到目标识别结果;其中,所述参考数据的参考指令意图与所述预测指令意图关联和/或所述参考数据的参考命名实体与所述预测命名实体关联。

6、可选的,所述根据参考数据,对所述预测识别结果进行补充校正处理,得到目标识别结果之前,所述方法包括:

7、获取样本数据;

8、确定样本数据中的第一样本数据为所述参考数据;其中,所述第一样本数据的指令意图与所述参考指令意图的相似度大于第一阈值,和/或所述第一样本数据的命名实体与所述参考命名实体的相似度大于第二阈值。

9、可选的,所述根据参考数据,对所述预测识别结果进行补充校正处理,包括:

10、在所述预测识别结果的准确度低于第三阈值,和/或接收到用户针对所述预测识别结果的反馈信息的情况下,

11、根据所述参考数据,对所述预测识别结果进行补充校正处理。

12、可选的,所述将所述第一语音信息输入至预设识别模型,对所述第一语音信息进行信息识别,得到预测识别结果,包括:

13、通过第一子模型对所述第一语音信息进行特征提取,得到所述第一语音信息的信息特征向量;

14、通过第二子模型对所述信息特征向量进行意图识别及命名实体识别,得到所述预测识别结果;

15、所述预设识别模型包括所述第一子模型及所述第二子模型;

16、所述第一子模型包括自注意力模型;所述第二子模型包括双向神经网络模型。

17、可选的,所述通过第一子模型对所述第一语音信息进行特征提取,得到所述第一语音信息的信息特征向量,包括:

18、对所述第一语音信息进行分词处理,得到语音分词;

19、对每个所述语音分词进行编码处理,得到所述语音分词对应的编码信息;

20、通过第一子模型对所述编码信息进行特征提取,得到所述编码信息对应的信息特征向量。

21、可选的,所述通过第二子模型对所述信息特征向量进行意图识别及命名实体识别,得到所述预测识别结果,包括:

22、将预设数量的所述信息特征向量进行拼接处理,得到拼接向量;

23、将所述拼接向量输入所述第二子模型,对所述拼接向量进行意图识别及命名实体识别,得到所述预测指令意图及所述预测命名实体。

24、可选的,在得到的所述预测命名实体与实体信息之间的对应关系不符合预设关系的情况下,所述方法还包括:

25、根据预设询问模板,生成所述预测命名实体与所述实体信息的对应关系询问信息;

26、将所述对应关系询问信息发送给用户,并接收所述用户针对所述对应关系询问信息的反馈信息。

27、可选的,所述接收所述用户针对所述对应关系询问信息的反馈信息之后,所述方法还包括:

28、基于所述反馈信息生成所述预测指令信息。

29、可选的,在根据参考数据,对所述预测识别结果进行补充校正处理之前,所述方法还包括:

30、获取用户人脸图像;

31、基于所述用户人脸图像,确定用户身份信息;

32、根据所述用户身份信息,从预设数据库获取用户的所述样本数据。

33、可选的,所述基于所述用户人脸图像,确定用户身份信息,包括:

34、确定所述用户人脸图像中预设数量的参考点,基于所述参考点对所述用户人脸图像进行角度变换,得到标准图像;

35、通过特征提取算法,对所述标准图像进行特征提取,得到用户人脸特征;

36、基于所述用户人脸特征,确定用户身份信息。

37、根据本技术的另一个方面,提供了一种语音识别装置,该装置包括:

38、信息获取模块,用于获取待识别的第一语音信息;

39、信息识别模块,用于将所述第一语音信息输入至预设识别模型,对所述第一语音信息进行信息识别,得到预测识别结果;所述预测识别结果中包括预测指令意图和/或预测命名实体;

40、补充校正模块,用于根据参考数据,对所述预测识别结果进行补充校正处理,得到目标识别结果;其中,所述参考数据的参考指令意图与所述预测指令意图关联和/或所述参考数据的参考命名实体与所述预测命名实体关联。

41、根据本技术的另一个方面,提供了一种电子设备,该电子设备包括:

42、一个或多个处理器;

43、存储器;

44、一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行本技术的第一方面任一项所述的语音识别方法。

45、例如,本技术的第三方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;

46、存储器用于存放至少一可执行指令,可执行指令使处理器执行如本技术的第一方面所示的语音识别方法对应的操作。

47、根据本技术的再一个方面,提供了一种计算机可读存储介质,所述计算机程序被处理器执行时实现本技术的第一方面任一项所述的语音识别方法。

48、例如,本技术实施例的第四方面,提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现本技术第一方面所示的语音识别方法。

49、根据本技术的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面的各种可选实现方式中提供的方法。

50、本技术提供的技术方案带来的有益效果是:

51、本技术实施例中,通过预设识别模型对第一语音信息进行信息识别,得到预测识别结果,然后进一步基于参考数据对预测识别结果进行补充校正处理,由于参考数据一定程度上可以反映出用户的习惯信息或者主观意愿,因此,基于该参考数据对预测识别结果进行补充校正,可以提升语音信息识别的准确度。

本文地址:https://www.jishuxx.com/zhuanli/20240618/21590.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。