技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音指令处理方法、装置、系统以及存储介质与流程  >  正文

一种语音指令处理方法、装置、系统以及存储介质与流程

  • 国知局
  • 2024-06-21 10:38:29

本技术涉及语音控制,尤其涉及一种语音指令处理方法、装置、系统以及存储介质。

背景技术:

1、随着信息技术的飞速发展,语音控制作为人机交互的一种形式应用得越来越广泛。

2、目前,语音控制通常是通过语音助手实现的,用户可以通过语音助手输入语音指令,然后语音助手根据用户输入的语音指令控制电子设备执行与语音指令相对应的操作。尤其在智能家居领域,语音助手可以作为智能家居的控制端口,直接通过语音对话,自动控制智能设备,方便用户对各种设备的使用。

3、当前的语音助手对语音指令的处理缺乏多轮接续的能力,要求用户每次输入的语音指令提供完整信息,比如需要包括意图和槽位,若用户输入的语音指令语义不完整,比如缺少执行设备,则语音助手无法理解该语音指令,该语音指令无法被执行。

技术实现思路

1、本技术实施例提供一种语音指令处理方法、装置、系统以及存储介质,用以在语音指令语义缺失的情况下,确定该语音指令的完整语义,从而可以使得该语音指令能够被执行。

2、第一方面,提供一种语音指令处理方法,该方法可以由语音助手执行。所述方法包括:获取第一语音指令,确定所述第一语音指令的意图,并根据所述第一语音指令的意图确定所述第一语音指令缺失槽位;获取历史语音指令集合中的第二语音指令,所述第二语音指令与所述第一语音指令相关;根据所述第二语音指令的槽位确定所述第一语音指令的槽位。

3、上述实现方式中,在第一语音指令缺失槽位(比如意图的执行者,更具体地,比如执行设备、应用或服务等)的情况下,可以利用历史语音指令集合中与第一语音指令相关的第二语音指令的槽位,来填充第一语音指令的槽位,从而得到语义完整的语音指令,进而可以使得该语音指令能够被执行。

4、在一种可能的实现方式中,所述根据所述第二语音指令的槽位确定所述第一语音指令的槽位包括:所述第一语音指令缺失的槽位由所述第二语音指令对应的槽位提供。

5、在一种可能的是实现方式中,所述根据所述第二语音指令的槽位确定所述第一语音指令的槽位之后,所述方法还包括:将所述第二语音指令的槽位添加到所述第一语音指令中,将添加有所述槽位的第一语音指令存储到所述历史语音指令集合中。

6、上述实现方式中,将补充完整的第一语音指令存储到历史语音指令集合中,可以为后续的语音处理操作提供依据。可选的,可以在第一语音指令执行成功后,将该第一语音指令存储到历史语音指令集合中。

7、可选的,所述将所述第二语音指令的槽位添加到所述第一语音指令中,包括:获取所述第二语音指令的结构化数据中的槽位,所述第二语音指令的结构化数据中的槽位为自然语言表述的槽位信息或为协议参数,所述协议参数为对所述自然语言表述的槽位信息进行映射后得到的协议参数;将所述第二语音指令的结构化数据中的槽位,添加到所述第一语音指令的结构化数据中。

8、可选的,所述方法还包括:若所述第一语音指令中包括用于指示所述第一语音指令的槽位的指示代词,则将所述指示代词从所述第一语音指令中删除。

9、在将第一语音指令补充完整后,将其中用于指示槽位的指示代词删除,可以使得该语音指令的语义更清楚。

10、在一种可能的实现方式中,所述获取历史语音指令集合中的第二语音指令,包括:根据所述第一语音指令与历史语音指令集合中的历史语音指令的相关度,获取所述历史语音指令集合中与所述第一语音指令相关的第二语音指令。

11、可选的,所述根据所述第一语音指令与历史语音指令集合中的历史语音指令的相关度,获取所述历史语音指令集合中与所述第一语音指令相关的第二语音指令,包括:根据所述第一语音指令、所述第一语音指令的意图和/或所述第一语音指令对应的关联信息,以及所述历史语音指令集合中各历史语音指令、各历史语音指令的意图和/或对应的关联信息,确定所述第一语音指令与所述历史语音指令集合中各历史语音指令的相关度;其中,所述第一语音指令对应的关联信息是在接收到所述第一语音指令时收集的,所述历史语音指令对应的关联信息是在接收到所述历史语音指令时收集的;根据所述第一语音指令与所述历史语音指令集合中各历史语音指令的相关度,从所述历史语音指令集合中选取与所述第一语音指令相关的第二语音指令。

12、上述实现方式中,根据语音指令对应的关联信息进行语音指令的匹配操作,可以使得匹配结果(即匹配到的第二语音指令)更加准确。

13、在一种可能的实现方式中,所述获取历史语音指令集合中的第二语音指令,包括:第一电子设备向云端或第三电子设备发送第一请求消息,所述第一请求消息用于请求获取所述历史语音指令集合中与所述第一语音指令关联的语音指令;其中,所述第一电子设备为所述第一语音指令的接收设备;所述第一电子设备接收所述云端或所述第三电子设备发送的第一响应消息,所述第一响应消息中携带有所述第二语音指令,所述第二语音指令是根据所述第一语音指令与历史语音指令集合中的历史语音指令的相关度,从所述历史语音指令集合中获取到的。

14、可选的,所述第一请求消息携带所述第一语音指令、第一语音指令的意图和/或所述第一语音指令对应的关联信息。

15、可选的,所述第一语音指令对应的关联信息,包括以下至少一项:

16、设备信息,所述设备信息为所述第一语音指令的接收设备的信息;

17、用户账户信息,所述用户账户信息为登录语音助手的用户账户信息;

18、位置信息,所述位置信息为所述第一语音指令的接收设备的位置信息;

19、时间信息,所述时间信息包括所述第一语音指令的接收时间,和/或,所述第一语音指令与前一个接收到的语音指令之间的时间间隔;

20、用户身份信息,所述用户身份信息与所述第一语音指令的音频数据的特征信息相关联。

21、上述实现方式中,语音指令对应的关联信息可以包括多个不同维度的信息,从而提高匹配的准确性。

22、在一种可能的实现方式中,所述获取历史语音指令集合中的第二语音指令,以及所述根据所述第二语音指令的槽位确定所述第一语音指令的槽位,包括:云端根据所述第一语音指令与历史语音指令集合中的历史语音指令的相关度,获取所述历史语音指令集合中与所述第一语音指令相关的第二语音指令;根据所述第二语音指令的槽位确定所述第一语音指令的槽位,所述第一语音指令缺失的槽位由所述第二语音指令对应的槽位提供。

23、在一种可能的实现方式中,所述获取第一语音指令,包括:云端对来自第一电子设备的所述第一语音指令的音频数据进行转换,得到对应的文本数据;所述确定所述第一语音指令的意图,并根据所述第一语音指令的意图确定所述第一语音指令缺失槽位,包括:所述云端对所述文本数据进行解析,得到所述第一语音指令的意图,并根据所述第一语音指令的意图确定所述第一语音指令缺失槽位;所述获取历史语音指令集合中的第二语音指令,以及所述根据所述第二语音指令的槽位确定所述第一语音指令的槽位,包括:所述云端获取历史语音指令集合中的第二语音指令,并根据所述第二语音指令的槽位确定所述第一语音指令的槽位。

24、在一种可能的实现方式中,所述历史语音指令集合中包括历史语音指令的结构化数据,所述历史语音指令的结构化数据包括意图和槽位。

25、在一种可能的实现方式中,所述槽位为执行语音指令的意图的设备或应用或服务。

26、第二方面,提供一种语音指令处理系统,包括:

27、自动语音识别模块,用于将第一语音指令的音频数据转换为文本数据;

28、自然语言理解模块,用于对所述第一语音指令的文本数据进行解析,得到所述第一语音指令的意图;

29、处理模块,若根据所述第一语音指令的意图确定所述第一语音指令缺失槽位,则获取历史语音指令集合中的第二语音指令,根据所述第二语音指令的槽位确定所述第一语音指令的槽位;其中,所述第二语音指令与所述第一语音指令相关。

30、在一种可能的实现方式中,所述第一语音指令缺失的槽位由所述第二语音指令对应的槽位提供。

31、在一种可能的实现方式中,所述处理模块,还用于:在根据所述第二语音指令的槽位确定所述第一语音指令的槽位之后,将所述第二语音指令的槽位添加到所述第一语音指令中,将添加有所述槽位的第一语音指令存储到所述历史语音指令集合中。

32、可选的,所述处理模块,具体用于:获取所述第二语音指令的结构化数据中的槽位,所述第二语音指令的结构化数据中的槽位为自然语言表述的槽位信息或为协议参数,所述协议参数为对所述自然语言表述的槽位信息进行映射后得到的协议参数;将所述第二语音指令的结构化数据中的槽位,添加到所述第一语音指令的结构化数据中。

33、可选的,所述处理模块,还用于:若所述第一语音指令中包括用于指示所述第一语音指令的槽位的指示代词,则将所述指示代词从所述第一语音指令中删除。

34、在一种可能的实现方式中,所述处理模块,具体用于:根据所述第一语音指令与历史语音指令集合中的历史语音指令的相关度,获取所述历史语音指令集合中与所述第一语音指令相关的第二语音指令。

35、可选的,所述处理模块,具体用于:根据所述第一语音指令、所述第一语音指令的意图和/或所述第一语音指令对应的关联信息,以及所述历史语音指令集合中各历史语音指令、各历史语音指令的意图和/或对应的关联信息,确定所述第一语音指令与所述历史语音指令集合中各历史语音指令的相关度;其中,所述第一语音指令对应的关联信息是在接收到所述第一语音指令时收集的,所述历史语音指令对应的关联信息是在接收到所述历史语音指令时收集的;根据所述第一语音指令与所述历史语音指令集合中各历史语音指令的相关度,从所述历史语音指令集合中选取与所述第一语音指令相关的第二语音指令。

36、可选的,所述第一语音指令对应的关联信息,包括以下至少一项:

37、设备信息,所述设备信息为所述第一语音指令的接收设备的信息;

38、用户账户信息,所述用户账户信息为登录语音助手的用户账户信息;

39、位置信息,所述位置信息为所述第一语音指令的接收设备的位置信息;

40、时间信息,所述时间信息包括所述第一语音指令的接收时间,和/或,所述第一语音指令与前一个接收到的语音指令之间的时间间隔;

41、用户身份信息,所述用户身份信息与所述第一语音指令的音频数据的特征信息相关联。

42、在一种可能的实现方式中,所述历史语音指令集合中包括历史语音指令的结构化数据,所述历史语音指令的结构化数据包括意图和槽位。

43、在一种可能的实现方式中,所述槽位为执行语音指令的意图的设备或应用或服务。

44、在一种可能的实现方式中,所述自动语音识别模块、所述自然语言理解模块、所述处理模块位于第一电子设备;或者,所述自动语音识别模块、所述自然语言理解模块位于第一电子设备,所述处理模块位于云端或第三电子设备;或者,所述自动语音识别模块位于第一电子设备,所述自然语言理解模块、所述处理模块位于云端;或者,所述自动语音识别模块、所述自然语言理解模块、所述处理模块位于云端。

45、在一种可能的实现方式中,若所述自动语音识别模块、所述自然语言理解模块位于第一电子设备,所述处理模块位于云端,则所述第一电子设备与所述云端之间进行信息交互,比如,第一电子设备可以向云端发送请求消息,以请求云端的处理模块执行相应处理操作;云端的处理模块完成相应处理操作后,可以向第一电子设备返回响应消息。可选的,所述请求消息中可以携带所述第一语音指令的结构化数据(其中包括意图)和/或所述第一语音指令对应的关联信息,所述响应消息中可以携带所述第二语音指令或者所述第二语音指令的槽位。

46、在一种可能的实现方式中,若所述自动语音识别模块位于第一电子设备,所述自然语言理解模块、所述处理模块位于云端,则所述第一电子设备与所述云端之间进行信息交互,比如,第一电子设备可以向云端发送请求消息,以请求云端的处理模块执行相应处理操作;云端的处理模块完成相应处理操作后,可以向第一电子设备返回响应消息。可选的,所述请求消息中可以携带所述第一语音指令的文本数据和/或所述第一语音指令对应的关联信息,所述响应消息中可以携带所述第二语音指令或者所述第二语音指令的槽位。

47、在一种可能的实现方式中,上述系统还包括:执行模块,用于根据所述第一语音指令的意图和槽位,执行所述第一语音指令或指示所述第一语音指令的执行设备执行所述第一语音指令,所述执行设备由所述第一语音指令的槽位提供。

48、在一种可能的实现方式中,上述系统还包括:自然语言生成模块、文本转语音模块;

49、所述执行模块,还用于获取所述第一语音指令的执行结果;

50、所述自然语言生成模块,用于将所述第一语音指令的执行结果转换为文本数据,所述文本数据为文本格式的自然语言;

51、所述文本转语音模块,用于将所述文本数据转换为音频数据。

52、第三方面,提供一种电子设备,包括:一个或多个处理器;所述一个或多个存储器存储有一个或多个计算机程序,所述一个或多个计算机程序包括指令,当所述指令被所述一个或多个处理器执行时,使得所述电子设备执行如上述第一方面中任意一项所述的方法。

53、第四方面,提供一种计算机可读存储介质,包括计算机程序,当所述计算机程序在电子设备上运行时,使得所述电子设备执行如上述第一方面中任意一项所述的方法。

54、第五方面,提供一种计算机程序产品,当其在电子设备上运行时,使得所述电子设备执行如上述第一方面中任意一项所述的方法。

55、第六方面,提供一种芯片系统,包括:存储器,用于存储计算机程序;处理器;当处理器从存储器中调用并运行计算机程序后,使得安装有该芯片系统的电子设备执行如上述第一方面中任意一项所述的方法。

56、以上第二方面至第六方面的有益效果请参见第一方面的有益效果,不重复赘述。

本文地址:https://www.jishuxx.com/zhuanli/20240618/20871.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。