技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音交互控制方法、装置、电子设备和存储介质与流程 > 正文

一种语音交互控制方法、装置、电子设备和存储介质与流程

国知局
2024-06-21 11:33:13

本公开涉及人机智能交互，具体涉及一种语音交互控制方法、装置、电子设备和存储介质。

背景技术：

1、所见即可说是指页面上能看到的所有内容(所见)，都可以通过语音来控制(所说)。目前，在车机端实现所见即可说功能主要存在三种方案：方案1，应用将变化的页面信息上传至语音系统，由语音系统管理所见即可说信息；方案2，语音系统监听应用页面变化，抓取页面信息，以管理所见即可说信息；方案3，将前述方案1和2相结合，由语音系统抓取页面控件信息，其他复杂的页面信息则由车载应用上报给语音系统。

2、上述方案存在以下问题：应用需要二次开发，也即需要提前定义支持语音的功能并进行研发，消耗大量的人力物力成本；应用上线后若需要增删改已定义的词汇，则要重新编写代码进行版本发布，灵活性和可扩展性差；对云端的依赖性强，一旦断开网络连接或网络状态不佳，则会导致应用上报失败或者所见即可说命中失败，成功率和准确率不高。

技术实现思路

1、为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种语音交互控制方法、装置、电子设备和存储介质，灵活性强、可扩展性高、所见即可说功能的成功率和准确率高。

2、为了实现上述目的，本公开实施例提供的技术方案如下：

3、第一方面，本公开提供一种语音交互控制方法，包括：

4、获取用户语音指令，识别用户语音指令对应的语音文本；

5、将语音文本与本地存储的目标词数据进行匹配，目标词数据用于指示当前页面内容，包括快词数据，和/或，热词数据；

6、在语音文本与目标词数据的匹配参数大于或等于第一预设阈值的情况下，触发目标词数据对应的显示控件，以执行显示控件对应的操作。

7、作为本公开实施例一种可选的实施方式，获取用户语音指令，识别用户语音指令对应的语音文本之后，将语音文本与本地存储的目标词数据进行匹配之前，方法还包括：

8、扫描当前页面，获取当前页面信息，当前页面信息包括：应用标识，当前页面路径和尺寸，当前页面中控件的坐标、尺寸、路径标识和对应的事件属性，以及屏幕尺寸；

9、根据当前页面信息生成快词数据。

10、作为本公开实施例一种可选的实施方式，将语音文本与本地存储的目标词数据进行匹配之后，还包括：

11、在语音文本与快词数据的匹配参数小于或等于第二预设阈值的情况下，将语音文本与热词数据进行匹配；其中，热词数据是从服务器下载后存储于本地的，第二预设阈值小于第一预设阈值；

12、在语音文本与热词数据的匹配参数大于或等于第一预设阈值的情况下，将快词数据对应的第一控件路径标识与热词数据对应的第二控件路径标识进行匹配；

13、在第一控件路径标识与第二控件路径标识匹配的情况下，获取第一控件路径标识对应的第一控件的坐标；

14、根据第一控件的坐标触发第一控件，以执行第一控件对应的操作。

15、作为本公开实施例一种可选的实施方式，在语音文本与快词数据的匹配参数小于或等于第二预设阈值的情况下，将语音文本与热词数据进行匹配之后，方法还包括：

16、在语音文本与热词数据的匹配参数小于或等于第二预设阈值的情况下，将语音文本上传至服务器，以由服务器对语音文本进行解析校准处理和匹配；

17、接收服务器返回的匹配结果。

18、作为本公开实施例一种可选的实施方式，接收服务器返回的匹配结果之后，方法还包括：

19、在匹配结果指示语音文本与目标词数据的匹配参数大于第二预设阈值且小于第一预设阈值的情况下，显示提示信息，提示信息用于提示用户确定是否触发目标词数据对应的显示控件。

20、第二方面，本公开提供另一种语音交互控制方法，包括：

21、接收车机终端发送的语音文本和快词数据；

22、对语音文本进行解析校准处理，得到中间文本；解析校准处理包括语义分析、谐音纠正、场景分析中的至少一项；

23、将中间文本与目标词数据进行匹配，目标词数据包括快词数据，和/或，热词数据；

24、向车机终端发送匹配结果。

25、第三方面，本公开提供一种语音交互控制装置，该装置包括：

26、识别模块，用于获取用户语音指令，识别用户语音指令对应的语音文本；

27、匹配模块，用于将语音文本与本地存储的目标词数据进行匹配，目标词数据用于指示当前页面内容，包括快词数据，和/或，热词数据；

28、触发模块，用于在语音文本与目标词数据的匹配参数大于或等于第一预设阈值的情况下，触发目标词数据对应的显示控件，以执行显示控件对应的操作。

29、作为本公开实施例一种可选的实施方式，匹配模块，还用于：在将语音文本与本地存储的目标词数据进行匹配之前，扫描当前页面，获取当前页面信息，当前页面信息包括：应用标识，当前页面路径和尺寸，当前页面中控件的坐标、尺寸、路径标识和对应的事件属性，以及屏幕尺寸；

30、根据当前页面信息生成快词数据。

31、作为本公开实施例一种可选的实施方式，匹配模块，还用于：在将语音文本与本地存储的目标词数据进行匹配之后，在语音文本与快词数据的匹配参数小于或等于第二预设阈值的情况下，将语音文本与热词数据进行匹配；其中，热词数据是从服务器下载后存储于本地的，第二预设阈值小于第一预设阈值；

32、在语音文本与热词数据的匹配参数大于或等于第一预设阈值的情况下，将快词数据对应的第一控件路径标识与热词数据对应的第二控件路径标识进行匹配；

33、在第一控件路径标识与第二控件路径标识匹配的情况下，获取第一控件路径标识对应的第一控件的坐标；

34、根据第一控件的坐标触发第一控件，以执行第一控件对应的操作。

35、作为本公开实施例一种可选的实施方式，匹配模块，还用于：在语音文本与快词数据的匹配参数小于或等于第二预设阈值的情况下，将语音文本与热词数据进行匹配之后，在语音文本与热词数据的匹配参数小于或等于第二预设阈值的情况下，将语音文本上传至服务器，以由服务器对语音文本进行解析校准处理和匹配；

36、接收服务器返回的匹配结果。

37、作为本公开实施例一种可选的实施方式，匹配模块，还用于：接收服务器返回的匹配结果之后，在匹配结果指示语音文本与目标词数据的匹配参数大于第二预设阈值且小于第一预设阈值的情况下，显示提示信息，提示信息用于提示用户确定是否触发目标词数据对应的显示控件。

38、第四方面，本公开提供另一种语音交互控制装置，该装置包括：

39、接收模块，用于接收车机终端发送的语音文本和快词数据；

40、解析校准模块，用于对语音文本进行解析校准处理，得到中间文本；解析校准处理包括语义分析、谐音纠正、场景分析中的至少一项；

41、匹配模块，用于将中间文本与目标词数据进行匹配，目标词数据包括快词数据，和/或，热词数据；

42、发送模块，用于在中间文本与目标词数据的匹配参数大于或等于第一预设阈值的情况下，向车机终端发送操作指令，操作指令指示触发目标词数据对应的显示控件以执行相应操作。

43、第五方面，本公开提供一种电子设备，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如第一方面或其任意一种可选的实施方式所述的语音交互控制方法。

44、第六方面，本公开提供一种计算机可读存储介质，包括：所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如第一方面或其任意一种可选的实施方式所述的语音交互控制方法。

45、第七方面，本公开提供一种车辆，该车辆包括：如第二方面或任意一种可选的实施方式所述的语音交互控制装置，或者，如第三方面所述的电子设备。

46、第八方面，本公开提供一种计算机程序产品，包括：该计算机程序产品包括计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机实现如第一方面或其任意一种可选的实施方式所述的语音交互控制方法。

47、本公开实施例提供的技术方案与现有技术相比具有如下优点：

48、本公开实施例提供一种语音交互控制方法、装置、电子设备及存储介质，首先获取用户语音指令，识别用户语音指令对应的语音文本，然后将语音文本与本地存储的，指示当前页面内容的目标词数据进行匹配，从而在语音文本与目标词数据的匹配参数大于或等于第一预设阈值的情况下，触发目标词数据对应的显示控件，以执行显示控件对应的操作，本公开利用本地存储的指示当前页面内容的目标词数据匹配用户语音指令，无需第三方应用二次开发，便于对目标词数据进行增删改，同时也降低了云端的依赖性，提高了实现所见即可说功能的成功率。