技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音交互方法和电子设备与流程 > 正文

一种语音交互方法和电子设备与流程

国知局
2024-06-21 11:46:33

本申请涉及计算机，特别涉及一种语音交互方法和电子设备。

背景技术：

1、随着智能座舱的发展，智能座舱的车载信息娱乐系统(in-vehicleinfotainment，ivi)的中控屏越来越普及且尺寸越来越大，同时智能座舱的信息娱乐应用不断丰富，通过触摸中控屏即可控制车内的各项功能，为用户提供了更加智能、便捷的操作体验。

2、考虑到行车安全，语音控制可以解放双手，因此，ivi的人机交互界面(humanmachine interface，hmi)提供了语音交互功能。“可见即可说”的语音交互已成为hmi的核心功能之一，用户只需要通过语音指令，即可实现对座舱页面“可见”元素的控制，从而为用户提供了更加智能、便捷和安全的驾驶体验。

3、“可见”元素的识别通常借助于系统的无障碍服务对屏幕的实时监控，并对当前页面元素的文本信息进行解析，将收到的语音指令与页面元素进行匹配，成功则触发模拟点击，失败则继续语音其他流程。不仅要准确识别可见元素的文本信息，而且需要正确的获取到可触发的事件。

4、然而，由于hmi的内容丰富，很多功能和应用都由第三方提供，且越来越多的运营服务和个性化生态应用通过小程序或超文本标记语言(hyper text markup language，html)网页实现功能的快速上车。而借助ivi的语音控制服务存在局限性，无法完全还原html网页和小程序的页面元素，同时针对音乐和视频网页中最重要的播放器无法进行元素识别和控制，另外对于组合元素也存在文本信息与可点击属性不匹配的情况，从而导致语音控制无法模拟执行，使得“可见即可说”的作用范围和操控效率难以满足要求。

技术实现思路

1、针对如何提高语音控制的作用范围和操控效率的问题，本申请提供了一种语音交互方法和电子设备，本申请还提供一种计算机可读存储介质。

2、本申请实施例采用下述技术方案：

3、第一方面，本申请提供一种语音交互方法，所述方法应用于电子设备，所述方法包括：

4、根据控制界面上事件元素与文本信息的绑定关系，标注所述事件元素对应的文本标注；

5、获取控制语音；

6、解析控制语音，获取语音文本；

7、基于所述文本标注，确定所述语音文本对应的事件元素；

8、根据所述语音文本，针对所述语音文本对应的事件元素进行控制操作。

9、根据本申请实施例的方法，在进行语音控制前对控制界面中的元素进行标注，提高了语音控制时对页面元素识别的准确性，提高了语音控制时对页面多个重复元素的匹配效率。

10、在第一方面的一种实现方式中，所述方法还包括：

11、根据控制界面生成第一界面，显示第一界面，其中，所述第一界面与控制界面的显示内容相同，并且，所述第一界面中的元素，不会触发执行所述控制界面对应的事件；

12、识别用户针对所述第一界面上的元素的点击操作，根据所述用户点击的元素，获取所述绑定关系。

13、在第一方面的一种实现方式中，所述方法还包括：

14、为所述文本标注添加辅助标签。

15、在第一方面的一种实现方式中，所述辅助标签包括：所述文本标注的泛化的分词，和/或，所述文本标注的辅助拼音。

16、在第一方面的一种实现方式中，所述确定所述语音文本对应的事件元素，包括：

17、根据所述语音文本匹确定第一目标元素；

18、在所述第一目标元素无法处理所述语音文本对应的事件的情况下，确定所述第一目标元素向下的子元素；

19、判断所述子元素是否可以处理所述语音文本对应的事件且所述子元素不包含文本信息；

20、在所述子元素可以处理所述语音文本对应的事件且所述子元素不包含文本信息的情况下，确定所述子元素为所述语音文本对应的事件元素。

21、在第一方面的一种实现方式中，所述确定所述语音文本对应的事件元素，还包括：

22、在所述子元素不可以处理所述语音文本对应的事件和/或所述子元素包含文本信息的情况下，确定所述第一目标元素向上的父容器；

23、判断所述父容器是否可以处理所述语音文本对应的事件且所述父容器不包含文本信息；

24、在所述父容器可以处理所述语音文本对应的事件且所述父容器不包含文本信息的情况下，确定所述父容器为所述语音文本对应的事件元素。

25、在第一方面的一种实现方式中，所述确定所述语音文本对应的事件元素，还包括：

26、在所述父容器不可以处理所述语音文本对应的事件和/或所述父容器包含文本信息的情况下，确定所述父容器向下的不包含文本信息的第二目标元素；

27、判断所述第二目标元素是否可以处理所述语音文本对应的事件；

28、在所述第二目标元素可以处理所述语音文本对应的事件的情况下，确定所述第二目标元素为所述语音文本对应的事件元素。

29、在第一方面的一种实现方式中，所述方法还包括：

30、在所述语音文本对应的控制对象为播放器的情况下，启动播放器语音控制模块；

31、根据所述语音文本，针对所述播放器语音控制模块进行控制操作，通过所述播放器语音控制模块控制所述播放器，其中：

32、针对原生播放器应用，所述播放器语音控制模块通过模拟媒体会话控制事件和抢占音频焦点的形式实现播放控制；

33、和/或，

34、针对超文本标记语言网页播放器，所述播放器语音控制模块通过执行命令脚本，获取到网页音视频元素，适配所述网页音视频元素的播放和暂停。

35、第二方面，本申请提供一种电子设备，所述电子设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器，其中，当所述计算机程序指令被该处理器执行时，触发所述电子设备执行如第一方面所述的方法步骤。

36、第三方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如第一方面所述的方法。

技术特征：

1.一种语音交互方法，其特征在于，所述方法应用于电子设备，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述辅助标签包括：所述文本标注的泛化的分词，和/或，所述文本标注的辅助拼音。

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述确定所述语音文本对应的事件元素，包括：

6.根据权利要求5所述的方法，其特征在于，所述确定所述语音文本对应的事件元素，还包括：

7.根据权利要求6所述的方法，其特征在于，所述确定所述语音文本对应的事件元素，还包括：

8.根据权利要求1-7中任一项所述的方法，其特征在于，所述方法还包括：

9.一种电子设备，其特征在于，所述电子设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器，其中，当所述计算机程序指令被该处理器执行时，触发所述电子设备执行如权利要求1-8中任一项所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如权利要求1-8中任一项所述的方法。

技术总结本申请实施例提供一种语音交互方法以及电子设备。方法应用于电子设备，方法包括：根据控制界面上事件元素与文本信息的绑定关系，标注所述事件元素对应的文本标注；获取控制语音；解析控制语音，获取语音文本；基于所述文本标注，确定所述语音文本对应的事件元素；根据所述语音文本，针对所述语音文本对应的事件元素进行控制操作。根据本申请实施例的方法，在进行语音控制前对控制界面中的元素进行标注，提高了语音控制时对页面元素识别的准确性，提高了语音控制时对页面多个重复元素的匹配效率。技术研发人员：韦力诚,赵敬霄,张宁,杨竟成受保护的技术使用者：联通智网科技股份有限公司技术研发日：技术公布日：2024/4/24