技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音控制方法、装置、设备及存储介质与流程 > 正文

语音控制方法、装置、设备及存储介质与流程

国知局
2024-06-21 11:50:49

本发明涉及智能控制，尤其涉及一种语音控制方法、装置、设备及存储介质。

背景技术：

1、目前大部分智能终端都搭载一个基本的语音系统，便于用户利用语音操作一些基本的功能或者进行一些设置，但目前市面上语音系统的技能并非覆盖所有的技能，想通过语音系统说出相关的关键词条来响应点击当前页面的“热门”视频分类的页面，是无法做到的，目前第三方应用想兼备可见即可说的功能，且实际应用中很多“可见即可说”场景都会依赖于系统的运算能力，会出现不能及时响应、无法命中、响应缓慢、卡顿、死机、操作系统异常等问题。

2、目前市面上现有的任何一种基于视觉和点触操作交互的软件，界面上可操作元素内部控制是符合一定的交互逻辑的，其可操作元素应具有较高的视觉辨识度，然后需进行多重转换后识别，再进行模拟触点操作才能实现一定的可见即可说，其占用cpu高，执行效率低，命中率低，特别是在多屏场景执行的逻辑将会非常复杂。

技术实现思路

1、本发明的主要目的在于提供一种语音控制方法、装置、设备及存储介质，旨在解决现有技术需进行多重转换后识别，再进行模拟触点操作才能实现一定的可见即可说，导致执行效率和命中率低的技术问题。

2、为实现上述目的，本发明提供了一种语音控制方法，所述方法包括以下步骤：

3、基于用户输入的唤醒指令识别目标音区，根据所述目标音区确定用户的视线焦点；

4、基于所述视线焦点确定目标控制区域；

5、对所述目标控制区域进行标注，得到各个目标控制区域的标号；

6、根据用户基于所述标号反馈的控制指令对相应的目标控制区域进行模拟操作，以实现语音控制。

7、可选地，所述基于用户输入的唤醒指令识别目标音区，根据所述目标音区确定用户的视线焦点，包括：

8、基于所述唤醒指令，启动屏幕识别模式；

9、在启动所述屏幕识别模式时，基于所述唤醒指令识别用户所在音区；

10、根据所述用户所在音区得到用户所在位置，根据所述用户所在位置确定用户的视线焦点。

11、可选地，所述基于所述视线焦点确定目标控制区域，包括：

12、获取所述视线焦点在屏幕上的停留区域；

13、确定所述视线焦点在所述停留区域的聚焦时间；

14、在所述聚焦时间大于等于停留时间阈值时，根据所述停留区域确定目标控制区域。

15、可选地，所述在所述聚焦时间大于等于停留时间阈值时，根据所述停留区域确定目标控制区域，包括：

16、在所述聚焦时间大于等于停留时间阈值时，基于所述停留区域对所述屏幕进行截图，得到参考控制区域图像；

17、根据所述视线焦点对所述参考控制区域图像进行剪裁，得到剪裁后的图像；

18、根据所述剪裁后的图像中各个像素点进行分析，得到目标控制区域。

19、可选地，所述根据所述剪裁后的图像中各个像素点进行分析，得到目标控制区域，包括：

20、获取所述剪裁后图像中各个像素点的颜色值；

21、根据所述颜色值得到各个相邻两个像素点之间的颜色差；

22、根据所述颜色差得到颜色差大于颜色差阈值的多个参考像素点；

23、从所述多个参考像素点中筛选满足连续性要求的目标像素点；

24、将所述目标像素点构成的区域作为参考控制区域，根据所述参考控制图像进行筛选，得到目标控制区域。

25、可选地，所述将所述目标像素点构成的区域作为参考控制区域，根据所述参考控制图像进行筛选，得到目标控制区域，包括：

26、将所述目标像素点构成的区域作为参考控制区域，获取点触参考面积以及各个参考控制区域的面积；

27、比较所述点触参考面积和各个参考控制区域面积的大小，得到有效区域；

28、识别各个有效区域的中心位置，计算所述中心位置与所述视觉焦点之间的视觉间隔；

29、将所述视觉间隔满足预设间隔要求的有效区域作为待分析控制区域；

30、对所述待分析控制区域进行分析得到目标控制区域。

31、可选地，所述对所述待分析控制区域进行分析得到目标控制区域，包括：

32、对所述待分析控制区域对应的图像进行二值化处理，得到二值化图像；

33、从所述二值化图像中识别满足预设形状要求的待识别区域；

34、在各个待识别区域是否满足排列要求时，将所述待分析控制区域作为目标控制区域。

35、此外，为实现上述目的，本发明还提出一种语音控制装置，所述语音控制装置包括：

36、视线焦点识别模块，用于基于所述唤醒指令识别目标音区，根据所述目标音区确定用户的视线焦点；

37、目标控制区域确定模块，用于基于所述视线焦点确定目标控制区域；

38、语音控制模块，用于对所述目标控制区域进行标注，得到各个目标控制区域的标号；

39、所述语音控制模块，还用于根据用户基于所述标号反馈的控制指令对相应的目标控制区域进行模拟操作，以实现语音控制。

40、此外，为实现上述目的，本发明还提出一种语音控制设备，所述语音控制设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音控制程序，所述语音控制程序配置为实现如上文所述的语音控制方法的步骤。

41、此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有语音控制程序，所述语音控制程序被处理器执行时实现如上文所述的语音控制方法的步骤。

42、本发明通过用户输入的唤醒指令进行视线焦点识别，根据所述视线焦点对当前屏幕中画面进行分析，得到更大概率是用户要操作的目标控制区域，基于对目标控制区域的选择和分析，对目标控制区域中的内容进行标注，从而得到当前屏幕可能是用户要操作的备选内容，进而根据用户再次输入的想要操作的标记，在标记对应的内容进行操作，不通过识别文字，而是通过识别屏显控件元素，跳过复杂的光学字符识别步骤，运行效率高，直接识别屏显控件，不限于有文字的按钮，图形按钮也可控制，能够更加准确的实现可见即可说语音控制。

技术特征：

1.一种语音控制方法，其特征在于，所述语音控制方法包括：

2.如权利要求1所述的语音控制方法，其特征在于，所述基于用户输入的唤醒指令识别目标音区，根据所述目标音区确定用户的视线焦点，包括：

3.如权利要求1所述的语音控制方法，其特征在于，所述基于所述视线焦点确定目标控制区域，包括：

4.如权利要求3所述的语音控制方法，其特征在于，所述在所述聚焦时间大于等于停留时间阈值时，根据所述停留区域确定目标控制区域，包括：

5.如权利要求4所述的语音控制方法，其特征在于，所述根据所述剪裁后的图像中各个像素点进行分析，得到目标控制区域，包括：

6.如权利要求5所述的语音控制方法，其特征在于，所述将所述目标像素点构成的区域作为参考控制区域，根据所述参考控制图像进行筛选，得到目标控制区域，包括：

7.如权利要求6所述的语音控制方法，其特征在于，所述对所述待分析控制区域进行分析得到目标控制区域，包括：

8.一种语音控制装置，其特征在于，所述语音控制装置包括：

9.一种语音控制设备，其特征在于，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音控制程序，所述语音控制程序配置为实现如权利要求1至7中任一项所述的语音控制方法。

10.一种存储介质，其特征在于，所述存储介质上存储有语音控制程序，所述语音控制程序被处理器执行时实现如权利要求1至7任一项所述的语音控制方法。

技术总结本发明属于智能控制技术领域，公开了一种语音控制方法、装置、设备及存储介质；该方法包括：基于用户输入的唤醒指令识别目标音区，根据目标音区确定用户的视线焦点；基于视线焦点确定目标控制区域；标注目标控制区域，得到标号；根据用户基于标号反馈的控制指令进行模拟操作；本发明通过视线焦点对当前屏幕中画面进行分析，得到更大概率是用户要操作的目标控制区域并标注目标控制区域内容，进而根据用户再次输入的想要操作的标记，操作标记对应的内容，不通过识别文字，而是通过识别屏显控件元素，跳过复杂的光学字符识别步骤，运行效率高，直接识别屏显控件，不限于有文字的按钮，图形按钮也可控制，能够更加准确的实现可见即可说语音控制。技术研发人员：张芃,张永仁,詹阳普,李二壮,曾琪受保护的技术使用者：岚图汽车科技有限公司技术研发日：技术公布日：2024/5/10