基于图像的命令处理方法及电子设备与流程
- 国知局
- 2024-10-09 16:36:32
本技术涉及终端,尤其涉及一种基于图像的命令处理方法及电子设备。
背景技术:
1、随着人工智能(ai)大模型在语音处理领域的发展,ai助手已经成为当下智能手机的常见功能。用户可以通过关键词唤醒来向ai助手发出功能请求,例如,给某个联系人打电话或者查询天气等。
2、在目前的相关实现中,ai助手通常依赖于语音识别技术,其中语音识别技术可以是通过深度学习技术来实现的。当用户以语音的形式发出指令后,终端设备可以采集语音信息并利用神经网络进行特征提取与语音识别。通过这一过程,终端设备可以确定用户所发出的语音指令的语义信息,并作出相应的操作。
3、然而,在一些特殊场景中,语音识别难以满足现实需要。例如,在某些场景下用户不方便发声,则会导致ai助手的应用场景受限。
技术实现思路
1、本技术实施例提供一种基于图像的命令处理方法及电子设备,应用于终端技术领域。本技术的技术方案可以在用户不方便发声的场景下,基于唇动命令驱动ai助手,从而可以有效扩展ai助手的使用场景。
2、第一方面,本技术实施例提出一种基于图像的命令处理方法。该方法包括:
3、获取第一相机在第一时段内采集的多张图像;
4、根据多张图像,提取第一序列特征,第一序列特征用于指示多张图像中的唇部区域所对应的唇动特征;
5、在多个预设序列特征中,确定与第一序列特征相匹配的目标预设序列特征,多个预设序列特征分别对应各自的预设命令,预设序列特征用于指示与预设命令相对应的唇动特征;
6、执行目标预设序列特征对应的预设命令。
7、在这种实现方式中,在本实施例中,通过利用第一相机采集图像,之后基于图像识别唇动序列特征,并将识别到的唇动序列特征和多个预设命令各自对应的预设序列特征进行匹配,以执行匹配到的目标预设序列特征所对应的预设命令,从而可以实现基于唇动的方式驱动终端设备执行相应命令的目的,避免了在一些场景下用户不方便采用语音的方式使用ai助手所产生的限制,有效扩展了ai助手的应用场景。
8、以及,通过获取第一相机在第一时段内采集的多张图像,利用多张图像进行唇动检测可以有效提高唇动检测的准确性。通过提取第一序列特征并将获得的第一序列特征与多个预设序列特征进行对比,可以快速确定用户输入的唇动口令的含义,提高处理效率。通过执行目标预设序列特征对应的预设命令,解决了用户的实际需求。
9、在一种可能的实现方式中,获取第一相机在第一时段内采集的多张图像,包括:
10、针对第一相机采集的任一张第一图像,获取采集时刻与第一图像相邻的多张第二图像;
11、在第一图像以及多张第二图像中,确定起始图像,其中起始图像为检测到唇动开始的图像;
12、从起始图像的采集时刻开始,获取第一相机在预设时长内采集的多张图像,以得到第一时段内采集的多张图像,其中第一时段为起始图像的采集时刻之后预设时长所对应的时段。
13、在这种实现方式中,通过在获取第一图像以及多张第二图像后,来确定唇动是否开始,可以过滤掉日常交谈等场景下获取的图像。通过获取第一相机在预设时长内采集的多张图像来判断唇动是否结束,进而减少因误存储唇动图像而消耗终端设备功耗的情况。
14、在一种可能的实现方式中,在第一图像以及多张第二图像中,确定起始图像,包括:
15、针对第一图像以及多张第二图像中每相邻的两张图像分别进行对比处理,以得到每相邻的两张图像各自对应的唇动检测结果;
16、根据每相邻的两张图像各自对应的唇动检测结果,确定检测到唇动开始的起始图像。
17、在这种实现方式中,通过对每相邻的两张图像各自对应的唇动检测结果比较,来检测唇动开始的图像以及时刻,从而有效避免未发生唇动而对图像处理产生的不必要的功耗。
18、在一种可能的实现方式中,方法还包括:
19、针对第一图像执行人脸检测,和/或,针对第一图像执行人眼注视检测;
20、针对第一相机采集的任一张第一图像,获取采集时刻与第一图像相邻的多张第二图像,包括:
21、在针对第一图像检测到人脸的情况下,和/或,在针对第一图像检测到人眼注视的情况下,获取采集时刻与第一图像相邻的多张第二图像。
22、在这种实现方式中,通过人脸检测,可以过滤掉不包含人脸的图像,也即针对不包含人脸的图像无需执行后续处理,进而降低本技术所提出方案的整体算法功耗,给终端设备减少不必要的损耗。通过人眼检测,同样可以过滤掉大量的用户并未和终端设备进行交互的场景下所采集的包含人脸的图像,以降低针对这部分图像进行处理所产生的大功耗,同时还可以有效避免误激活的问题。
23、在一种可能的实现方式中,方法还包括:
24、根据第一时段内采集时刻的排序靠后的多张图像,确定在第一时段内唇动是否结束;
25、根据多张图像,提取第一序列特征,包括:
26、在确定在第一时段内唇动结束的情况下,根据多张图像,提取第一序列特征。
27、在这种实现方式中,通过判断第一时段内唇动是否结束,进而减少因误存储唇动图像而消耗终端设备功耗的情况。同时,通过提取第一序列特征,可以快速确定用户输入的唇动口令的含义,提高处理效率。
28、在一种可能的实现方式中根据多张图像,提取第一序列特征,包括:
29、在多张图像中分别截取唇部区域,以得到多张图像各自对应的子图像;
30、根据多张图像各自对应的子图像,提取第一序列特征。
31、在这种实现方式中,通过在多张图像中分别截取唇部区域,可以提高特征提取的效率与准确度,避免图像范围过大带来的相关干扰。
32、在一种可能的实现方式中,在多个预设序列特征中,确定与第一序列特征相匹配的目标预设序列特征,包括:
33、分别确定多个预设序列特征与第一序列特征的相似度;
34、在多个预设序列特征中,确定第一序列特征的相似度最高的预设序列特征;
35、在相似度最高的预设序列特征所对应的相似度大于预设阈值的情况下,确定相似度最高的预设序列特征为目标预设序列特征。
36、在这种实现方式中,通过特征匹配,可以快速且准确地确定用户命令口令的含义,以解决用户的实际需求。
37、在一种可能的实现方式中,方法还包括:
38、在用户录制第一预设命令所对应的唇动指令的过程中,采集多张唇动图像;
39、根据多张唇动图像,生成第一预设命令所对应的预设序列特征;
40、存储第一预设命令以及与第一预设命令所对应的预设序列特征。
41、在这种实现方式中,通过录制并存储第一预设命令以及与第一预设命令所对应的预设序列特征,方便用户在后续操作中,利用预设命令所对应的预设序列特征与第一序列特征作比较,解决用户的当前需求,避免因一些场景下不便于说话而不能解决用户需求所带来的不便。
42、第二方面,本技术实施例提供一种基于图像的命令处理装置,该基于图像的命令处理装置可以是电子设备,也可以是电子设备内的芯片或者芯片系统。该基于图像的命令处理装置可以包括显示单元和处理单元。
43、当该基于图像的命令处理装置是电子设备时,该处显示单元可以是显示屏。该显示单元用于执行显示的步骤,以使该电子设备实现第一方面或第一方面的任意一种可能的实现方式中描述的一种基于图像的命令处理方法。
44、当该基于图像的命令处理装置是电子设备时,该处理单元可以是处理器。该基于图像的命令处理装置还可以包括存储单元,该存储单元可以是存储器。该存储单元用于存储指令,该处理单元执行该存储单元所存储的指令,以使该电子设备实现第一方面或第一方面的任意一种可能的实现方式中描述的一种基于图像的命令处理方法。
45、当该基于图像的命令处理装置是电子设备内的芯片或者芯片系统时,该处理单元可以是处理器。该处理单元执行存储单元所存储的指令,以使该电子设备实现第一方面或第一方面的任意一种可能的实现方式中描述的一种基于图像的命令处理方法。该存储单元可以是该芯片内的存储单元(例如,寄存器、缓存等),也可以是该电子设备内的位于该芯片外部的存储单元(例如,只读存储器、随机存取存储器等)。
46、第三方面,本技术实施例提供一种电子设备,包括处理器和存储器,存储器用于存储代码指令,处理器用于运行代码指令,以执行第一方面或第一方面的任意一种可能的实现方式中描述的方法。
47、第四方面,本技术实施例提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序或指令,当计算机程序或指令在计算机上运行时,使得计算机执行第一方面或第一方面的任意一种可能的实现方式中描述的方法。
48、第五方面,本技术实施例提供一种包括计算机程序的计算机程序产品,当计算机程序在计算机上运行时,使得计算机执行第一方面或第一方面的任意一种可能的实现方式中描述的方法。
49、第六方面,本技术提供一种芯片或者芯片系统,该芯片或者芯片系统包括至少一个处理器和通信接口,通信接口和至少一个处理器通过线路互联,至少一个处理器用于运行计算机程序或指令,以执行第一方面或第一方面的任意一种可能的实现方式中描述的方法。其中,芯片中的通信接口可以为输入/输出接口、管脚或电路等。
50、在一种可能的实现中,本技术中上述描述的芯片或者芯片系统还包括至少一个存储器,该至少一个存储器中存储有指令。该存储器可以为芯片内部的存储单元,例如,寄存器、缓存等,也可以是该芯片的存储单元(例如,只读存储器、随机存取存储器等)。
51、应当理解的是,本技术的第二方面至第六方面与本技术的第一方面的技术方案相对应,各方面及对应的可行实施方式所取得的有益效果相似,不再赘述。
本文地址:https://www.jishuxx.com/zhuanli/20240929/313535.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。