人机交互的方法、装置和设备与流程
- 国知局
- 2024-06-21 11:39:17
本技术实施例涉及人工智能,并且更具体地,涉及一种人机交互的方法、装置和设备。
背景技术:
1、随着人工智能技术的不断地发展,机器人的种类越来越多。其中,家庭机器人是比较常见的一种机器人,其可以通过与用户之间的交互,来增加用户的幸福感,减轻用户的压力。例如,在家庭生活中,父母不能陪伴儿童时,儿童可以与机器人进行交互,比如进行对话、娱乐或者学习等。为此,如何提升用户与机器人之间的交互体验,成为需要解决的问题。
技术实现思路
1、本技术实施例提供一种人机交互的方法、装置和设备,能够提升用户与机器人之间的交互体验。
2、第一方面,提供一种人机交互的方法,用于机器人与用户之间的互动,所述方法包括:检测所述用户是否朝向所述机器人;在所述用户朝向所述机器人的情况下,获取所述用户的语音信息;根据所述语音信息确定所述用户的语音是否针对所述机器人;在所述用户的语音是针对所述机器人的情况下,确定所述用户有与所述机器人进行语言交互的意愿。
3、本技术实施例中,通过检测用户的语言意图信息,确定用户是否有与机器人进行语言交互的意愿,该语言意图信息包括至少两种触发条件,例如分别为用户的朝向、以及用户的语意理解。相比于通过用户说出唤醒词来表达其语言意图的方式,提升了语音交互的连贯性,并且由于在理解用户的语意之前,先检测用户是否朝向机器人,并在用户朝向机器人的情况下才会对用户的语音信息进行收集分析,在一定程度上避免了对用户语音的过度解析,保护了用户的语言隐私。
4、在一些可能的实现方式中,所述检测所述用户是否朝向所述机器人包括:检测所述用户的脸部是否朝向所述机器人,和/或检测所述用户的眼神是否朝向所述机器人。
5、在该实现方式中,检测用户的脸部和/或眼神的方向,能够更准确地判断用户是否朝向机器人。
6、在一些可能的实现方式中,所述检测所述用户的脸部是否朝向所述机器人,和/或检测所述用户的眼神是否朝向所述机器人,包括:检测所述用户的脸部是否朝向所述机器人,并在所述用户的脸部的方向朝向所述机器人的情况下,检测所述用户的眼神是否朝向所述机器人;其中,所述检测所述用户是否朝向所述机器人,包括:在所述用户的眼神朝向所述机器人的情况下,确定所述用户朝向所述机器人。
7、在该实现方式中,检测用户的脸部是否朝向机器人,并在脸部朝向机器人的情况下,检测用户的眼神是否朝向机器人,从而在脸部和眼神均朝向机器人的情况下,再通过分析用户的语意判断用户是否有与机器人进行语言交互意愿。由于同时考虑了脸部和眼神的方向,使得判断用户是否朝向机器人的条件更加严格,对用户是否有语言交互意愿的判断也更加准确。
8、在一些可能的实现方式中,所述检测所述用户的脸部是否朝向所述机器人,包括:获取所述用户的脸部图像、以及脸部的关键点的坐标信息;将所述脸部图像和所述关键点的坐标信息输入预设的深度学习模型,并获取所述深度学习模型输出的脸部的方向角信息,所述方向角信息包括分别沿x轴、y轴和z轴的旋转角度,x轴、y轴和z轴相互垂直;根据所述方向角信息,确定所述用户的脸部是否朝向所述机器人。
9、在该实现方式中,可以预先训练用于检测用户脸部方向的深度学习模型,将用户的脸部图像和脸部的关键点的坐标信息输入该深度学习模型,该深度学习模型可以输出脸部的方向角信息,包括沿自身坐标系的x轴、y轴和z轴的旋转角度。根据脸部的方向角信息可以确定用户的脸部是否朝向机器人。
10、在一些可能的实现方式中,所述检测所述用户的眼神是否朝向所述机器人,包括:获取所述用户的眼眶的关键点的坐标信息、以及瞳孔的关键点的坐标信息;根据所述眼眶的关键点的坐标信息、以及所述瞳孔的关键点的坐标信息,确定所述眼眶与所述瞳孔之间的相对位置;根据所述相对位置,确定所述用户的眼神是否朝向所述机器人。
11、在该实现方式中,利用眼眶的关键点的坐标信息和瞳孔的关键点的坐标信息判断二者的相对位置,便能够确定用户的眼神是否朝向机器人。例如,瞳孔位于眼眶的中心区域的情况下,可以认为用户的眼神朝向机器人,即用户正在注视机器人。
12、在一些可能的实现方式中,所述根据所述语音信息确定所述用户的语音是否针对所述机器人,包括:基于asr技术,将所述语音信息转换为文本信息;基于nlp技术,对所述文本信息进行分析,确定所述文本信息的内容是否有意义;在所述文本信息的内容有意义的情况下,确定所述用户的语音是否针对所述机器人。
13、在该实现方式中,利用asr技术将用户的语音转换为文本信息,并基于nlp技术对其进行分析,确定其内容是否有意义,并在内容有意义的情况下判断这段文本信息是否针对机器人,能够准确且高效地获取判断用户说的话是否是对机器人说的。
14、在一些可能的实现方式中,所述在所述用户朝向所述机器人的情况下,获取所述用户的语音信息,包括:在所述用户朝向所述机器人的情况下,识别所述用户的嘴部动作;在识别到所述用户的嘴部动作的情况下,获取所述用户的语音信息。
15、在该实现方式中,语言意图信息还可以包括另一种触发条件,其包括用户的嘴部动作和/或语音。在用户朝向机器人的情况下,接着判断是否识别到用户的嘴部动作和/或语音,在识别到用户的嘴部动作和/或语音的情况下,分析用户的语意,以判断用户是否是在对机器人说话。通过三层触发条件,进一步提升了分析用户语意的门槛,更有效地避免了对用户语音的过度解析,保护了用户的语言隐私。
16、在一些可能的实现方式中,所述方法还包括:在确定用户有与所述机器人进行语言交互的意愿的情况下,根据所述语音信息,获取回复内容、以及与所述回复内容相匹配的情绪信息,其中,所述情绪信息包括以下中的至少一种:与所述回复内容相匹配的语言情绪、与所述回复内容相匹配的肢体动作、以及与所述回复内容相匹配的微动作;根据所述回复内容和所述情绪信息,对所述用户进行语音回复。
17、本技术还提供一种交互方式,在机器人与用户互动的过程中赋予了机器人更多的情绪,以增强机器人的生命感。通过获取与回复内容相匹配的情绪信息,例如与回复内容相匹配的语言情绪、肢体动作、微动作等,并基于该情绪信息对用户进行语音回复,从而提升交互体验。
18、在一些可能的实现方式中,所述情绪信息包括与所述回复内容相匹配的语言情绪,所述根据所述回复内容和所述情绪信息,对所述用户进行语音回复,包括:按照与所述回复内容相匹配的语言情绪,以所述回复内容对所述用户进行语音回复。该语言情绪是指机器人的整段回答的情绪,机器人可以带着情绪向用户输出语音。
19、在一些可能的实现方式中,所述情绪信息包括与所述回复内容相匹配的肢体动作,所述根据所述回复内容和所述情绪信息对所述用户进行语音回复,包括:在以所述回复内容对所述用户进行语音回复的过程中停顿的时刻,执行所述肢体动作。
20、例如,所述执行所述肢体动作,包括:调用与所述回复内容相匹配的表情动画;执行与所述表情动画中呈现的所述肢体动作。
21、机器人在与用户对话过程中还可以附加肢体动作,从而提升互动效果。肢体动作可以是离散的,不一定每段对话都附加肢体动作。
22、在一些可能的实现方式中,所述情绪信息包括与所述回复内容相匹配的微动作,所述根据所述回复内容和所述情绪信息,对所述用户进行语音回复,包括:在以所述回复内容对所述用户进行语音回复的同时,执行所述微动作。
23、微动作例如可以指机器人在与用户对话的过程中所做出的微小的动作,比如包括微笑、眼神交流、肢体姿势、动作的速度等。这些微小的动作可以使机器人在对话中更好地表达当前对话内容所含有的情感和态度,从而提升交互体验。
24、在一些可能的实现方式中,所述方法还包括:获取所述用户的性格参数,所述性格参数用于表示所述用户的性格特征;根据所述性格参数,确定用于与所述用户进行互动的互动策略。
25、本技术还提供一种交互方式,机器人能够根据用户的性格参数,确定与用户进行互动的互动策略,从而进行个性化的互动,提升了交互体验。该互动策略例如可以包括与用户之间的语音交互的策略、肢体交互的策略等等。
26、在一些可能的实现方式中,所述获取所述用户的性格参数,包括:获取所述用户的历史互动信息,其中,所述历史互动信息包括所述用户与所述机器人的聊天记录和/或互动内容的信息;根据所述历史互动信息,确定所述性格参数。
27、在该实现方式中,可以收集用户的历史互动信息,例如聊天记录和/或互动内容的信息,从而确定用户的性格参数,该性格参数可以反映用户的性格例如外向或者内向、感性或者理性等。
28、在一些可能的实现方式中,所述根据所述性格参数,确定用于与所述用户进行互动的互动策略,包括:向llm输入所述性格参数;接收所述llm输出的与互动内容相关的互动参数,所述互动参数包括所述互动内容的触发频次和/或持续时间;所述方法还包括:根据所述触发频次和/或持续时间,执行所述互动内容。
29、第二方面,提供一种人机交互的装置,用于机器人与用户之间的互动,所述装置包括:检测模块,用于检测所述用户是否朝向所述机器人;在所述用户朝向所述机器人的情况下,获取所述用户的语音信息;以及,根据所述语音信息确定所述用户的语音是否针对所述机器人;处理模块,用于在所述用户的语音是针对所述机器人的情况下,确定所述用户有与所述机器人进行语言交互的意愿。
30、在一些可能的实现方式中,所述检测模块具体用于,检测所述用户的脸部是否朝向所述机器人,和/或检测所述用户的眼神是否朝向所述机器人。
31、在一些可能的实现方式中,所述检测模块具体用于,检测所述用户的脸部是否朝向所述机器人,并在所述用户的脸部的方向朝向所述机器人的情况下,检测所述用户的眼神是否朝向所述机器人;在所述用户的眼神朝向所述机器人的情况下,确定所述用户朝向所述机器人。
32、在一些可能的实现方式中,所述检测模块具体用于,获取所述用户的脸部图像、以及脸部的关键点的坐标信息;将所述脸部图像和所述关键点的坐标信息输入预设的深度学习模型,并获取所述深度学习模型输出的脸部的方向角信息,所述方向角信息包括分别沿x轴、y轴和z轴的旋转角度,x轴、y轴和z轴相互垂直;根据所述方向角信息,确定所述用户的脸部是否朝向所述机器人。
33、在一些可能的实现方式中,所述检测模块具体用于,获取所述用户的眼眶的关键点的坐标信息、以及瞳孔的关键点的坐标信息;根据所述眼眶的关键点的坐标信息、以及所述瞳孔的关键点的坐标信息,确定所述眼眶与所述瞳孔之间的相对位置;根据所述相对位置,确定所述用户的眼神是否朝向所述机器人。
34、在一些可能的实现方式中,所述检测模块具体用于,基于asr技术,将所述用户的语音信息转换为文本信息;基于nlp技术,对所述文本信息进行分析,确定所述文本信息的内容是否有意义;在所述文本信息的内容有意义的情况下,确定所述用户的语音是否针对所述机器人。
35、在一些可能的实现方式中,所述检测模块具体用于,在所述用户朝向所述机器人的情况下,识别所述用户的嘴部动作;在识别到所述用户的嘴部动作的情况下,获取所述用户的语音信息。
36、在一些可能的实现方式中,所述处理模块还用于,在确定用户有与所述机器人进行语言交互的意愿的情况下,根据所述语音信息,获取回复内容、以及与所述回复内容相匹配的情绪信息,并根据所述回复内容和所述情绪信息,对所述用户进行语音回复,其中,所述情绪信息包括以下中的至少一种:与所述回复内容相匹配的语言情绪、与所述回复内容相匹配的肢体动作、以及与所述回复内容相匹配的微动作。
37、在一些可能的实现方式中,所述情绪信息包括与所述回复内容相匹配的语言情绪,所述处理模块具体用于,按照与所述回复内容相匹配的语言情绪,以所述回复内容对所述用户进行语音回复。
38、在一些可能的实现方式中,所述情绪信息包括与所述回复内容相匹配的肢体动作,所述处理模块具体用于,在以所述回复内容对所述用户进行语音回复的过程中停顿的时刻,执行所述肢体动作。
39、在一些可能的实现方式中,所述处理模块具体用于,调用与所述回复内容相匹配的表情动画;执行所述表情动画相匹配的所述肢体动作。
40、在一些可能的实现方式中,所述情绪信息包括与所述回复内容相匹配的微动作,所述处理模块具体用于,在以所述回复内容对所述用户进行语音回复的同时,执行所述微动作。
41、在一些可能的实现方式中,所述处理模块还用于,获取所述用户的性格参数,所述性格参数用于表示所述用户的性格特征;根据所述性格参数,确定用于与所述用户进行互动的互动策略。
42、在一些可能的实现方式中,所述处理模块具体用于,获取所述用户的历史互动信息,其中,所述历史互动信息包括所述用户与所述机器人的聊天记录和/或互动内容的信息;根据所述历史互动信息,确定所述性格参数。
43、在一些可能的实现方式中,所述处理模块具体用于,向llm输入所述性格参数;接收所述llm输出的与互动内容相关的互动参数,所述互动参数包括所述互动内容的触发频次和/或持续时间;根据所述触发频次和/或持续时间,执行所述互动内容。
44、第三方面,提供一种人机交互的设备,包括处理器,所述处理器用于执行存储器中存储的指令,以使所述设备执行上述第一方面或第一方面的任一可能的实现方式中所述的人机交互的方法。
45、第四方面,提供一种计算机可读存储介质,包括计算机指令,当所述计算机指令在人机交互的设备上运行时,使得所述设备执行上述第一方面或第一方面的任一可能的实现方式中所述的人机交互的方法。
本文地址:https://www.jishuxx.com/zhuanli/20240618/22694.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。