一种基于听觉感知的人机交互系统和方法
- 国知局
- 2024-06-21 11:54:30
本发明涉及交互机器人领域,具体是一种基于听觉感知的人机交互系统和方法。
背景技术:
1、随着人工智能和机器人技术的不断发展,人机交互系统在多个领域得到广泛应用。声源定位作为人机交互的重要方面,逐渐引起了研究者的关注。传统的人机交互系统主要依赖于视觉传感器,然而,受到光照条件、遮挡和复杂环境的限制,机器人在获取和追踪用户位置方面存在一定的困难。
2、为了解决上述问题,一些研究致力于引入声音感知技术,以实现对用户位置的更灵活和精准的感知。然而,目前大多数系统仍然采用单一麦克风或简单的声音定位方法,这限制了其在真实场景中的应用。现有的声源定位技术中,常采用麦克风阵列实现对声源方向的定位,但仍存在一些局限性,如对于多方向声源的实时定位能力有限。
3、现有机器人技术的发展中,存在一个明显的限制,即机器人的转动能力受到设计和技术方面的制约,难以实现全方位360度的旋转。这局限性严重影响了人机交互的流畅性和效果。在许多交互场景中,用户可能处于机器人的不同位置或角度,而传统机器人系统由于无法360度全向转动,可能无法迅速而准确地响应用户的声音指令或进行有效的沟通。特别是在复杂环境中,机器人可能面临遮挡物或其他障碍物,无法及时调整朝向,导致交互时的延迟和不流畅。这种限制使得机器人在特定方向上的感知和响应能力受到限制,可能错过了用户的关键信息,从而降低了整体人机交互的效率和用户体验。
4、综上所述,如何使交互机器人识别声源位置,并将其和人机交互功能结合,并使之具备准确地识别声源位置,并使其实时响应,360度全向转动面向声源的问题亟待本领域研究人员解决。
技术实现思路
1、本发明所要解决的技术问题是针对上述现有技术的不足提供一种基于听觉感知的人机交互系统和方法,本基于听觉感知的人机交互系统和方法可以识别空间中的声源位置,从而更准确地识别出用户当前位置,同时,交互机器人根据用户当前位置做出针对性地反应,更好地与用户进行人机交互。
2、为实现上述技术目的,本发明采取的技术方案为:
3、一种基于听觉感知的人机交互方法,包括声源采集步骤、声源定位步骤和人机交互步骤;
4、其中声源采集步骤包括:
5、s101、麦克风阵列采集声源的音频信号;
6、s102、对采集的音频信号进行放大;
7、s103、对放大后的音频信号,进行滤波;
8、s104、通过usb数据采集卡对放大滤波后的音频信号进行采集;
9、s105、将usb数据采集卡采集的音频信号实时传输到pc端;
10、其中声源定位步骤在pc端执行,声源定位步骤包括:
11、s201、加载usb数据采集卡采集的音频信号;
12、s202、对采集的音频信号,进行消除趋势项和归一化预处理,对预处理后的音频信号,进行去噪处理,得到多路去噪后的音频信号;
13、s203、对多路去噪后的音频信号,进行加窗分帧处理,得到多路短时平稳的信号;
14、s204、通过端点检测判断多路短时平稳的信号,是否为语音信号;是,则执行步骤s205;否,则执行步骤s210;
15、s205、对多路短时平稳的信号进行快速傅里叶变换,确定多路短时平稳信号的互功率谱密度函数;
16、s206、对多路的短时平稳信号的频域信号,进行加权互相关运算;
17、s207、对互相关运算结果继续逆傅里叶逆变换,从频域变换到时域;
18、s208、在逆傅里叶变换中,搜索峰值的最大值,获得声源到达麦克风阵列中其他麦克风与参考麦克风的时延差;
19、s209、根据求得的时延差、麦克风阵列中麦克风之间的距离,计算声源相对于麦克风阵列的位置;
20、s210、舍弃多路短时平稳的信号;
21、其中人机交互步骤包括:
22、s301、pc将当前计算出的声源相对于麦克风阵列的位置和声源信息编码后传送至交互机器人;
23、s302、交互机器人接收编码的信号,解码并转换坐标系,计算出声源相对于交互机器人的位置;
24、s303、交互机器人根据解码后得到的声源信息,确定对应的交互内容;
25、s304、交互机器人根据确定的交互内容,采用人机交互方式输出交互内容;交互机器人根据声源相对于交互机器人的位置完成转身动作,面向声源。
26、作为本发明进一步改进的技术方案,所述步骤s304包括:
27、s3041、判断转身动作的优先级,当转身动作优先级高于其他动作时,则先执行步骤s3042-s3043,再执行步骤s3044-s3047;当转身动作优先级低于其他动作时,则先执行步骤s3044-s3047,再执行步骤s3042-s3043;
28、s3042、交互机器人通过串口发送编码后的声源相对于交互机器人的位置到基于arduino的旋转平台中的arduino控制器,arduino控制器接收到数据后,进行解码,并根据解码得到的声源相对于交互机器人的位置控制旋转平台中的舵机运转,旋转平台中的舵机驱动交互机器人完成转身动作,交互机器人面向声源后,arduino控制器通过串口发送完成转身动作的信息给交互机器人;交互机器人进行下一步交互动作的执行;
29、s3043、若交互机器人接收到arduino控制器发送的完成转身动作的串口信息,则进行下一步交互动作执行;若交互机器人未收到arduino控制器发送的完成转身动作的串口信息,则继续等待,直到交互机器人接收到arduino控制器发送的完成转身动作的串口信息;
30、s3044、交互机器人调用本体api;
31、s3045、交互机器人于库内查找与当前声源信息对应的交互内容文件;
32、s3046、交互机器人通过api加载并执行交互内容文件;
33、s3047、交互机器人根据交互内容文件的动作指令完成肢体动作,交互机器人采用本体扬声器并根据交互内容文件的语音指令播放交互语音,完成动作交互和语音交互,以此完成人机交互。
34、作为本发明进一步改进的技术方案,所述麦克风阵列内包含4个麦克风,其中1个麦克风设为参考麦克风,坐标记为(0,0,0),其他三个麦克风的坐标分别记为(l,0,0),(0,l,0),(0,0,l);
35、步骤s209包括:
36、根据求得的三个时延差、麦克风阵列中其他三个麦克风到参考麦克风的最短距离l,代入麦克风阵列声源定位解析式,计算声源相对于麦克风阵列的位置;
37、其中麦克风阵列声源定位解析式为:4r02[(c2τ12+c2τ22+c2τ32)-l2]-4r0[l2(cτ1+cτ2+cτ3)+(c3τ13+c3τ23+c3τ33)]+(c4τ14+c4τ24+c4τ34)-2l2(c2τ12+c2τ22+c2τ32)+3l4=0 (1);
38、
39、
40、其中,l为阵元间距,即麦克风阵列中其他三个麦克风到参考麦克风的最短距离;τi为声源信号到达麦克风阵列中第i个麦克风与参考麦克风的时延差,i=1,2,3;r0为目标声源到达参考麦克风的距离,c为声音的传播速度,为声源与参考麦克风的方位角,θ为声源与参考麦克风的俯仰角;
41、根据公式(1)计算出r0,将求解出的r0代入公式(2),计算出和θ;
42、声源相对于麦克风阵列的位置包括目标声源到达参考麦克风的距离r0、声源与参考麦克风的方位角和声源与参考麦克风的俯仰角θ。
43、作为本发明进一步改进的技术方案,pc与交互机器人通过局域网无线通信连接。
44、作为本发明进一步改进的技术方案,所述麦克风阵列包括麦克风阵列框架和四个麦克风;
45、麦克风包括麦克风传感器和麦克风电路板,麦克风传感器焊接在麦克风电路板上,麦克风电路板采用麦克风电路板螺丝与麦克风传感器支架相连,麦克风电路板与麦克风传感器支架之间填充有柔性缓冲垫片,麦克风传感器支架与麦克风阵列框架通过螺栓连接;
46、所述麦克风阵列框架包括三根型材,三根型材两两垂直且两两之间通过角码连接,三个麦克风传感器支架分别通过螺栓连接在三根型材上,第四个麦克风传感器支架与其中一根型材靠近角码的一端固定连接,且第四个麦克风传感器支架上的麦克风为参考麦克风。
47、作为本发明进一步改进的技术方案,所述旋转平台包括旋转盘、转盘平台底座、电源开关、oled显示屏幕模块、锂电池充电接口、万向球轴承、arduino控制器、舵盘、舵机和锂电池;
48、所述转盘平台底座内侧四周连接有万向球轴承,万向球轴承用于给旋转盘导向支承,所述转盘平台底座内侧中部连接有舵机和锂电池,所述转盘平台底座的外圆壁上连接有oled显示屏幕模块、电源开关、锂电池充电接口;
49、所述锂电池充电接口与锂电池电连接,所述锂电池同时通过电源开关与oled显示屏幕模块、arduino控制器和舵机电连接,所述arduino控制器同时与舵机和oled显示屏幕模块电连接,所述arduino控制器含有串行通信口,串行通信口设置在转盘平台底座的外圆壁上;
50、所述舵机的输出端通过舵盘与旋转盘连接,所述旋转盘位于转盘平台底座上且与万向球轴承接触;
51、所述舵机用于通过舵盘驱动旋转盘相对于转盘平台底座转动。
52、作为本发明进一步改进的技术方案,所述转盘平台底座为圆柱形;所述转盘平台底座内侧中部为空心结构,且内侧中部开设有用于固定舵机的第一安装槽和用于固定锂电池的第二安装槽;所述转盘平台底座的外圆壁上开设有多个分别用于固定oled显示屏幕模块、电源开关、锂电池充电接口和串行通信口的通孔。
53、作为本发明进一步改进的技术方案,所述万向球轴承的一端为螺栓结构,该端的螺栓结构穿入转盘平台底座底部的预留通孔并与六角螺母连接;
54、所述舵盘一侧中部设置有花键凹槽,花键凹槽与舵机的输出轴连接,所述舵盘另一侧通过螺栓与旋转盘相连。
55、为实现上述技术目的,本发明采取的另一个技术方案为:
56、一种基于听觉感知的人机交互系统,包括采集声源信息模块、声源位置计算分析模块和人机交互模块;
57、所述人机交互模块包括交互机器人和旋转平台,所述交互机器人放置在旋转平台上,旋转平台用于驱动交互机器人转动;
58、所述采集声源信息模块用于采集音频信号并对音频信号进行预处理;
59、所述声源位置计算分析模块用于对预处理后的音频信号进行计算分析进而得到声源位置并将声源位置和声源信息发送给交互机器人;
60、所述交互机器人用于发送声源位置至旋转平台,旋转平台根据接收的声源位置驱动交互机器人转动,从而面向声源;
61、所述交互机器人用于根据声源信息调用本体api并通过本体api执行与当前声源信息对应的交互内容文件。
62、作为本发明进一步改进的技术方案,所述采集声源信息模块包括麦克风阵列、直流偏置电压电路、音频放大电路、带通滤波器电路和usb数据采集卡;
63、所述直流偏置电压电路用于为麦克风阵列提供偏置电压;
64、所述音频放大电路用于对麦克风阵列采集的音频信号进行放大;
65、所述带通滤波器电路用于对放大后的音频信号进行带通滤波;
66、所述usb数据采集卡用于对放大滤波后的音频信号进行采集并通过usb接口传输给pc,声源位置计算分析模块部署于pc端。
67、本发明的有益效果为:
68、(1)本发明提供了一种基于听觉感知的人机交互系统,通过麦克风阵列采集声源信号,位置计算分析,实现对声源的高精度实时定位。与传统视觉系统相比,本系统通过听觉感知的方式,不受光照和遮挡的限制,提高了在复杂环境下的可靠性和鲁棒性。
69、(2)本发明设计了一种全向转动机制,使其能够360度自由转动。这种全向转动能力为机器人提供了更灵活的交互方式,使其能够快速响应用户位置变化,提高了人机交互的自然性和效率。
70、(3)本发明结合实时声源定位技术和全向转动机制,机器人能够迅速调整自身姿态以面向用户。这使得机器人可以更快速、更自然地响应用户的指令和动作,实现更加流畅的人机交互。
71、(4)本发明通过优化声音处理算法,提高了系统对环境和噪声的适应性。机器人能够在场景中保持高效的声源定位和交互能力,提供更为鲁棒和可靠的服务。
72、(5)本系统为模块化系统,结构灵活。
73、(6)本发明提供了一种声音信号采集电路,较好的采集声音信号。
74、(7)本发明提供了一种实时性较好的麦克风阵列结构。
75、(8)本发明提供了一种定位精度高,实时性好的声源定位算法。
76、(9)本发明提供了一种麦克风阵列、数据采集卡、pc、交互机器人、arduino旋转平台的通讯方法。
77、(10)本发明提供了一种转动动作和机器人其他动作优先级的判定流程。
本文地址:https://www.jishuxx.com/zhuanli/20240618/24404.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表