技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种面向眼镜设备的命令词确定方法、装置、设备和介质与流程 > 正文

一种面向眼镜设备的命令词确定方法、装置、设备和介质与流程

国知局
2024-06-21 11:52:17

本技术涉及电器检测及语音识别，更为具体来说，本技术涉及一种面向眼镜设备的命令词确定方法、装置、设备和介质。

背景技术：

1、在可以交互的眼镜设备中，语音是一种较好的交互与控制方式。其中一个典型需求是，只有当佩戴者发出语音指令时，眼镜设备才会正确响应，当周围其他人发出语音指令时，眼镜设备则无响应。但该形态的有规模产品还比较少，但在其它交互场景有类似的解决方案，如个性话语音唤醒。

2、然而，通过声纹识别来判断是否指定用户发出指令，需要事先注册声纹，对公共穿戴产品不友好。另外还有采用波束形成加命令词识别方案，但是当声音比较大时，仍然影响识别效率。因此，现有的面向眼镜设备的命令词确定过程较慢，效率较低。

技术实现思路

1、基于上述技术问题，本发明旨在计算两个麦克风拾取的音频信号之间的时间差，基于所述时间差确定声源角度，并根据所述声源角度确定出目标命令词，以解决面向眼镜设备的命令词确定过程较慢及效率较低的问题。

2、本发明第一方面提供了一种面向眼镜设备的命令词确定方法，在所述眼镜设备横框架的上下侧各配置一个麦克风，且使两个麦克风与佩戴眼镜设备的人的嘴部处于一条直线上；所述方法包括：

3、两个麦克风独立拾取音频信号，其中，将两个麦克风中靠近人的嘴部的一个作为第一麦克风，将两个麦克风中除第一麦克风外的另一个作为第二麦克风；

4、识别所述第一麦克风所拾取的音频信号并确定出所述第一麦克风所拾取的音频信号中的命令词及所述命令词对应的起止时间点；

5、分别提取第一麦克风和第二麦克风针对所述命令词对应的起止时间所组成的时间范围内的音频信号并将提取结果分别作为第一音频信号和第二音频信号；

6、计算所述第一音频信号和所述第二音频信号之间的时间差，基于所述时间差确定声源角度，并根据所述声源角度确定出目标命令词。

7、在本发明的一些实施例中，所述识别所述第一麦克风所拾取的音频信号并确定出所述第一麦克风所拾取的音频信号中的命令词及所述命令词对应的起止时间点，包括：

8、采用音频样本数据训练dnn-hmm模型，其中，所述音频样本数据包括命令词音频和非命令词音频；

9、将训练好的dnn-hmm模型作为命令词识别模型，并基于所述命令词识别模型识别所述第一麦克风所拾取的音频信号并确定出所述第一麦克风所拾取的音频信号中的命令词及所述命令词对应的起止时间点。

10、在本发明的一些实施例中，所述计算所述第一音频信号和所述第二音频信号之间的时间差，包括：

11、计算所述第一音频信号和所述第二音频信号之间的相关性；

12、基于所述第一音频信号和所述第二音频信号之间的相关性得到所述第一音频信号和所述第二音频信号之间的时间差。

13、在本发明的一些实施例中，所述基于所述时间差确定声源角度，并根据所述声源角度确定出目标命令词，包括：

14、获取当前声源的预设位置点；

15、将所述当前声源的预设位置点与第二麦克风所在点的连线作为第三直线；

16、计算所述第三直线和第一麦克风所在点与第二麦克风所在点间的连线所形成的夹角，并将所述夹角作为声源角度；

17、根据所述声源角度的大小确定出目标命令词。

18、在本发明的一些实施例中，将第一麦克风所在点向所述第三直线做垂线，将所述垂线与第三直线的交点作为第四交点，并将所述第四交点与第一麦克风所在点与第二麦克风所在点组成三角形；

19、针对所组成的三角形，根据公式计算所述声源角度，其中，θ表示声源角度，sd表示第二麦克风所在点到所述第四交点间的线段，v表示声速，td表示所述第一音频信号和所述第二音频信号之间的时间差，m表示第一麦克风所在点与第二麦克风所在点形成的线段。

20、在本发明的一些实施例中，所述根据所述声源角度的大小确定出目标命令词，包括：

21、预先设置容忍角度值；

22、若计算出的声源角度小于或等于所述容忍角度值，则判定所述第一麦克风所拾取的音频信号中的命令词为目标命令词；

23、若计算出的声源角度大于所述容忍角度值，则判定所述第一麦克风所拾取的音频信号中的命令词为无效命令词，并接收新音频信号。

24、在本发明的一些实施例中，所述识别所述第一麦克风所拾取的音频信号并确定出所述第一麦克风所拾取的音频信号中的命令词及所述命令词对应的起止时间点，包括：

25、将所述第一麦克风所拾取的音频信号变换为连续语音帧；

26、将所述连续语音帧输入所述命令词识别模型，若所述连续语音帧对应的音频信号包含命令词，则命令词识别模型输出命令词及所述命令词对应的起止时间点。

27、本发明的第二方面提供了一种面向眼镜设备的命令词确定装置，所述装置包括：

28、拾取模块，用于使两个麦克风独立拾取音频信号，其中，将两个麦克风中靠近人的嘴部的一个作为第一麦克风，将两个麦克风中除第一麦克风外的另一个作为第二麦克风；

29、识别模块，用于识别所述第一麦克风所拾取的音频信号并确定出所述第一麦克风所拾取的音频信号中的命令词及所述命令词对应的起止时间点；

30、提取模块，用于分别提取第一麦克风和第二麦克风针对所述命令词对应的起止时间所组成的时间范围内的音频信号并将提取结果分别作为第一音频信号和第二音频信号；

31、确定模块，用于计算所述第一音频信号和所述第二音频信号之间的时间差，基于所述时间差确定声源角度，并根据所述声源角度确定出目标命令词。

32、本发明第三方面提供一种眼镜设备，所述眼镜设备应用各实施例中任一所述面向眼镜设备的命令词确定方法。

33、本发明第四方面提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行各实施例中任一所述面向眼镜设备的命令词确定方法。

34、本技术实施例中提供的技术方案，至少具有如下技术效果或优点：

35、本技术提供的面向眼镜设备的命令词确定方法，在所述眼镜设备横框架的上下侧各配置一个麦克风，且使两个麦克风与佩戴眼镜设备的人的嘴部处于一条直线上；两个麦克风独立拾取音频信号，其中，将两个麦克风中靠近人的嘴部的一个作为第一麦克风，将两个麦克风中除第一麦克风外的另一个作为第二麦克风；识别所述第一麦克风所拾取的音频信号并确定出所述第一麦克风所拾取的音频信号中的命令词及所述命令词对应的起止时间点；分别提取第一麦克风和第二麦克风针对所述命令词对应的起止时间所组成的时间范围内的音频信号并将提取结果分别作为第一音频信号和第二音频信号；计算所述第一音频信号和所述第二音频信号之间的时间差，基于所述时间差确定声源角度，并根据所述声源角度确定出目标命令词。本技术利用两个麦克风的两个音频信号的时间差来计算当前声源的角度，进而判定第一麦克风所拾取的音频信号中的命令词是否为目标命令词，使命令词的确定简单快捷，精准高效，大大地节省了命令词的确定时间。特别是在眼镜设备里实现了拾取语音、识别语音及确定语音中命令词的一整套操作过程，从而大大提升了语音识别和语音中命令词确定的效率。

36、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。