技术新讯 > 乐器声学设备的制造及制作,分析技术 > 无声语音识别方法及智能耳机系统  >  正文

无声语音识别方法及智能耳机系统

  • 国知局
  • 2024-06-21 11:38:56

本申请涉及无线感知,具体地,涉及一种无声语音识别方法及智能耳机系统。

背景技术:

1、语音交互在日常生活中扮演着极其重要的角色。语音通信是最便捷的交互方法,并且与其他常见的交互方案(如打字和手势等)相比,语音具有更高的效率。根据研究,说话比在触摸屏上打字要快大约四倍,并且语音交互不会受照明等条件的影响。语音信号的主要载体是人的声音,但在某些情况下,例如在会议或者嘈杂的环境中,是无法发声或者会影响语音交流的效率。或者是对于障碍人群,如聋哑人难以使用语音与外界交流。现有研究利用无声语音识别(ssr)技术,作为这些场景中的替代方案,ssr允许用户以无声的方式与人或设备进行通信。用户只需做出嘴型而不用实际发出声音,语音信息就可以通过各种ssr技术被获取。

2、目现ssr技术主要分为两类,基于接触的方法和无接触的方法。具体而言,基于接触的方法需要将传感器(脑电图电极或肌电图电极)连接到人体,但这种方法是侵入性的,因此在许多现实场景中都不够便捷。而无接触方法大多数是通过摄像头或者无线信号来捕捉口腔和声道的运动从而识别无声语音。例如一些发明设计利用手机发送的声学信号来获取由嘴巴运动引起的多普勒频移,从而实现无声语音识别。不过,虽然嘴唇的运动很容易捕获,但是舌头的运动却很难获得,而舌头的运动对识别无声语音是非常重要的。此外,这种方法需要将手机放在用户的嘴巴前面,以确保信号可以从嘴巴反射出来。

3、综上所述,对于现有的无声语音识别方法,主要存在使用不方便以及不能进行细粒度识别的问题,这些问题将会导致用户很难在现实情形下进行无声语音交流。

技术实现思路

1、为了克服现有技术中的至少一个不足,本申请提供一种无声语音识别方法及智能耳机系统。

2、第一方面,提供一种无声语音识别方法,包括:

3、获取经人体耳道反射的声波数据;声波数据携带无声语音信息;

4、对声波数据进行耳机自干扰消除,得到自干扰消除后的声波数据;

5、提取干扰消除后的声波数据中的有效数据;

6、基于有效数据提取传递函数特征和连续小波变换特征;

7、将传递函数特征和连续小波变换特征输入到无声语音识别模型中,得到无声语音识别结果;无声语音识别模型包括递归神经网络、卷积神经网络、融合层和softmax层;

8、递归神经网络用于对传递函数特征进行特征提取,得到第一特征;卷积神经网络用于对连续小波变换特征进行特征提取,得到第二特征;融合层用于将第一特征和第二特征进行融合,得到融合特征;softmax层用于基于融合特征,输出无声语音识别结果。

9、在一个实施例中,对声波数据进行耳机自干扰消除,包括:

10、在声波数据中去除直接路径的干扰信号,得到自干扰消除后的声波数据。

11、在一个实施例中,提取干扰消除后的声波数据中的有效数据,包括:

12、对干扰消除后的声波数据进行清洗、去噪,并进行分割操作,得到多个数据片段;对多个数据片段进行峰值提取,得到多个峰值数据片段;对多个峰值数据片段采用svdd方法,确定语音引起的数据片段,作为有效数据。

13、在一个实施例中,基于有效数据提取传递函数特征和连续小波变换特征,包括:

14、利用传递函数提取传递函数特征;利用连续小波变换方法提取连续小波变换特征。

15、在一个实施例中,递归神经网络包括卷积层conv1d、输入层和隐藏层。

16、在一个实施例中,卷积神经网络包括填充层padding、卷积层conv2 d、批归一化层、relu层、多个残余瓶颈层和全局平均池化层gap。

17、第二方面,提供一种无声语音识别装置,包括:

18、声波数据获取模块,用于获取经人体耳道反射的声波数据;声波数据携带无声语音信息;

19、自干扰消除模块,用于对声波数据进行耳机自干扰消除,得到自干扰消除后的声波数据;

20、有效数据提取模块,用于提取干扰消除后的声波数据中的有效数据;

21、特征提取模块,用于基于有效数据提取传递函数特征和连续小波变换特征;

22、识别模块,用于将传递函数特征输入到递归神经网络进行特征提取,得到第一特征;将连续小波变换特征输入到卷积神经网络进行特征提取,得到第二特征;将第一特征和第二特征进行融合,得到融合特征;将融合特征输入到softmax层,输出无声语音识别结果。

23、第三方面,提供一种智能耳机系统,包括扬声器、麦克风、模数转换设备、后端服务设备;后端服务设备包括数据采集模块和数据处理模块;

24、扬声器用于向人体耳道发射带有pn前导码的声波信号;

25、麦克风用于接收经人体耳道反射的声波信号,并发送至模数转换设备;

26、模数转换设备用于将经人体耳道反射的声波信号转换为数字信号,并发送至后端服务器;

27、数据采集模块用于控制扬声器和麦克风进行信号的发射和接收;

28、数据处理模块用于执行上述的无声语音识别方法。

29、相对于现有技术而言,本申请具有以下有益效果:

30、1、无需额外的设备,利用低廉的具有麦克风的耳机就可以实现用户无声语音识别,降低无声语音识别的成本。

31、2、通过提取人体耳道结构的关键特征多路径轮廓和形变特征,利用双通道分层神经网络实现用户无声语音识别,提高系统的健壮性。

32、3、去除运动状态干扰和硬件自干扰,并对语音诱导信号和非语音诱导信号进行区分,使无声语音识别功能更加鲁棒。

技术特征:

1.一种无声语音识别方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述对所述声波数据进行耳机自干扰消除,包括:

3.如权利要求1所述的方法,其特征在于,所述提取所述干扰消除后的声波数据中的有效数据,包括:

4.如权利要求1所述的方法,其特征在于,基于所述有效数据提取传递函数特征和连续小波变换特征,包括:

5.如权利要求1所述的方法,其特征在于,所述递归神经网络包括卷积层conv1d、输入层和隐藏层。

6.如权利要求1所述的方法,其特征在于,所述卷积神经网络包括填充层padding、卷积层conv2 d、批归一化层、relu层、多个残余瓶颈层和全局平均池化层gap。

7.一种无声语音识别装置,其特征在于,包括:

8.一种智能耳机系统,其特征在于,包括扬声器、麦克风、模数转换设备、后端服务设备;所述后端服务设备包括数据采集模块和数据处理模块;

技术总结本申请涉及一种无声语音识别方法及智能耳机系统,方法包括获取经人体耳道反射的声波数据;声波数据携带无声语音信息;对声波数据进行耳机自干扰消除,得到自干扰消除后的声波数据;提取干扰消除后的声波数据中的有效数据;基于有效数据提取传递函数特征和连续小波变换特征;将传递函数特征和连续小波变换特征输入到无声语音识别模型中,得到无声语音识别结果。本申请无需额外的设备,利用低廉的具有麦克风的耳机就可以实现用户无声语音识别,降低无声语音识别的成本;通过提取人体耳道结构的关键特征多路径轮廓和形变特征,利用双通道分层神经网络实现用户无声语音识别,提高系统的健壮性。技术研发人员:陈晓江,孙雪,李秉昊,李晓慧,王安文,房鼎益受保护的技术使用者:西北大学技术研发日:技术公布日:2024/3/24

本文地址:https://www.jishuxx.com/zhuanli/20240618/22668.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。