一种自适应近远场的离线语音命令词识别方法、系统及介质与流程
- 国知局
- 2024-06-21 10:40:56
本发明涉及语音识别技术,尤其涉及一种自适应近远场的离线语音命令词识别方法、系统及介质。
背景技术:
1、随着近来语音深度学习的发展,离线语音命令词得以实现并应用于局域网智能设备中,可以达到对于语音近场采样较好的情况下较准确的识别语音命令词。但如果是语音远场采样,如声音较小的情况下,虽然人耳可以听出声音,但由于存在较大的环境噪声,离线语音处理包往往并不能实现较好的识别效果。
2、因此,亟需一种有效的方案,能够在麦克风采样近场远场不定的语音环境下实现有效的离线语音识别。
技术实现思路
1、本发明要解决的技术问题就在于:针对现有技术存在的技术问题,本发明提供一种自适应近远场的离线语音命令词识别方法、系统及介质,解决近场远场声音因信噪比不同而难以识别的问题。
2、为解决上述技术问题,本发明提出的技术方案为:
3、一种自适应近远场的离线语音命令词识别方法,包括以下步骤:
4、s101)以指定的时间间隔获取语音数据片段并更新语音数据,对语音数据音量自适应增强后进行唤醒识别,若能识别,提取人声部分,并保存人声部分特征和识别词,若无法识别,提取人声部分,并将人声部分特征与已保存的人声部分特征进行匹配,将匹配结果对应的识别词作为唤醒词识别结果;
5、s102)若识别到唤醒词,获取新的语音数据,对语音数据音量自适应增强后进行命令识别,若能识别,提取人声部分,并保存人声部分特征和识别词,若无法识别,提取人声部分,并将人声部分特征与已保存的人声部分特征进行匹配,将匹配结果对应的识别词作为命令词识别结果。
6、进一步的,步骤s101中以指定的时间间隔获取语音数据片段并更新语音数据时,包括:获取当前时段的语音数据片段,将当前时段的语音数据片段加入原始语音数据尾部,并丢弃原始语音数据头部的语音数据片段。
7、进一步的,步骤s101以及步骤s102中,对语音数据音量自适应增强时,均包括:
8、s201)遍历语音数据得到绝对值最大的极值;
9、s202)将指定值除以绝对值最大的极值,得到放大倍数;
10、s203)按照放大倍数对语音数据进行音量增强。
11、进一步的,步骤s101与步骤s102中,提取语音数据的人声部分时,均包括:
12、s301)计算语音数据的均值pcmaverage,提取语音数据中大于均值pcmaverage的连续部分作为人声部分;
13、s302)对人声部分进行高通滤波,得到高音量人声部分。
14、进一步的,步骤s301中,提取语音数据中大于均值pcmaverage的连续部分时,包括:
15、s401)在语音数据的图谱中选取最大值处下标为中心;
16、s402)从中心开始,以指定的时间步长向语音数据图谱的两端移动,若当前时间步长中语音数据的均值pcmaverage1大于均值pcmaverage,向对应端点移动下一个时间步长,若当前时间步长中语音数据的均值pcmaverage1小于均值pcmaverage,则停止移动并执行步骤s403;
17、s403)截取所有时间步长中的语音数据。
18、进一步的,步骤s302中,对人声部分进行高通滤波时,包括:遍历人声部分并提取大于所述均值pcmaverage和滤波系数乘积的语音数据。
19、进一步的,步骤s101与步骤s102中,保存人声部分特征和识别词时,包括:
20、s501)获取语音数据识别后的识别词与置信度c1;
21、s502)若置信度c1大于预设的第一阈值,提取语音数据的人声部分的特征矩阵t1;
22、s503)获取备份库中已保存的相同识别词的特征矩阵tn,计算特征矩阵t1与特征矩阵tn的相似度;
23、s504)若特征矩阵t1与特征矩阵tn的相似度大于预设的第二阈值,且置信度c1大于相同识别词的置信度cn,将备份库中的所述识别词的置信度cn和特征矩阵tn分别更新为置信度c1和特征矩阵t1;
24、若特征矩阵t1与特征矩阵tn的相似度小于预设的第三阈值,将置信度c1和特征矩阵t1保存在备份库中。
25、进一步的,步骤s101与步骤s102中,将人声部分特征与已保存的人声部分特征进行匹配时,包括:
26、s601)提取语音数据的人声部分的特征矩阵t2;
27、s602)遍历备份库中所有特征矩阵,并计算备份库中的每个特征矩阵与特征矩阵t2的相似度;
28、s603)若备份库中的特征矩阵与特征矩阵t2的相似度均小于预设的第二阈值,则丢弃语音数据;
29、若备份库中存在与特征矩阵t2的相似度大于预设的第二阈值的特征矩阵,将所述特征矩阵作为匹配结果。
30、本发明还提出一种自适应近远场的离线语音命令词识别系统,包括互相连接的微处理器和计算机可读存储介质,所述微处理器被编程或配置以执行权利要求任一项所述的自适应近远场的离线语音命令词识别方法。
31、本发明还提出一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序用于被微处理编程或配置以执行任一项所述的自适应近远场的离线语音命令词识别方法。
32、与现有技术相比,本发明的优点在于:
33、本发明对需要识别的语音进行音量自适应增强处理后,进行唤醒识别或者命令识别,针对能识别且置信度较高的语音保存其人声部分特征,对于无法识别的语音,将其人声部分特征与所保存的人声部分特征进行匹配,将特征相似度大的匹配结果判定为相同语音,并且输出所保存的对应识别词作为语音命令词的识别结果,从而通过近远场声音自适应增强和备份提高了近场远场不定的语音环境下的语音识别概率。
34、本发明还在唤醒过程中,通过指定间隔获取语音数据片段并以此更新唤醒语音,通过切片方式提高了唤醒词唤醒概率。
技术特征:1.一种自适应近远场的离线语音命令词识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的自适应近远场的离线语音命令词识别方法,其特征在于,步骤s101中以指定的时间间隔获取语音数据片段并更新语音数据时,包括:获取当前时段的语音数据片段,将当前时段的语音数据片段加入原始语音数据尾部,并丢弃原始语音数据头部的语音数据片段。
3.根据权利要求1所述的自适应近远场的离线语音命令词识别方法,其特征在于,步骤s101以及步骤s102中,对语音数据音量自适应增强时均包括:
4.根据权利要求1所述的自适应近远场的离线语音命令词识别方法,其特征在于,步骤s101与步骤s102中,提取人声部分时,均包括:
5.根据权利要求4所述的自适应近远场的离线语音命令词识别方法,其特征在于,步骤s301中,提取语音数据中大于均值pcmaverage的连续部分时,包括:
6.根据权利要求4所述的自适应近远场的离线语音命令词识别方法,其特征在于,步骤s302中,对人声部分进行高通滤波时,包括:遍历人声部分并提取大于所述均值pcmaverage和滤波系数乘积的语音数据。
7.根据权利要求1所述的自适应近远场的离线语音命令词识别方法,其特征在于,步骤s101与步骤s102中,保存人声部分特征和识别词时,包括:
8.根据权利要求1所述的自适应近远场的离线语音命令词识别方法,其特征在于,步骤s101与步骤s102中,将人声部分特征与已保存的人声部分特征进行匹配时,包括:
9.一种自适应近远场的离线语音命令词识别系统,其特征在于,包括互相连接的微处理器和计算机可读存储介质,所述微处理器被编程或配置以执行权利要求1~8任一项所述的自适应近远场的离线语音命令词识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序用于被微处理编程或配置以执行权利要求1~8任一项所述的自适应近远场的离线语音命令词识别方法。
技术总结本发明公开了一种自适应近远场的离线语音命令词识别方法、系统及介质,方法包括:以指定的时间间隔获取语音数据片段并更新语音数据,对语音数据音量自适应增强后进行唤醒识别,若能识别则提取人声部分,保存人声部分特征与识别词,若无法识别则提取人声部分,将人声部分特征与已保存的人声部分特征进行匹配,将匹配结果的识别词作为唤醒词;若识别到唤醒词,获取新的语音数据,对语音数据音量自适应增强后进行命令识别,若能识别则提取人声部分,保存人声部分特征与识别词,若无法识别则提取人声部分,将人声部分特征与已保存的人声部分特征进行匹配,将匹配结果的识别词作为命令词。本发明解决了近远场不定环境下,远场声音难以识别的问题。技术研发人员:余倬先,樊绍胜,欧阳峰,宋运团,孙文敏,余震,冷望受保护的技术使用者:深圳昱拓智能有限公司技术研发日:技术公布日:2024/1/25本文地址:https://www.jishuxx.com/zhuanli/20240618/21171.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
上一篇
语音合成方法及装置与流程
下一篇
返回列表