结合动态时间规整的唤醒词识别方法、装置、设备及介质与流程
- 国知局
- 2024-06-21 11:58:05
本发明涉及音频处理,尤其涉及一种结合动态时间规整的唤醒词识别方法、装置、设备及介质。
背景技术:
1、随着智能语音助手、语音控制系统以及智能家居设备的兴起,人们对自然语言和语音交互的需求持续增加,在这一趋势下,唤醒词识别成为实现自然语音交互的关键技术,使用户可以通过简单的口令唤醒设备并进行语音命令输入,此外,能效和资源管理在移动设备和嵌入式系统中变得尤为关键。通过采用唤醒词技术,系统能够在待机或低功耗状态下监听环境声音,仅在检测到特定的唤醒词时才唤醒更为复杂的语音处理系统,有效减少功耗和资源占用,随着虚拟助手,例如apple的siri、amazon的alexa、google的assistant的普及,唤醒词识别变得尤为关键,这项技术允许这些虚拟助手在背景中等待用户指令,用户只需通过简单的口令即可触发各种语音功能,包括语音搜索、提醒和音乐播放等;在真实世界中,复杂的噪声环境,如交通噪声、人声等给语音处理系统带来挑战。唤醒词识别需要具备鲁棒性,能够在这些嘈杂环境中准确地检测唤醒词,以保证用户体验的可靠性,随着深度学习技术的不断发展,唤醒词识别得以显著提升,深度学习方法被广泛应用于唤醒词识别,极大地提高了模型的准确性和鲁棒性,总的来说,唤醒词识别技术的进步不仅满足了用户对自然语音交互的迫切需求,还解决了语音处理中的一系列技术挑战,推动了整个语音识别领域的发展。
2、随着深度学习技术的发展,神经网络在唤醒词识别中变得越来越流行,卷积神经网络(cnn)、循环神经网络(rnn)、长短时记忆网络(lstm)、以及变体如门控循环单元(gru)等都被用于建模语音特征和序列。然而,首先现有的唤醒词识别技术在面对多样化的环境时表现不佳,环境因素如噪声水平、声音反射、空间大小等的变化会影响唤醒词的准确性,现有唤醒词识别技术在适应复杂的噪声环境和不同的录音条件时存在鲁棒性不足的问题;其次,现有唤醒词识别技术在处理大规模语音数据时速度较慢,特别是在资源受限的嵌入式系统或移动设备上,较慢的识别速度会导致响应时间延迟,降低了用户体验。
3、现有中国专利cn107886957a公开了一种结合声纹识别的语音唤醒方法及装置,所述方法包括:s1:接收待验证语音并进行特征提取,获取待验证语音的mfcc特征;s2:对预置时段内的待验证语音的mfcc特征进行缓存;s3:根据缓存的待验证语音的mfcc特征判断待验证语音的内容是否为预置的唤醒词,若是,则执行步骤s4;s4:将缓存的待验证语音的mfcc特征输入预置的深度神经网络模型中,获取待验证语音的i-vector向量;s5:将待验证语音的i-vector向量和预置的i-vector向量进行比对,根据比对得出的匹配分数获取待验证语音的权限值,判断待验证语音的权限值是否大于或等于待验证语音对应的预置的唤醒词对应的权限值,若是,则执行与待验证语音对应的预置的唤醒词对应的操作;上述专利虽然公开了采集音频数据,在音频数据中提取关键特征,依据所述关键特征,识别目标关键词,然而在面对实际的多样化环境时,容易受到外界外界环境影响,导致唤醒词识别准确度低,同时由于上述专利在识别速度上未做过多改进,常规的高延迟的响应速度难以应用于资源受限的嵌入式系统或移动设备上。
4、为此,如何提供一种低延时,高准确度的唤醒词识别方法,应用于资源受限的嵌入式系统或移动设备上是亟待解决的问题。
技术实现思路
1、有鉴于此,本发明提供了一种结合动态时间规整的唤醒词识别方法、装置、设备及介质,用以解决现有技术中唤醒词识别准确度低、高延迟的问题。
2、本发明采用的技术方案是:
3、第一方面,本发明提供了一种结合动态时间规整的唤醒词识别方法,所述方法包括:
4、s1:获取多种看护场景下的实时音频数据;
5、s2:利用多特征融合算法,对所述实时音频数据进行静默识别,剔除识别出的静默音频片段,输出语音音频片段;
6、s3:依据预设的唤醒词对应的时长阈值,将语音音频片段中时长高于所述时长阈值的对应音频片段剔除,输出待检测音频片段;
7、s4:对所述待检测音频片段进行频谱特征提取,获取与预设目标唤醒词相关的关键特征信息;
8、s5:利用动态时间规整算法和双词联合检测算法,对所述关键特征信息进行处理,识别目标唤醒词。
9、优选地,所述s2包括:
10、s21:获取实时音频数据中各音频帧对应的原始音频信号,对所述原始音频信号进行信号特征提取,获取多个音频信号特征;
11、s22:对各所述音频信号特征进行规范化处理,输出各所述音频信号特征分别对应的标准音频信号特征;
12、s23:依据预设权重,对各所述标准音频信号特征进行加权融合处理,输出融合特征向量;
13、s24:将所述融合特征向量输入预训练的分类器中,输出融合特征向量识别为语音音频片段的概率;
14、s25:依据所述融合特征向量识别为语音音频片段的概率和预设的概率阈值,识别所述语音音频片段。
15、优选地,所述s25包括:
16、s251:获取各融合特征向量识别为语音音频片段的概率和预设的平滑因子;
17、s252:依据所述平滑因子,对各融合特征向量识别为语音音频片段的概率进行平滑处理,输出平滑处理后各融合特征向量识别为语音片段的目标概率;
18、s253:将各所述目标概率与所述概率阈值进行对比,当目标概率大于所述概率阈值时,识别目标概率对应的音频帧为所述语音音频片段。
19、优选地,所述s5包括:
20、s51:依据所述关键特征信息,将关键特征信息对应的音频帧分为多个音频段落;
21、s52:依据各音频段落之间的振幅差值,对各音频段落内算法检测的步长进行调整,输出各音频段落对应的目标步长;
22、s53:依据各所述目标步长,利用时间规整算法,分别在各音频段落内对目标步长间隔的各目标音频段落进行相似度匹配,输出相似度大于预设相似度阈值的第一目标音频段落和第二目标音频段落;
23、s54:利用所述双词联合检测算法,对所述第一目标音频段落和所述第二目标音频段落进行识别,识别所述目标唤醒词。
24、优选地,所述s54包括:
25、s541:对所述第一目标音频段落和所述第二目标音频段落进行时间间隔筛选,输出筛选合格的第一合格音频段落和第二合格音频段落;
26、s542:对所述第一合格音频段落和第二合格音频段落分别进行唤醒词识别,输出识别结果;
27、s543:依据所述识别结果,若第一合格音频段落和第二合格音频段落均识别到所述目标唤醒词,则认为目标唤醒词识别完成。
28、优选地,所述s541包括:
29、s5411:获取第一目标音频段落和第二目标音频段落之间的时间间隔和预设的时间窗口;
30、s5412:将所述时间间隔和所述时间窗口进行比较,若判断时间间隔在所述时间窗口内,则输出第一合格音频段落和第二合格音频段落;
31、s5413:若判断时间间隔不在所述时间窗口内,则剔除对应的第一目标音频段落和第二目标音频段落。
32、优选地,所述s542包括:
33、s5421:获取第一训练音频数据和第二训练音频数据,其中,第一训练音频数据包括所述目标唤醒词,第二训练音频数据不包括所述目标唤醒词;
34、s5422:对所述第一训练音频数据和第二训练音频数据进行标注,输出标签信息;
35、s5423:对所述第一训练音频数据和第二训练音频数据进行特征提取,输出训练特征信息;
36、s5424:将所述标签信息和所述训练特征信息输入预设的分类模型中进行训练,得出唤醒词识别模型;
37、s5425:将所述第一合格音频段落和第二合格音频段落分别输入所述唤醒词识别模型中,输出识别结果。
38、第二方面,本发明提供了一种结合动态时间规整的唤醒词识别装置,所述装置包括:
39、实时音频获取模块,用于获取多种看护场景下的实时音频数据;
40、语音片段提取模块,用于利用多特征融合算法,对所述实时音频数据进行静默识别,剔除识别出的静默音频片段,输出语音音频片段;
41、待检测音频片段提取模块,用于依据预设的唤醒词对应的时长阈值,将语音音频片段中时长高于所述时长阈值的对应音频片段剔除,输出待检测音频片段;
42、关键特征提取模块,用于对所述待检测音频片段进行关键特征提取,获取与预设目标唤醒词相关的关键特征信息;
43、唤醒词识别模块,用于利用动态时间规整算法和双词联合检测算法,对所述关键特征信息进行处理,识别目标唤醒词。
44、第三方面,本发明实施例还提供了一种电子设备,包括:至少一个处理器、至少一个存储器以及存储在存储器中的计算机程序指令,当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。
45、第四方面,本发明实施例还提供了一种存储介质,其上存储有计算机程序指令,当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。
46、综上所述,本发明的有益效果如下:
47、本发明提供的结合动态时间规整的唤醒词识别方法、装置、设备及介质,所述方法包括:获取多种看护场景下的实时音频数据;利用多特征融合算法,对所述实时音频数据进行静默识别,剔除识别出的静默音频片段,输出语音音频片段;依据预设的唤醒词对应的时长阈值,将语音音频片段中时长高于所述时长阈值的对应音频片段剔除,输出待检测音频片段;对所述待检测音频片段进行频谱特征提取,获取与预设目标唤醒词相关的关键特征信息;利用动态时间规整算法和双词联合检测算法,对所述关键特征信息进行处理,识别目标唤醒词。本发明通过获取多种看护场景下的实时音频数据,充分考虑不同环境的声音特性,能够更好地适应复杂和多变的实际使用场景;其次,在静默识别阶段,提高了对有声和无声部分的准确判别,能够更有效地去除背景噪声和非语音音频,为后续处理减少了无效的音频片段,提高了工作效率也交底了响应延迟;再通过设置预设的唤醒词时长阈值,筛选掉过长的明显不符合唤醒词的语音片段,避免了工作资源浪费在长音频片段上;最后,在唤醒词识别阶段,采用动态时间规整算法和双词联合检测算法,两者的结合能够更加灵活地处理语音信号的变化,并且通过联合检测,不仅有助于适应不同语音速度和变化模式,还能够减少响应延迟,提高了实时性;总体而言,本发明通过综合考虑多种因素,从数据的多样性到处理的准确性和实时性,为多场景下资源受限的嵌入式系统或移动设备被语音唤醒提供了强有力的技术支持。
本文地址:https://www.jishuxx.com/zhuanli/20240618/24777.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表