一种语音就近唤醒方法、装置以及设备与流程
- 国知局
- 2024-06-21 11:49:00
本发明涉及智能家居,尤其涉及一种语音就近唤醒方法、装置以及设备。
背景技术:
1、如今,随着人工智能技术的发展,人机交互已经成为一种主流的趋势,而带有语音功能的产品也越来越普及。而这些产品通常都需要先进行语音唤醒才能够进行下一步的动作,但是当空间中存在多种设备并且它们的唤醒词相同时,用户进行语音唤醒操作时,则会有多种设备进行相应。但通常情况下,用户只希望离的最近的设备进行响应。
2、由于就近唤醒本身就作为一种辅助功能,不应该占用太长运行时间,而现有方案如声源排序的唤醒方案最终需要分别通过模型计算距离得分并且进行两两比对,如果设备较多,延时将可能影响用户体验。
技术实现思路
1、有鉴于此,本发明的目的在于提出一种语音就近唤醒方法、装置以及设备,旨在解决现有的就近唤醒方案会造成更多的时间延时,导致用户体验差等问题。
2、为实现上述目的,本发明提供一种语音就近唤醒方法,所述方法包括:
3、响应于检测到用户发出包含唤醒词的语音数据,基于预设的唤醒延迟时间内确定生成唤醒事件的至少一个智能语音设备;
4、通过所确定的所述智能语音设备计算所述语音数据的音频特征向量,并将所述音频特征向量发送至主机设备,通过所述主机设备中的唤醒模型对所述音频特征向量进行预测,其中,所述主机设备与多个所述智能语音设备基于同一wifi局域网内进行组网;
5、根据预测结果唤醒对应的智能语音设备,其中,所述预测结果为所述主机设备中的唤醒模型根据所述音频特征向量返回的唤醒设备概率。
6、优选的,所述基于预设的唤醒延迟时间内确定生成唤醒事件的至少一个智能语音设备,包括:
7、通过所述智能语音设备中的vad模块检测到所述语音数据时,将所述语音数据输入至语音唤醒算法,得到对应的唤醒值;
8、将所述唤醒值与设定阈值进行比对,当所述唤醒值大于所述设定阈值时,确定对应的所述智能语音设备生成所述唤醒事件。
9、优选的,所述通过所确定的所述智能语音设备计算所述语音数据的音频特征向量,包括:
10、反向截取所述语音数据中预设长度的第一音频,所述第一音频包含唤醒词;
11、对所述第一音频进行fbank特征提取,得到所述音频特征向量。
12、优选的,所述唤醒模型的网络结构包括多个卷积层、se-block模块、通道注意力模块、池化层、金字塔融合结构以及全连接层。
13、优选的,所述唤醒模型的训练过程,包括:
14、构建训练数据集,包括在同一个空间下、将不同设备放置不同位置进行音频采集,对采集的原始音频数据进行加入噪声以及随机掩码的数据增强,其中,将距离最近的设备设置为真实标签;
15、将所述训练数据集输入模型中进行训练,并通过包括交叉熵损失函数以及adam优化器对模型进行优化,得到训练完成的所述唤醒模型。
16、优选的,所述根据预测结果唤醒对应的智能语音设备,包括:
17、根据所述主机设备返回的最高唤醒设备概率唤醒第一语音设备;
18、当判断所述第一语音设备无法唤醒时,根据所述唤醒设备概率由高到低唤醒可被唤醒的第二语音设备。
19、为实现上述目的,本发明还提供一种语音就近唤醒装置,所述装置包括:
20、检测单元,用于检测到用户发出包含唤醒词的语音数据时,基于预设的唤醒延迟时间内确定生成唤醒事件的至少一个智能语音设备;
21、计算单元,用于通过所确定的所述智能语音设备计算所述语音数据的音频特征向量,并将所述音频特征向量发送至主机设备,以通过所述主机设备中的唤醒模型对所述音频特征向量进行预测,其中,所述主机设备与多个所述智能语音设备基于同一wifi局域网内进行组网;
22、唤醒单元,用于唤醒第一语音设备,以使所述第一语音设备执行相应的操作,其中,所述第一语音设备为所述主机设备根据所述音频特征向量返回的唤醒设备概率为最高的一所述智能语音设备。
23、为了实现上述目的,本发明还提出一种语音就近唤醒设备,包括处理器、存储器以及存储在所述存储器内的计算机程序,所述计算机程序被所述处理器执行以实现如上述实施例所述的一种语音就近唤醒方法的步骤。
24、优选的,所述语音就近唤醒设备包括智能家居设备。
25、为了实现上述目的,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行以实现如上述实施例所述的一种语音就近唤醒方法的步骤。
26、有益效果:
27、以上方案,通过响应于检测到用户发出包含唤醒词的语音数据,基于预设的唤醒延迟时间内确定生成唤醒事件的至少一个智能语音设备;通过所确定的所述智能语音设备计算所述语音数据的音频特征向量,并将所述音频特征向量发送至主机设备,通过所述主机设备中的唤醒模型对所述音频特征向量进行预测;根据预测结果唤醒对应的语音设备,所述预测结果为所述主机设备中的唤醒模型根据所述音频特征向量返回的唤醒设备概率,能够更加准确的就近唤醒设备,并且能够降低处理的延时性、提高用户的体验感。
28、以上方案,通过将就近唤醒端到端实现抽象为多分类,通过基于深度学习所构建的唤醒模型进行预测出最近的设备并进行唤醒,对于在各种噪声影响下,模型的泛化性更强,这是传统算法所难以克服的。
技术特征:1.一种语音就近唤醒方法,其特征在于,所述方法包括:
2.根据权利要求1所述的一种语音就近唤醒方法,其特征在于,所述基于预设的唤醒延迟时间内确定生成唤醒事件的至少一个智能语音设备,包括:
3.根据权利要求1所述的一种语音就近唤醒方法,其特征在于,所述通过所确定的所述智能语音设备计算所述语音数据的音频特征向量,包括:
4.根据权利要求1所述的一种语音就近唤醒方法,其特征在于,所述唤醒模型的网络结构包括多个卷积层、se-block模块、通道注意力模块、池化层、金字塔融合结构以及全连接层。
5.根据权利要求1或4所述的一种语音就近唤醒方法,其特征在于,所述唤醒模型的训练过程,包括:
6.根据权利要求1所述的一种语音就近唤醒方法,其特征在于,所述根据预测结果唤醒对应的智能语音设备,包括:
7.一种语音就近唤醒装置,其特征在于,所述装置包括:
8.一种语音就近唤醒设备,其特征在于,包括处理器、存储器以及存储在所述存储器内的计算机程序,所述计算机程序被所述处理器执行以实现如权利要求1至6任意一项所述的一种语音就近唤醒方法的步骤。
9.根据权利要求8所述的一种语音就近唤醒设备,其特征在于,所述语音就近唤醒设备包括智能家居设备。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行以实现如权利要求1至6任意一项所述的一种语音就近唤醒方法的步骤。
技术总结本发明公开了一种语音就近唤醒方法、装置、设备及存储介质,其包括:响应于检测到用户发出包含唤醒词的语音数据,基于预设的唤醒延迟时间内确定生成唤醒事件的至少一个智能语音设备;通过所确定的所述智能语音设备计算所述语音数据的音频特征向量,并将所述音频特征向量发送至主机设备,通过所述主机设备中的唤醒模型对所述音频特征向量进行预测,其中,所述主机设备与多个所述智能语音设备基于同一WIFI局域网内进行组网;根据预测结果唤醒对应的智能语音设备,其中,所述预测结果为所述主机设备中的唤醒模型根据所述音频特征向量返回的唤醒设备概率。能够更加准确的就近唤醒设备,降低处理的延时性、提高用户的体验感。技术研发人员:魏江超,唐进祥,罗永和受保护的技术使用者:厦门立林科技有限公司技术研发日:技术公布日:2024/5/6本文地址:https://www.jishuxx.com/zhuanli/20240618/23725.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表