一种语音控制方法、装置、设备及存储介质与流程
- 国知局
- 2024-06-21 11:31:58
本申请涉及语音识别,尤其涉及一种语音控制方法、装置、设备及存储介质。
背景技术:
1、命令词识别是语音识别技术的重要方向之一,其一般应用于终端设备的控制或唤醒。命令词识别模型在输入语音较为复杂的情况下,命令词识别模型会出现误识别现象。误识别现象一般包括非命令词误识别为命令词,不同含义的命令词之间的误识别,命令词误识别为非命令词。
2、在现有技术中为避免命令词识别模型出现误识别现象,在命令词识别模型训练时可将损失函数设置为最小化同分类距离与最大化不同分类距离。该损失函数配合距离普通样本较远的正样本和距离普通样本较近的负样本的精选三元组,可有效提高模型在复杂语音场景下的识别准确率。但由于精选三元组的收集过程较为麻烦,需要较长时间才能收集到用于训练模型的样本数据,导致模型的训练效率较低。
技术实现思路
1、本申请提供一种语音控制方法、装置、设备及存储介质,以通过普通样本训练模型也可以达到提高模型识别率的训练效果,保证模型在复杂语音场景的识别准确率的同时提高模型训练效率,以解决现有技术中模型训练效率低的问题。
2、第一方面,本申请提供了一种语音控制方法,包括:
3、基于训练样本集对第一神经网络模型进行训练,得到命令词识别模型;所述第一神经网络模型的训练过程中采用中心损失函数和正交化损失函数;
4、从当前输入的语音信息中获取待识别音频数据,并将所述待识别音频数据输入所述命令词识别模型中,得到所述命令词识别模型输出的命令词结果;
5、根据所述命令词结果,确定所述语音信息触发的操作指令。
6、第二方面,本申请提供了一种语音控制装置,包括:
7、第一训练模块,被配置为基于训练样本集对第一神经网络模型进行训练,得到命令词识别模型;所述第一神经网络模型的训练过程中采用中心损失函数和正交化损失函数;
8、命令词识别模块,被配置为从当前输入的语音信息中获取待识别音频数据,并将所述待识别音频数据输入所述命令词识别模型中,得到所述命令词识别模型输出的命令词结果;
9、操作触发模块,被配置为根据所述命令词结果,确定所述语音信息触发的操作指令。
10、第三方面,本申请提供了一种语音控制设备,包括:
11、一个或多个处理器;存储装置,存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的语音控制方法。
12、第四方面,本申请提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面所述的语音控制方法。
13、本申请通过在命令词识别模型的训练过程中采用中心损失函数和聚焦损失函数。中心损失函数可以减少同类命令词在特征空间的类内距离,因此变相增大了不同类命令词在特征空间的类间距离,使得不同类命令词的特征参数更有区分性,提高命令词识别模型的区分能力。正交化损失函数可以将各类命令词的中心特征参数与其转置的乘积趋向于单位矩阵,弱化不同类命令词之间的相关性,强化不同类命令词之间的差异性,使得命令词的特征更加接近同类中心特征,远离不同类的中心特征,增大不同类命令词在特征空间的类间距离。中心损失函数和正交化损失函数的联合使用,可间接和直接增大不同类命令词在特征空间的类间距离,增大难训样本的特征参数的区分性,提高命令词识别模型的区分能力,提高命令词识别模型的识别准确率,避免出现误识别现象。通过上述技术手段,训练命令词识别模型时采用普通样本也照样能达到优化模型性能的训练效果,保证模型在复杂语音场景的识别准确率的同时提高模型训练效率,解决了现有技术中模型训练效率低的问题。
技术特征:1.一种语音控制方法,其特征在于,包括:
2.根据权利要求1所述的语音控制方法,其特征在于,所述基于训练样本集对第一神经网络模型进行训练,得到命令词识别模型,包括:
3.根据权利要求1所述的语音控制方法,其特征在于,所述第一神经网络模型由神经网络、池化层和线性变换层组成;
4.根据权利要求2所述的语音控制方法,其特征在于,所述基于第一中心损失函数,根据所述样本音频数据的第二特征参数和所述样本音频数据的命令词类别的中心特征参数,确定第二损失值,包括:
5.根据权利要求4所述的语音控制方法,其特征在于,所述基于聚焦损失函数,根据所述样本音频数据的第二特征参数和各个命令词类别的中心特征参数,确定所述第一距离的权重系数,包括:
6.根据权利要求2所述的语音控制方法,其特征在于,所述基于正交化损失函数,根据各个命令词类别的中心特征参数,确定第三损失值,包括:
7.根据权利要求1所述的语音控制方法,其特征在于,在所述基于训练样本集对第一神经网络模型进行训练,得到命令词识别模型之前,还包括:
8.根据权利要求1所述的语音控制方法,其特征在于,在所述基于训练样本集对第一神经网络模型进行训练,得到命令词识别模型之前,还包括:
9.一种语音控制装置,其特征在于,包括:
10.一种语音控制设备,其特征在于,包括:一个或多个处理器;存储装置,存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8任一所述的语音控制方法。
11.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-8任一所述的语音控制方法。
技术总结本申请公开了一种语音控制方法、装置、设备及存储介质,涉及语音识别技术领域。本申请提供的技术方案包括:基于训练样本集对第一神经网络模型进行训练,得到命令词识别模型;第一神经网络模型的训练过程中采用中心损失函数和正交化损失函数;从当前输入的语音信息中获取待识别音频数据,并将待识别音频数据输入命令词识别模型中,得到命令词识别模型输出的命令词结果;根据命令词结果,确定语音信息触发的操作指令。通过上述技术手段,通过普通样本训练模型也可以达到提高模型识别率的训练效果,保证模型在复杂语音场景的识别准确率的同时提高模型训练效率,以解决现有技术中模型训练效率低的问题。技术研发人员:叶珑,雷延强受保护的技术使用者:广州视源电子科技股份有限公司技术研发日:技术公布日:2024/3/4本文地址:https://www.jishuxx.com/zhuanli/20240618/22065.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表