模型训练方法、语音唤醒方法、设备以及存储介质与流程
- 国知局
- 2024-06-21 11:47:59
本申请涉及语音识别,特别是涉及一种模型训练方法、语音唤醒方法、设备以及存储介质。
背景技术:
1、随着语音识别技术的发展,许多智能设备都设有语音唤醒功能。设备通过用户的语音来决定自身的状态,当设备识别到用户说出对应的唤醒词后,设备则进入唤醒状态,其余时间则通常处于睡眠状态,以降低设备的功耗。
2、现今方案中通常采用额外的神经网络模型或传感器对声音信号进行二次检测,以保证背景声不会引发设备的误唤醒;但却提高了方案实施成本,还增加了唤醒过程的延时。因此,现缺乏一种鲁棒且准确的语音唤醒方法。
技术实现思路
1、本申请至少提供一种模型训练方法、语音唤醒方法、装置、设备以及计算机可读存储介质。
2、本申请第一方面提供了一种模型训练方法,包括:将获取到的训练集中声音信号的声学特征分别输入多个待训练初始模型中进行模型训练,得到训练后的模型;根据获取到的模型挑选规则,从所述训练后的模型中进行模型挑选,得到各模型挑选规则对应的目标模型;根据获取到的模型融合规则,对各目标模型进行模型融合处理,得到语音唤醒模型。
3、在一实施例中,所述模型挑选规则包括损失值规则,所述根据获取到的模型挑选规则,从所述训练后的模型中进行模型挑选,得到各模型挑选规则对应的目标模型的步骤,包括:将获取到的验证集中声音信号的声学特征分别输入所述训练后的模型,得到所述训练后的模型输出的损失值;根据所述损失值规则挑选所述损失值小于预设损失阈值的训练后的模型,得到所述损失值规则对应的目标模型。
4、在一实施例中,所述模型挑选规则包括唤醒率规则,所述根据获取到的模型挑选规则,从所述训练后的模型中进行模型挑选,得到各模型挑选规则对应的目标模型的步骤,包括:将获取到的验证集中声音信号的声学特征分别输入所述训练后的模型,得到所述训练后的模型输出的音素信息;识别所述音素信息,得到识别结果和所述识别结果的置信度;若所述识别结果为唤醒关键词,且所述识别结果的置信度大于预设的置信阈值,则进行唤醒处理;基于识别到的唤醒关键词和获取到的唤醒次数确定所述训练后的模型的唤醒率;根据所述唤醒率规则挑选所述唤醒率大于预设唤醒阈值的训练后的模型,得到所述唤醒率规则对应的目标模型。
5、在一实施例中,所述模型挑选规则包括误唤醒率规则,所述根据获取到的模型挑选规则,从所述训练后的模型中进行模型挑选,得到各模型挑选规则对应的目标模型的步骤,包括:将获取到的验证集中声音信号的声学特征分别输入所述训练后的模型,得到所述训练后的模型输出的音素信息;识别所述音素信息,得到识别结果;若所述识别结果为非唤醒关键词,且基于所述识别结果进行唤醒处理,则基于识别到的非唤醒关键词和获取到的唤醒次数确定所述训练后的模型的误唤醒率;根据所述误唤醒率规则挑选所述误唤醒率小于预设误唤醒阈值的训练后的模型,得到所述误唤醒率规则对应的目标模型。
6、在一实施例中,所述音素信息包括所述声音信号的声学分数和语言分数,所述识别所述音素信息,得到识别结果的步骤,包括:基于所述声学分数和所述语言分数在预设音素解码图的候选音素中进行搜索,得到目标音素;基于所述目标音素生成所述声音信号的识别结果。
7、在一实施例中,在所述将获取到的训练集中声音信号的声学特征分别输入多个待训练初始模型中进行模型训练,得到训练后的模型的步骤之前,所述方法还包括:对所述训练集中的声音信号进行特征提取处理,得到初始特征;基于所述初始特征的特征均值和特征方差调整所述初始特征的特征分布范围,得到调整后的特征;基于预设的干扰矩阵对所述调整后的特征进行特征干扰,得到所述声学特征。
8、本申请第二方面提供了一种语音唤醒方法,包括:对获取到的声音信号进行特征提取处理,得到声学特征;
9、将所述声学特征输入训练好的语音唤醒模型中,得到所述语音唤醒模型输出的音素信息,所述训练好的语音唤醒模型根据前述任一项所述的模型训练方法的实施例进行训练得到;
10、识别所述音素信息,得到识别结果和所述识别结果对应的置信度;
11、若所述识别结果为唤醒关键词,且所述识别结果的置信度大于预设的置信阈值,则进行唤醒处理。
12、在一实施例中,在所述识别所述音素信息,得到识别结果的步骤之后,所述方法还包括:判断所述识别结果是否包括所述唤醒关键词;若所述识别结果包括所述唤醒关键词,则基于所述识别结果中各音素信息的声学分数确定所述识别结果的置信度,判断所述识别结果的置信度是否大于所述置信阈值;若所述识别结果不包括所述唤醒关键词,则暂停或停止进行唤醒处理。
13、本申请第三方面提供了一种模型训练装置,包括:模型训练模块,用于将获取到的训练集中声音信号的声学特征分别输入多个待训练初始模型中进行模型训练,得到训练后的模型;模型挑选模块,用于根据获取到的模型挑选规则,从所述训练后的模型中进行模型挑选,得到各模型挑选规则对应的目标模型;模型融合模块,用于根据获取到的模型融合规则,对各目标模型进行模型融合处理,得到语音唤醒模型。
14、本申请第四方面提供了一种语音唤醒装置,包括:特征提取模块,用于对获取到的声音信号进行特征提取处理,得到声学特征;特征转换模块,用于将所述声学特征输入训练好的语音唤醒模型中,得到所述语音唤醒模型输出的音素信息,所述训练好的语音唤醒模型根据前述任一项所述的模型训练方法的实施例进行训练得到;识别模块,用于识别所述音素信息,得到识别结果和所述识别结果对应的置信度;唤醒模块,用于若所述识别结果为唤醒关键词,且所述识别结果的置信度大于预设的置信阈值,则进行唤醒处理。
15、本申请第五方面提供了一种电子设备,包括存储器和处理器,处理器用于执行存储器中存储的程序指令,以实现上述模型训练方法和/或语音唤醒方法。
16、本申请第六方面提供了一种计算机可读存储介质,其上存储有程序指令,程序指令被处理器执行时实现上述模型训练方法和/或语音唤醒方法。
17、上述方案,通过在训练得到的多个声学模型中选择符合模型挑选规则的目标模型;根据模型融合规则将目标模型进行融合,得到语音唤醒模型;使用目标模型融合后得到的语音唤醒模型进行语音唤醒,弥补了单一模型在个别场景下出现精度下降的情况,提升了模型的鲁棒性,此外在语音唤醒过程中还会判断语音识别结果的置信度,由此能够降低误唤醒次数,提升语音唤醒的准确率。
18、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本申请。
技术特征:1.一种模型训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述模型挑选规则包括损失值规则,所述根据获取到的模型挑选规则,从所述训练后的模型中进行模型挑选,得到各模型挑选规则对应的目标模型的步骤,包括:
3.根据权利要求1所述的方法,其特征在于,所述模型挑选规则包括唤醒率规则,所述根据获取到的模型挑选规则,从所述训练后的模型中进行模型挑选,得到各模型挑选规则对应的目标模型的步骤,包括:
4.根据权利要求1所述的方法,其特征在于,所述模型挑选规则包括误唤醒率规则,所述根据获取到的模型挑选规则,从所述训练后的模型中进行模型挑选,得到各模型挑选规则对应的目标模型的步骤,包括:
5.根据权利要求3或4所述的方法,其特征在于,所述音素信息包括所述声音信号的声学分数和语言分数,所述识别所述音素信息,得到识别结果的步骤,包括:
6.根据权利要求1所述的方法,其特征在于,在所述将获取到的训练集中声音信号的声学特征分别输入多个待训练初始模型中进行模型训练,得到训练后的模型的步骤之前,所述方法还包括:
7.一种语音唤醒方法,其特征在于,所述方法包括:
8.根据权利要求7所述的方法,其特征在于,在所述识别所述音素信息,得到识别结果的步骤之后,所述方法还包括:
9.一种电子设备,其特征在于,包括存储器和处理器,所述处理器用于执行所述存储器中存储的程序指令,以实现权利要求1至6任一项所述的模型训练方法和/或权利要求7至8任一项所述的语音唤醒方法。
10.一种计算机可读存储介质,其上存储有程序指令,其特征在于,所述程序指令被处理器执行时实现权利要求1至6任一项所述的模型训练方法和/或权利要求7至8任一项所述的语音唤醒方法。
技术总结本申请公开了一种模型训练方法、语音唤醒方法、设备以及存储介质,该模型训练方法包括:将获取到的训练集中声音信号的声学特征分别输入多个待训练初始模型中进行模型训练,得到训练后的模型;根据获取到的模型挑选规则,从训练后的模型中进行模型挑选,得到各模型挑选规则对应的目标模型;根据获取到的模型融合规则,对各目标模型进行模型融合处理,得到语音唤醒模型。上述方案,能够提升语音唤醒的准确率。技术研发人员:吴人杰,黄惠祥,李若愚,方瑞东,史巍,林聚财,殷俊受保护的技术使用者:浙江大华技术股份有限公司技术研发日:技术公布日:2024/4/29本文地址:https://www.jishuxx.com/zhuanli/20240618/23628.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表