技术新讯 > 乐器声学设备的制造及制作,分析技术 > 模型训练方法及装置、计算机可读存储介质、终端与流程  >  正文

模型训练方法及装置、计算机可读存储介质、终端与流程

  • 国知局
  • 2024-06-21 10:39:27

本发明涉及语音识别,具体地涉及一种模型训练方法及装置、计算机可读存储介质、终端。

背景技术:

1、随着智能音箱、语音助手等应用的出现,人机对话、人机交互在众多应用中变得越来越流行。关键词检测(也称,关键词识别、语音唤醒,keyword spotting,kws)是实现人机语音交互的重要技术,被广泛地应用于各类智能设备、语音检索系统当中,是激活自动语音识别(automatic speech recognition,asr)模块的触发器。

2、现阶段,kws技术常用方法主要分为传统的基于模板匹配的kws、基于高斯混合模型(gaussian mixture model,gmm)-隐马尔可夫模型(hidden markov model,hmm)的kws,以及基于神经网络的kws三种。其中,传统的基于模板匹配的方法准确率低,系统鲁棒性较差;基于gmm-hmm的识别框架包括声学模型、语言模型、字典,需要调优三部分模型来提高性能,比较费时费力,而且gmm是生成式模型,建模能力不足。因此,近年来,神经网络被广泛应用于关键词检测领域,尤其是端到端神经网络,只需要一个模型,模型输入为语音,输出为各关键词的概率,从输入到输出期间不需要再进行解码。

3、现有的端到端asr模型已经很成熟,识别率高,但是直接将其用于端到端kws模型有点“大材小用”。具体而言,现有端到端kws模型的实现方案为:基于asr模型直接知识蒸馏得到的模型用于端到端kws,其本质仍然是asr模型。换言之,该kws模型所用字典与原始asr模型一致,是所有汉字的组合,也就意味着建模单元多,需要对所有汉字进行建模,每个汉字的建模效果是一样的。这样的kws模型用于测试关键词想要达到理想的效果,模型复杂,参数量和计算量都很大,既把简单问题复杂化,浪费资源,又不方便进行本地集成。

技术实现思路

1、本发明解决的技术问题是如何在保留高识别率优势的前提下,基于高复杂度模型知识蒸馏得到低复杂度模型。

2、为解决上述技术问题,本发明实施例提供一种模型训练方法,包括:获取样本集,其中,所述样本集包括音频以及对应的硬标签集合;将所述音频输入预设教师模型得到第一预测矩阵,其中,所述预设教师模型用于预测输入的音频中每一帧为第一字典中每个标签的概率;将所述音频输入预设学生模型得到第二预测矩阵,其中,所述预设学生模型用于预测输入的音频中每一帧为第二字典中每个标签的概率,所述第二预测矩阵的阶数小于所述第一预测矩阵的阶数;根据所述第二字典对所述第一预测矩阵进行切片处理,得到处理后的第一预测矩阵,其中,所述处理后的第一预测矩阵的阶数等于所述第二预测矩阵的阶数;根据所述处理后的第一预测矩阵、所述第二预测矩阵以及所述硬标签集合计算损失函数;基于所述损失函数训练所述预设学生模型。

3、可选的,所述预设教师模型为语音识别模型,所述预设学生模型为关键词检测模型。

4、可选的,所述第一字典包括的标签的数量大于所述第二字典包括的标签的数量,所述第一字典包括所述第二字典中的标签。

5、可选的,所述根据所述第二字典对所述第一预测矩阵进行切片处理,得到处理后的第一预测矩阵包括:对于所述第二字典中的每一标签,从所述第一预测矩阵中提取所述标签关联的预测值;基于提取得到的预测值生成所述处理后的第一预测矩阵。

6、可选的,所述标签的类型包括空格、未知和汉字,所述基于提取得到的预测值生成所述处理后的第一预测矩阵包括:对于所述第二字典中类型为空格和汉字的标签,提取所述第一预测矩阵中所述标签关联的预测值并确定为所述标签在所述处理后的第一预测矩阵中的预测值;对于所述第二字典中类型为未知的标签,所述标签在所述处理后的第一预测矩阵中的预测值根据其他类型标签的预测值之和确定。

7、可选的,所述标签在所述处理后的第一预测矩阵中的预测值根据其他类型标签的预测值之和确定包括:对于所述音频的每一帧,所述处理后的第一预测矩阵中所述帧对应的未知类型标签的预测值,与所述帧对应的其他类型标签的预测值之和的加和等于一。

8、可选的,所述根据所述处理后的第一预测矩阵、所述第二预测矩阵以及所述硬标签集合计算损失函数包括:根据所述处理后的第一预测矩阵和所述第二预测矩阵计算得到软损失函数;根据所述第二预测矩阵和所述硬标签集合计算得到硬损失函数;基于所述软损失函数和所述硬损失函数计算得到所述损失函数。

9、可选的,所述根据所述处理后的第一预测矩阵和所述第二预测矩阵计算得到软损失函数包括:计算所述处理后的第一预测矩阵与所述第二预测矩阵的交叉熵损失值,得到所述软损失函数。

10、可选的,用于计算所述硬损失函数的所述第二预测矩阵的平滑程度,低于用于计算所述软损失函数的所述第二预测矩阵的平滑程度。

11、可选的,所述基于所述软损失函数和所述硬损失函数计算得到所述损失函数包括:对所述软损失函数和所述硬损失函数加权求和得到所述损失函数。

12、可选的,所述软损失函数关联的权重值和所述硬损失函数关联的权重值之和等于一。

13、为解决上述技术问题,本发明实施例还提供一种模型训练装置,包括:获取模块,用于获取样本集,其中,所述样本集包括音频以及对应的硬标签集合;第一预测模块,用于将所述音频输入预设教师模型得到第一预测矩阵,其中,所述预设教师模型用于预测输入的音频中每一帧为第一字典中每个标签的概率;第二预测模块,用于将所述音频输入预设学生模型得到第二预测矩阵,其中,所述预设学生模型用于预测输入的音频中每一帧为第二字典中每个标签的概率,所述第二预测矩阵的阶数小于所述第一预测矩阵的阶数;切片处理模块,用于根据所述第二字典对所述第一预测矩阵进行切片处理,得到处理后的第一预测矩阵,其中,所述处理后的第一预测矩阵的阶数等于所述第二预测矩阵的阶数;处理模块,用于根据所述处理后的第一预测矩阵、所述第二预测矩阵以及所述硬标签集合计算损失函数;训练模块,用于基于所述损失函数训练所述预设学生模型。

14、为解决上述技术问题,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质为非易失性存储介质或非瞬态存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时执行上述方法的步骤。

15、为解决上述技术问题,本发明实施例还提供一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行上述方法的步骤。

16、与现有技术相比,本发明实施例的技术方案具有以下有益效果:

17、本发明实施例提供一种模型训练方法,包括:获取样本集,其中,所述样本集包括音频以及对应的硬标签集合;将所述音频输入预设教师模型得到第一预测矩阵,其中,所述预设教师模型用于预测输入的音频中每一帧为第一字典中每个标签的概率;将所述音频输入预设学生模型得到第二预测矩阵,其中,所述预设学生模型用于预测输入的音频中每一帧为第二字典中每个标签的概率,所述第二预测矩阵的阶数小于所述第一预测矩阵的阶数;根据所述第二字典对所述第一预测矩阵进行切片处理,得到处理后的第一预测矩阵,其中,所述处理后的第一预测矩阵的阶数等于所述第二预测矩阵的阶数;根据所述处理后的第一预测矩阵、所述第二预测矩阵以及所述硬标签集合计算损失函数;基于所述损失函数训练所述预设学生模型。

18、相较于现有基于高复杂度模型只能知识蒸馏得到相同复杂度的模型,无法实现不同维度字典之间的移植,本公开方案通过将高复杂度模型的第一预测矩阵(即,预设教师模型的第一预测矩阵)切片降维至符合预设学生模型预测结果的阶数,使得处理后的第一预测矩阵能够用于辅助训练字典维度较少的低复杂度的预设学生模型。由此,基于识别率高、性能好但参数量大、模型复杂的预设教师模型,训练得到参数量小、模型简单并且保留高识别率优势的预设学生模型,训练得到的模型简单易集成,有利于最终实现算法落地。

19、进一步,利用传统知识蒸馏得到预设教师学习模型的第一预测矩阵后,对第一预测矩阵进行处理,根据第二字典重新组合第一预测矩阵用来辅助训练预设学生模型。最终得到的预设学生模型的第二字典中仅有关键词出现的字标签,其余均为未知(unknown,unk),解决了模型复杂、字典繁琐、参数量大的问题。

20、进一步,所述预设教师模型为语音识别模型,所述预设学生模型为关键词检测模型。采用本实施方案提供的基于性能优越的端到端asr模型知识蒸馏得到端到端kws模型的实现方案,能够解决利用asr模型辅助训练kws模型过程中字典维度不一致的问题,只利用asr模型对于kws模型关注的关键词(即第二字典包括的标签)的识别性能来辅助训练得到低复杂度端到端kws模型。进一步,利用识别性能好的asr模型来训练优化得到性能较优的kws模型,只关注关键词的建模效果,解决模型(例如,原有asr模型)复杂、参数量大不方便集成落地的问题。同时保留识别率高的优点,对于关键词的个数也没有限制。

本文地址:https://www.jishuxx.com/zhuanli/20240618/20993.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。