技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别模型训练方法、语音识别方法及装置与流程  >  正文

语音识别模型训练方法、语音识别方法及装置与流程

  • 国知局
  • 2024-06-21 10:44:26

本技术实施例涉及语音处理,特别涉及一种语音识别模型训练方法、语音识别方法及装置。

背景技术:

1、在客服质检场景中,需要对坐席话术进行合规监管,而监管过程主要是对坐席录音进行监管,需要从坐席通话录音中找出目标用词(例如,坐席说的不专业用语以及恶劣态度用语等),从而抓出不合符要求或规定的坐席。常用的坐席质检系统是将坐席通话录音经过语音识别系统转换为文字,然后对文字进行语义分析及质检规则匹配,并辅助人工审核实现客服质检。但是直接将全部坐席通话录音转化为文字进行语义分析,存在目标用词的识别准确率低的问题。

技术实现思路

1、本技术提供一种语音识别模型训练方法、语音识别方法及装置,有利于提高语音识别过程中对敏感词进行识别的准确率。

2、第一方面,本技术提供了一种语音识别模型训练方法,所述方法可以包括:

3、获取标注有敏感词的样本语音数据,所述样本语音数据包括第一样本语音数据和第二样本语音数据,所述第一样本语音数据为从坐席历史语音数据中筛选出来的包括敏感词的语音数据,所述第二样本语音数据为根据预设的敏感词词库合成的语音数据;

4、将所述样本语音数据输入教师模型,根据所述样本语音数据对应的敏感词对所述教师模型进行训练,在训练过程中得到所述教师模型包含的至少一层第一编码网络层对所述样本语音数据编码获得的第一敏感词编码特征,所述第一敏感词编码特征包括所述样本语音数据中的敏感词;并在训练过程中得到所述教师模型的第一语音识别结果,所述第一语音识别结果包括所述样本语音数据对应的第一文本以及所述第一文本中的敏感词;

5、将所述样本语音数据输入学生模型,根据所述样本语音数据对应的敏感词对所述学生模型进行训练,在训练过程中得到所述学生模型包含的至少一层第二编码网络层对所述样本语音数据编码获得的第二敏感词编码特征;所述第二敏感词编码特征包括所述样本语音数据中的敏感词;并在训练过程中得到所述学生模型的第二语音识别结果,所述第二语音识别结果包括所述样本语音数据对应的第二文本以及所述第二文本中的敏感词;

6、根据所述第一敏感词编码特征、所述第二敏感词编码特征、所述第一语音识别结果以及所述第二语音识别结果计算目标损失,并根据所述目标损失优化训练后的学生模型,得到语音识别模型。

7、第二方面,本技术提供了一种语音识别方法,可以包括:

8、通过训练好的语音识别模型计算待处理的音频的中每个词语为敏感词的第一概率,得到包含所述第一概率大于或等于第一预设概率阈值的敏感词的第一文本数据;所述训练好的语音识别模型根据所述的语音识别模型训练方法训练得到。

9、通过训练好的语言模型计算所述第一文本数据中每个敏感词与该敏感词后面的字词组合时,该敏感词后面的字词出现的第二概率,并得到包含所述敏感词以及所述第二概率大于或等于第二预设概率阈值的字词在内的第二文本数据;所述第二文本数据的文本通顺度高于所述第一文本数据的文本通顺度;

10、通过训练好的文本纠错模型检测所述第二文本数据中识别错误的敏感词,并对所述第二文本数据中识别错误的敏感词进行纠错,获得语音识别结果。

11、第三方面,本技术提供了一种语音识别模型训练装置,包括:

12、获取模块,用于获取标注有敏感词的样本语音数据,所述样本语音数据包括第一样本语音数据和第二样本语音数据,所述第一样本语音数据为从坐席历史语音数据中筛选出来的包括敏感词的语音数据,所述第二样本语音数据为根据预设的敏感词词库合成的语音数据;

13、第一训练模块,用于将所述样本语音数据输入教师模型,根据所述样本语音数据对应的敏感词对所述教师模型进行训练,在训练过程中得到所述教师模型包含的至少一层第一编码网络层对所述样本语音数据编码获得的第一敏感词编码特征,所述第一敏感词编码特征包括所述样本语音数据中的敏感词;并在训练过程中得到所述教师模型的第一语音识别结果,所述第一语音识别结果包括所述样本语音数据对应的第一文本以及所述第一文本中的敏感词;

14、第二训练模块,用于将所述样本语音数据输入学生模型,根据所述样本语音数据对应的敏感词对所述学生模型进行训练,在训练过程中得到所述学生模型包含的至少一层第二编码网络层对所述样本语音数据编码获得的第二敏感词编码特征;所述第二敏感词编码特征包括所述样本语音数据中的敏感词;并在训练过程中得到所述学生模型的第二语音识别结果,所述第二语音识别结果包括所述样本语音数据对应的第二文本以及所述第二文本中的敏感词;

15、第一计算模块,用于根据所述第一敏感词编码特征、所述第二敏感词编码特征、所述第一语音识别结果以及所述第二语音识别结果计算目标损失,并根据所述目标损失优化训练后的学生模型,得到语音识别模型。

16、第四方面,本技术提供了一种语音识别装置,包括:

17、第二计算模块,用于通过训练好的语音识别模型计算待处理的音频的中每个词语为敏感词的第一概率,得到包含所述第一概率大于或等于第一预设概率阈值的敏感词的第一文本数据;所述训练好的语音识别模型根据所述的语音识别模型训练方法训练得到。

18、第三计算模块,同于通过训练好的语言模型计算所述第一文本数据中每个敏感词与该敏感词后面的字词组合时,该敏感词后面的字词出现的第二概率,并得到包含所述敏感词以及所述第二概率大于或等于第二预设概率阈值的字词在内的第二文本数据;所述第二文本数据的文本通顺度高于所述第一文本数据的文本通顺度;

19、纠错模块,用于通过训练好的文本纠错模型检测所述第二文本数据中识别错误的敏感词,并对所述第二文本数据中识别错误的敏感词进行纠错,获得语音识别结果。

20、第五方面,本技术提供了一种电子设备,可以包括:

21、至少一个处理器;以及

22、与所述至少一个处理器通信连接的存储器;其中,

23、所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序,一个或多个所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述第一方面所述的语音识别模型训练方法,和/或,上述第二方面所述的语音识别方法。

24、第六方面,本技术提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序在被处理器执行时实现上述第一方面所述的语音识别模型训练方法,和/或,上述第二方面所述的语音识别方法。

25、本技术所提供的实施例中用于训练语音识别模型的样本语音数据,不仅包括从坐席历史语音数据中筛选出来的包括敏感词的语音数据,还包括根据预设的敏感词词库合成的语音数据,通过坐席历史语音数据对语音识别模型进行训练,能使得训练后的语音识别模型能更准确的识别出坐席语音中的敏感词,且该坐席历史语音数据是根据其和客户历史语音数据情绪相似度筛选出来的具有代表性的、包括敏感词的语音数据,使得语音识别模型的训练能更为精准和高效,此外,针对有些敏感词不会出现或者高频出现在坐席历史语音数据的情况,通过由预设的敏感词词库合成的语音数据对语音识别模型进行训练,相当于增加了语音识别模型的训练样本,使得训练得到的语音识别模型能够识别出更多的敏感词,并且,本技术中的语音识别模型是通过目标损失优化学生模型得到的,由教师模型根据样本语音数据得到的第一敏感词编码特征、学生模型根据样本语音数据得到的第二敏感词编码特征、教师模型输出的第一语音识别结果、学生模型输出的第二语音识别结果参与目标损失的计算,使得通过目标损失优化学生模型的过程中教师模型能够向学生模型传递更多的信息,学生模型不仅能够学习到教师模型输出的第一语音识别结果,而且能够学习到教师模型输出的第一敏感词编码特征,实现了将教师模型对包含敏感词的语音的识别能力最大化地向学生模型迁移,提高了作为语音识别模型的学生模型对语音中敏感词的识别准确率。

26、应当理解,本部分所描述的内容并非旨在标识本技术的实施例的关键或重要特征,也不用于限制本技术的范围。本技术的其它特征将通过以下的说明书而变得容易理解。

本文地址:https://www.jishuxx.com/zhuanli/20240618/21468.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。