技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别模型训练方法、语音识别方法及装置与流程  >  正文

语音识别模型训练方法、语音识别方法及装置与流程

  • 国知局
  • 2024-06-21 11:45:05

本申请实施例涉及人工智能,尤其涉及一种语音识别模型训练方法、语音识别方法及装置。

背景技术:

1、自动语音识别(automatic speech recognition,asr),即就是将麦克风采集的音频转换为文字的过程。在asr任务中,端到端的语音识别是当前研究热点。其中的连续语音识别,是指语音连续不断地输入语音识别系统进行识别,输出识别的文本。

2、相关技术中,在进行连续语音识别时,将连续语音输入语音识别系统,语音识别系统根据语音的音量和停顿时间来识别语音中需要断句的位置,例如检测到较长的静音自动断句。

3、但是,每个用户的语速和说话习惯不同,可能在一句话中有较长的停顿,若按照音量和停顿时间来识别断句位置容易造成误判,容易将原本的一句话切分为两句话,造成语义不连贯,语音识别准确率不高。

技术实现思路

1、本申请提供一种语音识别模型训练方法、语音识别方法及装置,可基于识别出的文本的语义确定出准确的断句位置,避免误判造成语义不连贯,提高连续语音识别的准确率。

2、第一方面,本申请提供一种语音识别模型训练方法,包括:

3、在任一次迭代过程中,获取训练样本集,所述训练样本集包括多个训练样本,每个训练样本包括样本语音信号、所述样本语音信号对应的文本和所述文本的标签,所述标签用于指示所述文本是否是一个完整语句;

4、针对所述训练样本集中的每一训练样本,以所述训练样本中的样本语音信号的声学特征为语音识别模型的输入,输出所述样本语音信号的语音识别文本和预测标签;

5、根据每次迭代过程所得到的所述样本语音信号的语音识别文本和预测标签,以及所述样本语音信号对应的文本和所述文本的标签,对所述语音识别模型的参数进行调整,直到满足停止训练条件;

6、将满足所述停止训练条件的迭代过程所确定的语音识别模型确定为已训练的语音识别模型。

7、第二方面,本申请提供一种语音识别方法,包括:

8、获取待识别连续语音信号;

9、将所述待识别连续语音信号的第一语音片段输入语音识别模型,得到所述第一语音片段的第一识别文本和所述第一识别文本的标签,所述标签用于指示所述识别文本是否是一个完整语句,所述语音识别模型根据第一方面所述的方法训练得到;

10、若确定所述第一识别文本的标签指示所述第一识别文本不是完整语句,则将第二语音片段与所述第一语音片段拼接后的目标语音片段重新输入所述语音识别模型,得到所述目标语音片段的目标识别文本和所述目标识别文本的标签,所述第二语音片段为所述第一语音片段的下一个语音片段;

11、若确定所述目标识别文本的标签指示所述目标识别文本是完整语句,将所述目标识别文本输出。

12、第三方面,本申请提供一种语音识别模型训练装置,包括:

13、获取模块,用于在任一次迭代过程中,获取训练样本集,所述训练样本集包括多个训练样本,每个训练样本包括样本语音信号、所述样本语音信号对应的文本和所述文本的标签,所述标签用于指示所述文本是否是一个完整语句;

14、模型训练模块,用于:针对所述训练样本集中的每一训练样本,以所述训练样本中的样本语音信号的声学特征为语音识别模型的输入,输出所述样本语音信号的语音识别文本和预测标签;

15、根据每次迭代过程所得到的所述样本语音信号的语音识别文本和预测标签,以及所述样本语音信号对应的文本和所述文本的标签,对所述语音识别模型的参数进行调整,直到满足停止训练条件;

16、将满足所述停止训练条件的迭代过程所确定的语音识别模型确定为已训练的语音识别模型。

17、第四方面,本申请提供一种语音识别装置,包括:

18、获取模块,用于获取待识别连续语音信号;

19、处理模块,用于将所述待识别连续语音信号的第一语音片段输入语音识别模型,得到所述第一语音片段的第一识别文本和所述第一识别文本的标签,所述标签用于指示所述识别文本是否是一个完整语句,所述语音识别模型根据第一方面所述的方法训练得到;

20、所述处理模块还用于:若确定所述第一识别文本的标签指示所述第一识别文本不是完整语句,则将第二语音片段与所述第一语音片段拼接后的目标语音片段重新输入所述语音识别模型,得到所述目标语音片段的目标识别文本和所述目标识别文本的标签,所述第二语音片段为所述第一语音片段的下一个语音片段;

21、若确定所述目标识别文本的标签指示所述目标识别文本是完整语句,将所述目标识别文本输出。

22、第五方面,本申请提供一种计算机设备,包括:处理器和存储器,该存储器用于存储计算机程序,该处理器用于调用并运行该存储器中存储的计算机程序,以执行第一方面或第二方面的方法。

23、第六方面,本申请提供一种计算机可读存储介质,用于存储计算机程序,该计算机程序使得计算机执行第一方面或第二方面的方法。

24、第七方面,本申请提供一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现第一方面或第二方面所述方法的步骤。

25、综上,本申请实施例提供的语音识别模型训练方法,通过根据训练样本集训练语音识别模型,每个训练样本包括样本语音信号、样本语音信号对应的文本和该文本的真实标签,该标签用于指示样本语音信号对应的文本是否是一个完整语句,在训练时以训练样本中的样本语音信号的声学特征为语音识别模型的输入,输出样本语音信号的语音识别文本和该语音识别文本的预测标签,然后根据样本语音信号的语音识别文本和预测标签,以及样本语音信号对应的文本和该文本的真实标签,对语音识别模型的参数进行调整,直到满足停止训练条件,得到已训练的语音识别模型。从而,训练得到的语音识别模型可以学习到一个语音信号对应的文本是否是完整语句,在进行连续语音识别时可基于识别出的文本的语义确定出准确的断句位置,并自动断句,避免误判造成语义不连贯,提高连续语音识别的准确率。

技术特征:

1.一种语音识别模型训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述语音识别模型包括编码器和解码器,所述以所述训练样本中的样本语音信号的声学特征为语音识别模型的输入,输出所述样本语音信号的语音识别文本和预测标签,包括:

3.根据权利要求2所述的方法,其特征在于,所述以所述样本语音信号的隐层表征为所述解码器的输入,输出所述样本语音信号的语音识别文本和所述预测标签,包括:

4.根据权利要求1所述的方法,其特征在于,所述根据每次迭代过程所得到的所述样本语音信号的语音识别文本和预测标签,以及所述样本语音信号对应的文本和所述文本的标签,对所述语音识别模型的参数进行调整,包括:

5.根据权利要求1所述的方法,其特征在于,所述获取训练样本集,包括:

6.根据权利要求5所述的方法,其特征在于,所述获取所述语音数据的子训练样本集,包括:

7.一种语音识别方法,其特征在于,包括:

8.根据权利要求7所述的方法,其特征在于,所述方法还包括:

9.根据权利要求7所述的方法,其特征在于,所述将所述目标识别文本输出之后,所述方法还包括:

10.根据权利要求7所述的方法,其特征在于,所述语音识别模型包括编码器和解码器,所述将所述待识别连续语音信号的第一语音片段输入语音识别模型,得到所述第一语音片段的第一识别文本和所述第一识别文本的标签,包括:

11.一种语音识别模型训练装置,其特征在于,包括:

12.一种语音识别装置,其特征在于,包括:

13.一种计算机设备,其特征在于,包括:

14.一种计算机可读存储介质,其特征在于,用于存储计算机程序,所述计算机程序使得计算机执行如权利要求1至6或7-10中任一项所述的方法。

15.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6或7-10中任一项所述方法的步骤。

技术总结本申请提供一种语音识别模型训练方法、语音识别方法及装置,涉及语音处理技术领域,该方法包括:在任一次迭代过程中,获取训练样本集,训练样本集包括多个训练样本,每个训练样本包括样本语音信号、样本语音信号对应的文本和文本的标签,标签用于指示文本是否是一个完整语句,针对训练样本集中的每一训练样本,以训练样本中的样本语音信号的声学特征为语音识别模型的输入,输出样本语音信号的语音识别文本和预测标签,根据每次迭代过程所得到的样本语音信号的语音识别文本和预测标签,以及样本语音信号对应的文本和文本的标签,对语音识别模型的参数进行调整,直到满足停止训练条件,得到已训练的语音识别模型。可提高连续语音识别的准确率。技术研发人员:汤志远,黄申,商世东受保护的技术使用者:腾讯科技(深圳)有限公司技术研发日:技术公布日:2024/4/22

本文地址:https://www.jishuxx.com/zhuanli/20240618/23358.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。