技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别方法及相关装置、设备和存储介质与流程  >  正文

语音识别方法及相关装置、设备和存储介质与流程

  • 国知局
  • 2024-06-21 11:46:37

本申请涉及语音处理,特别是涉及一种语音识别方法及相关装置、设备和存储介质。

背景技术:

1、随着语音识别技术的不断发展,能够将语音转换为文本,以提高语音应用的便利性。

2、现有技术中,通常基于训练后的语音识别模型实现目标语音的识别。但是,在训练过程中,语音识别模型容易诸如含噪声、异常值的样本数据干扰,或被经过细微修改、肉眼难以区分的对抗样本误导,从而削弱语音识别模型的准确性和鲁棒性。有鉴于此,如何提升语音识别的准确性和鲁棒性,成为亟待解决的问题。

技术实现思路

1、本申请主要解决的技术问题是提供一种语音识别方法及相关装置、设备和存储介质,能够提升语音识别的准确性和鲁棒性。

2、为了解决上述技术问题,本申请第一方面提供了一种语音识别方法,包括:获取待识别语音;基于语音识别模型对所述待识别语音进行识别,得到所述待识别语音的识别文本;其中,所述语音识别模型基于样本语音与语音合成模型联合训练得到,所述样本语音的标注信息至少包括样本真实文本,所述语音合成模型基于所述标注信息和所述语音识别模型中经遮蔽后的第一隐层特征合成得到合成语音。

3、为了解决上述技术问题,本申请第二方面提供了一种语音识别装置,包括:获取模块和识别模块,获取模块用于获取待识别语音;识别模块用于基于语音识别模型对待识别语音进行识别,得到待识别语音的识别文本;其中,语音识别模型基于样本语音与语音合成模型联合训练得到,样本语音的标注信息至少包括样本真实文本,语音合成模型基于标注信息和语音识别模型中经遮蔽后的第一隐层特征合成得到合成语音。

4、为了解决上述技术问题,本申请第三方面提供了一种电子设备,包括相互耦接的存储器和处理器,存储器中存储有程序指令,处理器用于执行程序指令以实现上述第一方面中的语音识别方法。

5、为了解决上述技术问题,本申请第四方面提供了一种计算机可读存储介质,存储有能够被处理器运行的程序指令,程序指令用于实现上述第一方面所述的语音识别方法。

6、上述方案,基于语音识别模型对待识别语音进行识别,以得到待识别语音的识别文本,由于语音识别模型是基于样本语音与语音合成模型联合训练得到的,样本语音的标注信息至少包括样本真实文本,且语音合成模型基于标注信息和语音识别模型中经遮蔽后的第一隐层特征合成得到合成语音,一方面,由于语音合成模型受语音识别模型中经遮蔽后的第一隐层特征驱动而合成语音,能够迫使语音合成模型的语音合成任务激励语音识别模型在识别过程中尽可能地在语音全局维度上关注语音特征,降低诸如噪声、异常值、细微修改等细节特征对语音识别模型的影响力,以提高语音识别模型的抗噪能力,另一方面,通过语音识别任务本身,以使得语音识别模型尽可能的学习到语音与识别文本之间的映射关系。故此,能提升语音识别的准确性和鲁棒性。

技术特征:

1.一种语音识别方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述语音识别模型与语音合成模型联合训练的步骤包括:

3.根据权利要求1或2所述的方法,其特征在于,所述语音识别模型包括目标编码器和目标解码器,在所述联合训练过程中所述目标编码器还与参考编码器共同训练,所述参考编码器用于编码所述合成语音,所述参考编码器与所述目标编码器结构相同,所述参考编码器在所述联合训练之后基于所述目标编码器更新得到的网络参数进行参数调整。

4.根据权利要求3所述的方法,其特征在于,所述语音识别模型与语音合成模型联合训练的步骤还包括:

5.根据权利要求3所述的方法,其特征在于,所述方法还包括:

6.根据权利要求5所述的方法,其特征在于,所述基于所述第一参数和所述第二参数,更新得到所述参考编码器在当前轮次所述联合训练之后的网络参数,包括:

7.根据权利要求1所述的方法,其特征在于,所述标注信息还包括所述样本真实文本中样本字符在所述样本语音中的持续时长和所述样本语音的说话人信息。

8.一种语音识别装置,其特征在于,包括:

9.一种电子设备,其特征在于,至少包括相互耦接的存储器和处理器,所述存储器中存储有程序指令,所述处理器用于执行所述程序指令以实现权利要求1至7任一项所述的语音识别方法。

10.一种计算机可读存储介质,其特征在于,存储有能够被处理器运行的程序指令,所述程序指令用于实现权利要求1至7任一项所述的语音识别方法。

技术总结本申请公开了一种语音识别方法及相关装置、设备和存储介质,其中,语音识别方法包括:获取待识别语音;基于语音识别模型对所述待识别语音进行识别,得到所述待识别语音的识别文本;其中,所述语音识别模型基于样本语音与语音合成模型联合训练得到,所述样本语音的标注信息至少包括样本真实文本,所述语音合成模型基于所述标注信息和所述语音识别模型中经遮蔽后的第一隐层特征合成得到合成语音。上述方案,能够提升语音识别的准确性和鲁棒性。技术研发人员:吴子维,刘丹,刘聪,胡国平受保护的技术使用者:科大讯飞股份有限公司技术研发日:技术公布日:2024/4/24

本文地址:https://www.jishuxx.com/zhuanli/20240618/23504.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。