技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音翻译模型的训练方法、语音翻译方法和装置与流程  >  正文

语音翻译模型的训练方法、语音翻译方法和装置与流程

  • 国知局
  • 2024-06-21 11:32:19

本公开涉及数据处理领域,尤其涉及自然语音处理和深度学习等人工智能领域。

背景技术:

1、实现中,端到端的语音翻译可以将源语言的语音信号翻译成目标语言的目标文本,然而,由于源语言的语音信号到目标语言的目标文本的训练数据较为稀缺,导致模型对于源语言的语音信号到目标语言的目标文本的学习难度较大,模型的训练效果欠佳。

2、相关技术中,可以通过对语音识别模型进行模型训练,或者对机器翻译模型进行训练,间接的实现源语言的语音信号到目标语言的目标文本的翻译,然而由于语音与文本之间存在的模态差距,使得该场景下实现的实现源语言的语音信号到目标语言的目标文本的翻译的准确率欠佳。

技术实现思路

1、本公开提出了一种语音翻译模型的训练方法、语音翻译方法和装置。

2、根据本公开的第一方面,提出了一种语音翻译模型的训练方法,方法包括:获取训练好的第一文本翻译模型以及语音识别模型,并基于所述第一文本翻译模型和所述语音识别模型构建待训练的候选语音翻译模型;获取第一样本源语言语音和/或第一样本源语言文本,以得到所述候选语音翻译模型的训练样本;基于所述训练样本对所述候选语音翻译模型进行训练,直至训练结束,得到训练好的目标语音翻译模型。

3、根据本公开的第二方面,提出了一种语音翻译方法,方法包括:获取训练好的目标语音翻译模型,其中,所述目标语音翻译模型根据上述第一方面提出的语音翻译模型的训练方法得到;获取待处理的源语言语音,并将所述源语言语音输入所述目标语音翻译模型,通过所述目标语音翻译模型提取所述源语言语音的语音特征;通过所述目标语音翻译模型,基于所述语音特征对所述源语言语音进行翻译,得到所述目标语音翻译模型输出的所述源语言语音的目标语言文本。

4、根据本公开的第三方面,提出了一种语音翻译模型的训练装置,装置包括:构建模块,用于获取训练好的第一文本翻译模型以及语音识别模型,并基于所述第一文本翻译模型和所述语音识别模型构建待训练的候选语音翻译模型;第一获取模块,用于获取第一样本源语言语音和/或第一样本源语言文本,以得到所述候选语音翻译模型的训练样本;训练模块,用于基于所述训练样本对所述候选语音翻译模型进行训练,直至训练结束,得到训练好的目标语音翻译模型。

5、根据本公开的第四方面,提出了一种语音翻译装置,装置包括:第二获取模块,用于获取训练好的目标语音翻译模型,其中,所述目标语音翻译模型根据上述第三方面提出的语音翻译模型的训练装置得到;输入模块,用于获取待处理的源语言语音,并将所述源语言语音输入所述目标语音翻译模型,通过所述目标语音翻译模型提取所述源语言语音的语音特征;翻译模块,用于通过所述目标语音翻译模型,基于所述语音特征对所述源语言语音进行翻译,得到所述目标语音翻译模型输出的所述源语言语音的目标语言文本。

6、根据本公开的第五方面,提出了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述第一方面提出的语音翻译模型的训练方法和/或第二方面提出的语音翻译方法。

7、根据本公开的第六方面,提出了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述第一方面提出的语音翻译模型的训练方法和/或第二方面提出的语音翻译方法。

8、根据本公开的第七方面,提出了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述第一方面提出的语音翻译模型的训练方法和/或第二方面提出的语音翻译方法。

9、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

技术特征:

1.一种语音翻译模型的训练方法,其中,所述方法包括:

2.根据权利要求1所述的方法,其中,所述获取训练好的第一文本翻译模型以及语音识别模型,并基于所述第一文本翻译模型和所述语音识别模型构建待训练的候选语音翻译模型,包括:

3.根据权利要求2所述的方法,其中,所述根据所述第二样本源语言文本对所述第二文本翻译模型进行训练,得到训练好的第三文本翻译模型,包括:

4.根据权利要求2所述的方法,其中,所述根据所述第三样本源语言文本对所述第三文本翻译模型进行模型训练,得到训练好的所述第一文本翻译模型,包括:

5.根据权利要求1所述的方法,其中,所述获取第一样本源语言文本和/或第一样本源语言语音,以得到所述候选语音翻译模型的训练样本,包括:

6.根据权利要求5所述的方法,其中,所述基于所述训练样本对所述候选语音翻译模型进行训练,直至训练结束,得到训练好的目标语音翻译模型,包括:

7.一种语音翻译方法,其中,所述方法包括:

8.一种语音翻译模型的训练装置,其中,所述装置包括:

9.根据权利要求8所述的装置,其中,所述构建模块,还用于:

10.根据权利要求9所述的装置,其中,所述构建模块,还用于:

11.根据权利要求9所述的装置,其中,所述构建模块,还用于:

12.根据权利要求8所述的装置,其中,所述第一获取模块,还用于:

13.根据权利要求12所述的装置,其中,所述训练模块,还用于:

14.一种语音翻译装置,其中,所述装置包括:

15.一种电子设备,包括:

16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-6和/或权利要求7中任一项所述的方法。

17.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-6和/或权利要求7中任一项所述的方法。

技术总结本公开提出了一种语音翻译模型的训练方法、语音翻译方法和装置,涉及自然语言处理和深度学习等人工智能领域,包括:获取训练好的第一文本翻译模型以及语音识别模型,并基于第一文本翻译模型和语音识别模型构建待训练的候选语音翻译模型;获取第一样本源语言语音和/或第一样本源语言文本,以得到候选语音翻译模型的训练样本;基于训练样本对候选语音翻译模型进行训练,直至训练结束,得到训练好的目标语音翻译模型。降低了候选语音翻译模型的构建难度以及模型的复杂程度,提高了语音翻译模型的可实现性,降低了语音翻译模型的训练难度,提高了语音翻译的效率和准确率,优化了语音翻译的方法。技术研发人员:高鹏至,张睿卿,何中军,吴华受保护的技术使用者:北京百度网讯科技有限公司技术研发日:技术公布日:2024/3/4

本文地址:https://www.jishuxx.com/zhuanli/20240618/22083.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。