技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音处理方法及相关装置、设备和存储介质与流程  >  正文

语音处理方法及相关装置、设备和存储介质与流程

  • 国知局
  • 2024-06-21 11:52:51

本申请涉及语音处理,特别是涉及一种语音处理方法及相关装置、设备和存储介质。

背景技术:

1、在当前的跨语种实时语音交互场景中,通常要求同时显示语音识别结果和语音翻译结果,从而保证跨语种沟通的双方或者多方都能够对当前沟通的语音识别结果和语音翻译结果进行观察,进而确保信息的准确传递。

2、在系统设计上,传统实现方式需要具化使用场景。以中文和英文的交互场景为例,在交互过程中:一种方式需要跟随当前说话人在中文—>英文和英文—>中文之间不断手动切换,故操作不便;另一种方式需要先进行语音识别以获取语音识别结果,再对语音识别结果进行翻译,得到语音翻译结果,一方面语音翻译极其依赖于语音识别,若语音识别出错将进一步影响后续语音翻译,另一方面由于语音识别与语音翻译为串行任务,故可能难以保证实时性。有鉴于此,如何在免于手动切换的同时,提升语音识别与语音翻译的实时性和准确性。

技术实现思路

1、本申请主要解决的技术问题是提供一种语音处理方法及相关装置、设备和存储介质,能够在免于手动切换的同时,提升语音识别与语音翻译的实时性和准确性。

2、为了解决上述技术问题,本申请第一方面提供了一种语音处理方法,包括:获取交互场景下的待处理语音和多个预设语种;预测待处理语音所属的目标语种,并获取待处理语音分别属于各个预设语种的解码文本;选择所属语种与目标语种相同的解码文本,作为待处理语音的识别文本,并选择所属语种与目标语种不同的解码文本,分别作为待处理语音译为对应语种的翻译文本。

3、为了解决上述技术问题,本申请第二方面提供了一种语音处理装置,包括:获取模块、预测模块、解码模块和选择模块,获取模块,用于获取交互场景下的待处理语音和多个预设语种;预测模块,用于预测待处理语音所属的目标语种;解码模块,用于获取待处理语音分别属于各个预设语种的解码文本;选择模块,用于选择所属语种与目标语种相同的解码文本,作为待处理语音的识别文本,并选择所属语种与目标语种不同的解码文本,分别作为待处理语音译为对应语种的翻译文本。

4、为了解决上述技术问题,本申请第三方面提供了一种电子设备,包括相互耦接的存储器和处理器,存储器中存储有程序指令,处理器用于执行程序指令以实现上述第一方面中的语音处理方法。

5、为了解决上述技术问题,本申请第四方面提供了一种计算机可读存储介质,存储有能够被处理器运行的程序指令,程序指令用于实现上述第一方面的语音处理方法。

6、上述方案,获取交互场景下的待处理语音和多个预设语种,再预测待处理语音所属的目标语种,并获取待处理语音分别属于各个预设语种的解码文本,从而选择所属语种与目标语种相同的解码文本,作为待处理语音的识别文本,并选择所属语种与目标语种不同的解码文本,分别作为待处理语音译为对应语种的翻译文本,一方面在语音交互过程中能够根据预测得到的目标语种自动在分别属于各个预设语种的解码文本中选择其中一个作为识别文本并选择其他作为翻译文本,进而能够实现免于跟随当前说话人进行手动切换,另一方面在语音交互过程中通过获取待处理语音分别属于各个预设语种的解码文本,能够将语音识别视为一种特殊的语音翻译,进而无需先执行语音识别再执行语音翻译的两阶段串行任务,而仅需按照不同预设语种分别执行文本解码即可,进而能够尽可能地消除累积误差并减少处理负荷。故此,能够在免于手动切换的同时,提升语音识别与语音翻译的实时性和准确性。

技术特征:

1.一种语音处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,在所述预测所述待处理语音所属的目标语种之前,所述方法还包括:

3.根据权利要求2所述的方法,其特征在于,在所述基于所述第一编码特征进行编码,得到第二编码特征之前,所述方法还包括:

4.根据权利要求2所述的方法,其特征在于,所述基于所述第二编码特征分别按照各个所述预设语种进行解码,得到对应所述预设语种的解码文本,包括:

5.根据权利要求2所述的方法,其特征在于,在所述基于所述待处理语音的声学特征进行编码,得到第一编码特征之前,所述方法还包括:

6.根据权利要求1至5任一项所述的方法,其特征在于,所述解码文本由语音处理模型对所述待处理语音进行处理得到,所述语音处理模型基于非平行的样本文本和样本语音训练联合得到,在所述联合训练中所述语音处理模型执行:基于所述样本文本在文本任务上进行训练和基于所述样本语音在语音任务上进行训练,且所述语音任务至少包括语音翻译,所述样本语音附有分别对应于各个所述预设语种的第一标注文本,所述样本文本附有执行所述文本任务的第二标注文本。

7.根据权利要求6所述的方法,其特征在于,所述样本语音还标注有所属的样本目标语种,所述语音处理模型至少包括语音编码网络.共享编码网络和文本解码网络,且所述共享编码网络用于共享语音特征空间和文本特征空间,所述语音处理模型的训练步骤包括:

8.根据权利要求7所述的方法,其特征在于,在所述基于所述文本解码网络对所述第二样本编码特征执行所述语音翻译,得到各个所述预设语种的第一解码文本之前,所述方法还包括:

9.根据权利要求7所述的方法,其特征在于,在所述语音任务还包括语音识别的情况下,所述语音处理模型的训练步骤还包括:

10.一种语音处理装置,其特征在于,包括:

11.一种电子设备,其特征在于,至少包括相互耦接的存储器和处理器,所述存储器中存储有程序指令,所述处理器用于执行所述程序指令以实现权利要求1至9任一项所述的语音处理方法。

12.一种计算机可读存储介质,其特征在于,存储有能够被处理器运行的程序指令,所述程序指令用于实现权利要求1至9任一项所述的语音处理方法。

技术总结本申请公开了一种语音处理方法及相关装置、设备和存储介质,其中,语音处理方法包括:获取交互场景下的待处理语音和多个预设语种;预测待处理语音所属的目标语种,并获取待处理语音分别属于各个预设语种的解码文本;选择所属语种与目标语种相同的解码文本,作为待处理语音的识别文本,并选择所属语种与目标语种不同的解码文本,分别作为待处理语音译为对应语种的翻译文本。上述方案,能够在免于手动切换的同时,提升语音识别与语音翻译的实时性和准确性。技术研发人员:万根顺,熊世富,高建清,刘聪,刘庆峰受保护的技术使用者:科大讯飞股份有限公司技术研发日:技术公布日:2024/5/19

本文地址:https://www.jishuxx.com/zhuanli/20240618/24217.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。