技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音翻译方法及相关装置、设备和存储介质与流程 > 正文

语音翻译方法及相关装置、设备和存储介质与流程

国知局
2024-06-21 10:41:06

本申请涉及音频处理，特别是涉及一种语音翻译方法及相关装置、设备和存储介质。

背景技术：

1、语音翻译(speech translation，st)旨在将源语种的语音转换为目标语种的文本。语音翻译应用于生活、工作的方方面面，如出境旅游、国际会议、商务招待等等。

2、目前，现有的大多数语音翻译策略均需要对每种源语种到目标语种的映射进行单独建模。这些方式不仅需要耗费大量资源，也增加用户使用时的复杂度。此外，针对一些语料不足的语种，通过单独建模训练的语音翻译系统还可能存在翻译精度不足的情况。有鉴于此，如何尽可能地降低多语种语音翻译的消耗资源和使用复杂度，并提升翻译精度，成为亟待解决的问题。

技术实现思路

1、本申请主要解决的技术问题是提供一种语音翻译方法及相关装置、设备和存储介质，能够尽可能地降低多语种语音翻译的消耗资源和使用复杂度，并提升翻译精度。

2、为了解决上述技术问题，本申请第一方面提供了一种语音翻译方法，包括：提取待翻译语音的语音特征，并提取提示文本的文本特征；其中，提示文本用于指示从待翻译语音的源语种翻译为目标语种；获取语音特征经特征维度映射后的映射特征，并将文本特征和映射特征输入至大模型，以及获取大模型处理过程中的第一输出特征；其中，映射特征与第一输出特征具有相同特征维度；获取基于第一输出特征与映射特征融合的第一融合特征；获取大模型继续处理第一融合特征输出的目标文本；其中，目标文本为待翻译语音翻译为目标语种的翻译文本。

3、为了解决上述技术问题，本申请第二方面提供了一种语音翻译装置，包括：特征提取模块、特征映射模块、第一处理模块、特征融合模块和第二处理模块，特征提取模块，用于提取待翻译语音的语音特征，并提取提示文本的文本特征；其中，提示文本用于指示从待翻译语音的源语种翻译为目标语种；特征映射模块，用于获取语音特征经特征维度映射后的映射特征；第一处理模块，用于将文本特征和映射特征输入至大模型，以及获取大模型处理过程中的第一输出特征；其中，映射特征与第一输出特征具有相同特征维度；特征融合模块，用于获取基于第一输出特征与映射特征融合的第一融合特征；第二处理模块，用于获取大模型继续处理第一融合特征输出的目标文本；其中，目标文本为待翻译语音翻译为目标语种的翻译文本。

4、为了解决上述技术问题，本申请第三方面提供了一种电子设备，包括相互耦接的存储器和处理器，存储器中存储有程序指令，处理器用于执行程序指令以实现上述第一方面中的语音翻译方法。

5、为了解决上述技术问题，本申请第四方面提供了一种计算机可读存储介质，存储有能够被处理器运行的程序指令，程序指令用于实现上述第一方面的语音翻译方法。

6、上述方案，提取待翻译语音的语音特征，并提取提示文本的文本特征，且提示文本用于指示从待翻译语音的源语种翻译为目标语种，再获取语音特征经特征维度映射后的映射特征，并将文本特征和映射特征输入至大模型，以及获取大模型处理过程中的第一输出特征，且映射特征与第一输出特征具有相同特征维度，从而获取基于第一输出特征与映射特征融合的第一融合特征，进而获取大模型继续处理第一融合特征输出的目标文本，且目标文本为待翻译语音翻译为目标语种的翻译文本，一方面通过充分利用大模型本身对多语种的通用翻译能力，并通过特征映射将语音特征与大模型输入对齐，且通过在大模型中增加第一输出特征与映射特征的融合操作，使得大模型能够充分利用语义知识来生成目标语种的目标文本，而无需单独建模，从而能够尽可能地降低多语种语音翻译的消耗资源和翻译精度，另一方面对于用户而言，而仅需输入待翻译语音和用于显示指示从源语种翻译为目标语种的提示文本即可，能够有效降低使用复杂度。故此，能够尽可能地降低多语种语音翻译的消耗资源和使用复杂度，并提升翻译精度。

技术特征：

1.一种语音翻译方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取基于所述第一输出特征与所述映射特征融合的第一融合特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于注意力机制处理所述输出特征和所述映射特征，得到与所述输出特征具有相同特征维度的第二输出特征，包括：

4.根据权利要求1所述的方法，其特征在于，在所述获取基于所述第一输出特征与所述映射特征融合的第一融合特征之后，以及在所述获取所述大模型继续处理所述第一融合特征输出的目标文本之前，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述提取待翻译语音的语音特征，包括：

6.根据权利要求1至5任一项所述的方法，其特征在于，所述待翻译语音的翻译文本由语音翻译模型对所述待翻译语音和所述提示文本进行处理得到，所述语音翻译模型包括所述大模型、编码网络、映射网络和融合网络，且所述语音翻译模型在训练过程中，固定所述大模型的网络参数。

7.根据权利要求6所述的方法，其特征在于，所述编码网络与所述映射网络顺序连接，所述融合网络设于所述大模型的网络层之间，且所述映射网络还分别输出至首个所述网络层和所述融合网络。

8.一种语音翻译装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述存储器中存储有程序指令，所述处理器用于执行所述程序指令以实现权利要求1至7任一项所述的语音翻译方法。

10.一种计算机可读存储介质，其特征在于，存储有能够被处理器运行的程序指令，所述程序指令用于实现权利要求1至7任一项所述的语音翻译方法。

技术总结本申请公开了一种语音翻译方法及相关装置、设备和存储介质，其中，语音翻译方法包括：提取待翻译语音的语音特征，并提取提示文本的文本特征；其中，提示文本用于指示从待翻译语音的源语种翻译为目标语种；获取语音特征经特征维度映射后的映射特征，并将文本特征和映射特征输入至大模型，以及获取大模型处理过程中的第一输出特征；其中，映射特征与第一输出特征具有相同特征维度；获取基于第一输出特征与映射特征融合的第一融合特征；获取大模型继续处理第一融合特征输出的目标文本；其中，目标文本为待翻译语音翻译为目标语种的翻译文本。上述方案，能够尽可能地降低多语种语音翻译的消耗资源和使用复杂度，并提升翻译精度。技术研发人员：张为泰,章瀚逸,刘俊华受保护的技术使用者：科大讯飞（上海）科技有限公司技术研发日：技术公布日：2024/1/25