技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音实时翻译处理方法、装置、设备及存储介质与流程 > 正文

语音实时翻译处理方法、装置、设备及存储介质与流程

国知局
2024-06-21 11:44:10

本申请涉及实时语音翻译，尤其涉及一种语音实时翻译处理方法、装置、电子设备及存储介质。

背景技术：

1、随着技术的不断发展，语音翻译(speech translation，st)和自动语音识别(automatic speech recognition，asr)在语音处理领域中有广泛的应用场景。其中，语音翻译的应用场景包括：实时对话翻译、多语种交流以及语音翻译设备等，自动语音识别的应用场景包括：语音转文字、语音助手和智能音箱以及语音转写和字幕等。

2、在实现语音翻译或自动语音识别时，语音翻译系统通常采用串行处理方式，即先进行自动语音识别，然后将自动语音识别的结果传递给机器翻译(machine translation，mt)模块进行翻译。但是，这种串行处理方式可能会因为语音识别阶段的错误传播到机器翻译阶段，导致翻译结果的不准确。

技术实现思路

1、本申请实施例的目的是提供一种语音实时翻译处理方法、装置、电子设备及存储介质，以解决相关技术中对语音进行实时识别和翻译不准确的技术问题。

2、第一方面，本申请实施例提供了一种语音实时翻译处理方法，包括：

3、在接收到调用方发送的起始语音包的情况下，基于所述起始语音包接收所述调用方发送的语音包，得到第一语音；

4、根据所述第一语音获取所述调用方发送的第二语音，其中，所述第二语音至少包括所述第一语音；

5、基于多线程并行对所述第二语音分别进行语音识别处理和翻译处理，得到所述第二语音对应的识别结果和翻译结果。

6、第二方面，本申请实施例提供了一种语音实时翻译处理装置，包括：

7、语音接收模块，用于在接收到调用方发送的起始语音包的情况下，基于所述起始语音包接收所述调用方发送的语音包，得到第一语音；

8、语音确定模块，用于根据所述第一语音获取所述调用方发送的第二语音，其中，所述第二语音至少包括所述第一语音；

9、语音处理模块，用于基于多线程并行对所述第二语音分别进行语音识别处理和翻译处理，得到所述第二语音对应的识别结果和翻译结果。

10、第三方面，本申请实施例提供了一种电子设备，电子设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述的语音实时翻译处理方法中的步骤。

11、第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的语音实时翻译处理方法中的步骤。

12、本申请实施例提供了一种语音实时翻译处理方法、装置、电子设备及存储介质，在接收到调用方发送的起始语音包的情况下，将基于起始语音包和实时接收到的语音包累计得到当前进行处理的第一语音，然后根据第一语音获取调用方发送的左右语音包累计得到的第二语音，进而对第二语音进行并行的语音识别处理和翻译处理，得到第二语音对应的识别结果和翻译结果。实现了在语音实时翻译处理过程中，实时独立生成和展示部分识别和翻译结果，提高了上屏效果和避免级联处理中识别结果对翻译结果的影响，同时，采用增量推理的方式，基于所有语音数据进行翻译处理，利用语音中上下文之间的关系，提高了翻译的准确性。

技术特征：

1.一种语音实时翻译处理方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述在接收到调用方发送的起始语音包的情况下，基于所述起始语音包接收所述调用方发送的语音包，得到第一语音，包括：

3.如权利要求2所述的方法，其特征在于，所述根据所述起始语音包和所述预设数量进行语音包获取，得到第一语音，包括：

4.如权利要求1所述的方法，其特征在于，所述根据所述第一语音获取所述调用方发送的第二语音，包括：

5.如权利要求4所述的方法，其特征在于，所述根据所述其实语音包，获取与所述第一语音关联的已处理语音，包括：

6.如权利要求1所述的方法，其特征在于，所述在接收到调用方发送的起始语音包的情况下，基于所述起始语音包接收所述调用方发送的语音包，得到第一语音之后，还包括：

7.如权利要求1所述的方法，其特征在于，所述对所述第二语音分别进行语音识别处理和翻译处理，得到所述第二语音对应的识别结果和翻译结果之后，还包括：

8.一种语音实时翻译处理装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法中的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法中的步骤。

技术总结本申请公开了一种语音实时翻译处理方法、装置、电子设备及存储介质，该方法包括：在接收到调用方发送的起始语音包的情况下，基于起始语音包接收调用方发送的语音包，得到第一语音；根据第一语音获取调用方发送的第二语音，其中，第二语音至少包括第一语音；基于多线程并行对第二语音分别进行语音识别处理和翻译处理，得到第二语音对应的识别结果和翻译结果。实现了在语音实时翻译处理过程中，实时独立生成和展示部分识别和翻译结果，提高了上屏效果和避免级联处理中识别结果对翻译结果的影响，同时，采用增量推理的方式，基于所有语音数据进行翻译处理，利用语音中上下文之间的关系，提高了翻译的准确性。技术研发人员：于明刚受保护的技术使用者：OPPO广东移动通信有限公司技术研发日：技术公布日：2024/4/17