技术新讯 > 乐器声学设备的制造及制作,分析技术 > 翻译方法、装置、电子设备和存储介质与流程 > 正文

翻译方法、装置、电子设备和存储介质与流程

国知局
2024-06-21 10:39:40

本发明涉及语言处理，尤其涉及一种翻译方法、装置、电子设备和存储介质。

背景技术：

1、随着全球化的不断推进，跨国交流和合作日益频繁，同声传译作为一种实时、高效的翻译方式，在各种国际会议、商务洽谈、学术研讨等场合发挥着重要作用。传统的同声传译方法主要包括：一是依赖于专业翻译人员通过耳机和麦克风等设备进行实时翻译；二是基于深度学习技术，通过语音识别技术将输入的语音转换为文本，然后使用机器翻译技术将文本翻译成目标语言。

2、但是，基于人工进行同声传译需要耗费大量的人力成本。另外，基于深度学习技术，无法保留原说说话者的声音特色。

技术实现思路

1、本发明提供一种翻译方法、装置、电子设备和存储介质，用以解决现有技术中无法保留原说说话者的声音特色的缺陷。

2、本发明提供一种翻译方法，包括：

3、获取原始语音；

4、翻译所述原始语音，得到所述原始语音的目标文本；

5、基于个性化声音特征，对所述目标文本进行语音合成，得到目标语音，所述个性化声音特征是从所述原始语音和/或从与所述原始语音属于同一说话者的历史语音中提取得到的。

6、根据本发明提供的一种翻译方法，所述个性化声音特征的获取步骤包括：

7、将所述原始语音和/或所述历史语音作为说话者语音，对所述说话者语音进行语音转写，得到转写文本；

8、基于所述说话者语音和所述转写文本，提取所述个性化声音特征。

9、根据本发明提供的一种翻译方法，所述基于所述说话者语音和所述转写文本，提取所述个性化声音特征，包括：

10、基于所述说话者语音和所述转写文本，提取所述说话者的字级音色特征、字级停顿特征以及字级韵律特征中的至少一种；

11、基于所述字级音色特征、字级停顿特征以及字级韵律特征中的至少一种，确定所述个性化声音特征。

12、根据本发明提供的一种翻译方法，所述基于个性化声音特征，对所述目标文本进行语音合成，包括：

13、对所述原始语音进行说话者识别，得到所述原始语音所属的目标说话者；

14、在查询得到所述目标说话者的个性化声音特征的情况下，基于所述个性化声音特征，对所述目标文本进行语音合成；

15、在未查询到所述目标说话者的个性化声音特征的情况下，从所述原始语音中提取所述目标说话者的个性化声音特征，并基于所述个性化声音特征，对所述目标文本进行语音合成。

16、根据本发明提供的一种翻译方法，所述基于个性化声音特征，对所述目标文本进行语音合成，得到目标语音，之后还包括：

17、确定所述原始语音所属的目标说话者的虚拟形象；

18、基于所述目标语音和所述虚拟形象，合成目标视频。

19、根据本发明提供的一种翻译方法，所述基于所述目标语音和所述虚拟形象，合成目标视频，包括：

20、基于所述目标语音和所述虚拟形象，生成所述虚拟形象的表情信息和/或肢体动作信息；

21、基于所述目标语音，以及所述虚拟形象的表情信息和/或肢体动作信息，合成所述目标视频。

22、根据本发明提供的一种翻译方法，所述基于所述目标语音和所述虚拟形象，合成目标视频，之后还包括：

23、基于所述目标文本和/或所述原始语音的转写文本，生成字幕；

24、将所述字幕添加在所述目标视频中并展示。

25、本发明还提供一种翻译装置，包括：

26、获取单元，获取原始语音；

27、翻译单元，翻译所述原始语音，得到所述原始语音的目标文本；

28、合成单元，基于个性化声音特征，对所述目标文本进行语音合成，得到目标语音，所述个性化声音特征是从所述原始语音和/或从与所述原始语音属于同一说话者的历史语音中提取得到的。

29、本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述翻译方法。

30、本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述翻译方法。

31、本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述翻译方法。

32、本发明提供的翻译方法、装置、电子设备和存储介质，通过从原始语音和/或从与原始语音属于同一说话者的历史语音中，提取得到说话者的个性化声音特征，并基于个性化声音特征，对原始语音翻译得到的目标文本进行语音合成，得到目标语音，在实现准确的语义翻译的同时，还保留了说话者的个性化声音特质，实现了“无损”的语音翻译，使得目标语音更加生动和容易听懂，进而提升了用户的使用体验。

技术特征：

1.一种翻译方法，其特征在于，包括：

2.根据权利要求1所述的翻译方法，其特征在于，所述个性化声音特征的获取步骤包括：

3.根据权利要求2所述的翻译方法，其特征在于，所述基于所述说话者语音和所述转写文本，提取所述个性化声音特征，包括：

4.根据权利要求1所述的翻译方法，其特征在于，所述基于个性化声音特征，对所述目标文本进行语音合成，包括：

5.根据权利要求1至4中任一项所述的翻译方法，其特征在于，所述基于个性化声音特征，对所述目标文本进行语音合成，得到目标语音，之后还包括：

6.根据权利要求5所述的翻译方法，其特征在于，所述基于所述目标语音和所述虚拟形象，合成目标视频，包括：

7.根据权利要求5所述的翻译方法，其特征在于，所述基于所述目标语音和所述虚拟形象，合成目标视频，之后还包括：

8.一种翻译装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述翻译方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述翻译方法。

技术总结本发明提供一种翻译方法、装置、电子设备和存储介质，方法包括：获取原始语音；翻译原始语音，得到原始语音的目标文本；基于个性化声音特征，对所述目标文本进行语音合成，得到目标语音，个性化声音特征是从原始语音和/或从与原始语音属于同一说话者的历史语音中提取得到的。本发明提供的方法、装置，基于从原始语音和/或从与原始语音属于同一说话者的历史语音中，提取得到说话者的个性化声音特征，并基于个性化声音特征，对原始语音翻译得到的目标文本进行语音合成，得到目标语音，在实现准确的语义翻译的同时，还保留了说话者的个性化声音特质，实现了“无损”的语音翻译，使得目标语音更加生动和容易听懂，进而提升了用户的使用体验。技术研发人员：方昕,陈天同,吴明辉,章子睿,胡国平,潘嘉,高建清受保护的技术使用者：科大讯飞股份有限公司技术研发日：技术公布日：2024/1/15