技术新讯 > 电子通信装置的制造及其应用技术 > 一种基于多人场景的直播实时翻译方法、系统及介质与流程 > 正文

一种基于多人场景的直播实时翻译方法、系统及介质与流程

国知局
2024-08-02 14:47:04

【】本发明涉及语音传译，其特别涉及一种基于多人场景的直播实时翻译方法、系统及介质。

背景技术

0、背景技术：

1、随着全球化的快速发展和互联网的普及，不同语言背景的人们之间的跨文化交流越来越频繁。作为其中广为人知的交流方式之一，全球性直播的观看人数也越发庞大，其中，实时多语言翻译技术的引入极大地提升了观众观看直播的便利性和流畅性。在直播场景中，主播的语音信号会经过识别转换成文本信号，然后通过机器翻译技术将文本翻译成观众所选择的目标语言。

2、然而，目前的实时多语言翻译技术没有区分音频来源的机制，在多主播直播间中，不同主播可能同时发言或相互交流，要求实时翻译技术在短时间内处理多个输入不同预匹配对象的音频，实时翻译成多种语言并生成翻译结果，如果只使用一个共享的翻译系统，就很难区分不同主播的语音，同一个直播间内的不同主播、助手和嘉宾的声音混在一起输出导致目标语言音频语序混乱、语义逻辑不通顺等结果，同时混乱的预匹配对象音频输入会导致不同主播的目标语言匹配混乱，无法正确匹配翻译成各自的目标语言，降低翻译的准确性和流畅度，降低用户体验。

技术实现思路

0、技术实现要素：

1、为了解决现有实时多语言翻译技术无法区分多个主播、助手或嘉宾的语音的问题，本发明提供一种基于多人场景的直播实时翻译方法、系统及介质。

2、本发明为解决上述技术问题，提供如下的技术方案：一种基于多人场景的直播实时翻译方法，包括：

3、实时采集预匹配对象的第一待翻译语言音频；

4、判断所述第一待翻译语言音频的来源终端，不同终端对应预设的第一目标语言，且不同终端对应不同的预匹配对象；

5、将所述第一待翻译语言音频转换为来源终端对应的第一目标语言音频；

6、所述第一目标语言音频通过所述来源终端被输送至对应的预匹配直播设备的直播间进行播放。

7、优选地，该方法还包括：

8、实时采集预匹配直播设备的第二待翻译语言音频；

9、判断所述第二待翻译语言音频的来源终端，不同终端对应预设的第二目标语言；

10、将所述第二待翻译语言音频转换为来源终端对应的第二目标语言音频；

11、所述第二目标语言音频通过所述来源终端进行播放。

12、优选地，该方法还包括：

13、实时采集预匹配直播设备的待翻译语言文字；

14、判断所述待翻译语言文字的来源终端，不同终端对应预设的第二目标语言；

15、将所述待翻译语言文字转换为来源终端对应的目标语言文字；

16、所述目标语言文字通过所述来源终端展示。

17、优选地，将所述第一待翻译语言音频转换为来源终端对应的第一目标语言音频具体包括：

18、将所述第一待翻译语言音频识别成第一待翻译语言文字，将第一待翻译语言文字通过翻译模型翻译成第一目标语言文字，将第一目标语言文字通过发声模型转换为第一目标语言音频。

19、优选地，将第一目标语言文字通过发声模型转换为第一目标语言音频具体包括：

20、预训练主播声线模拟模型和主播情绪模拟模型；

21、将第一目标语言文字通过发声模型转换为初级第一目标语言音频；

22、通过预训练主播声线模拟模型和主播情绪模拟模型对初级第一目标语言音频进行主播声线模拟，得到第一目标语言音频。

23、本发明为解决上述技术问题，提供又一技术方案如下：一种基于多人场景的直播实时翻译系统，所述基于多人场景的直播实时翻译系统包括直播设备、终端设备和服务器；

24、直播设备，作为直播间的载体，用于预匹配对象进行实时直播；

25、终端设备，用于实时采集预匹配对象的第一待翻译语言音频并传送至服务器，并将服务器输送的第一目标语言音频转送至直播设备的直播间；

26、服务器，用于判断采集第一待翻译语言音频的终端设备，将第一待翻译语言音频转换为终端设备对应的第一目标语言音频并将第一目标语言音频输送至所述来源终端。

27、优选地，终端设备还用于实时采集预匹配直播设备的第二待翻译语言音频并传送至服务器，并将播放服务器输送的第二目标语言音频；

28、服务器还用于判断采集第二待翻译语言音频的终端设备，将第二待翻译语言音频转换为终端设备对应的第二目标语言音频并将第二目标语言音频输送至所述来源终端。

29、优选地，终端设备还用于实时采集预匹配直播设备的待翻译语言文字并传送至服务器，并展示服务器输送的目标语言文字；

30、服务器还用于判断采集待翻译语言文字的终端设备，将待翻译语言文字转换为终端设备对应的目标语言文字并将目标语言文字输送至所述来源终端。

31、优选地，所述终端设备包括：用于采集待翻译语言音频的采集模块、用于传送待翻译语言音频的传送模块、用于接收服务器输送的目标语言音频的接收模块、用于识别待翻译语言文字的识别模块、用于显示目标语言文字的显示模块、用于播放目标语言音频的播放模块。

32、本发明为解决上述技术问题，提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现前述的基于多人场景的直播实时翻译方法。

33、与现有技术相比，本发明所提供的一种基于多人场景的直播实时翻译方法、系统及介质，具有如下的有益效果：

34、1.本发明提供的一种基于多人场景的直播实时翻译方法，在直播过程中自动实现多语言实时翻译，采用独立终端作为中间输送媒介，不同终端对应预设的目标语言，服务器可以根据音频对应来源的终端对不同的主播或助手进行识别，将每个主播的语音正确地与其对应的目标语言进行匹配区分，实现对多个主播、助手的语言进行实时区别翻译；独立终端根据每个直播间对应的需求进行翻译，并生成相应的目标语言输出；使用独立终端进行中间输送，还可以针对不同直播间的需求实时翻译成对应直播间的语言，服务器同时处理多个直播间的翻译需求，并且还确保每个直播间都能够得到与目标语言相匹配的翻译结果。

35、2.本发明提供的一种基于多人场景的直播实时翻译方法，通过实时采集预匹配直播设备的第二待翻译语言音频，终端可以即时获取到连麦时观众说出的第二待翻译语言的语音数据；不同的终端对应预设的目标语言，多个终端提供多语言支持，匹配到不同直播设备的终端对应不同的目标语言，匹配到相同直播设备的终端对应相同的目标语言，实现了实时的观众与主播之间的交流，无论观众来自哪个国家或地区，都能用自己熟悉的语言与主播交流参与到直播中来。

36、3.本发明提供的一种基于多人场景的直播实时翻译方法，采集观众发送的待翻译语言文字，将其转换成主播可以理解的目标语言文字，使主播能够实时了解观众的评论或提问，了解观众的反馈和情绪，及时作出回应和调整，跨语言沟通，增强了互动体验，提升了直播质量。

37、4.本发明提供的一种基于多人场景的直播实时翻译方法，通过预训练主播声线模拟模型和主播情绪模拟模型对第一目标语言音频进行优化，根据每位主播的声音特点进行个性化的模拟，区分开不同主播的风格和形象，增强情绪表达，提升用户体验。

38、5.本发明实施例还提供一种基于多人场景的直播实时翻译系统，具有与上述一种基于多人场景的直播实时翻译方法相同的有益效果，在此不做赘述。

39、6.本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质内存储有计算机程序，计算机程序被处理器执行时实现如前述所述的基于多人场景的直播实时翻译方法。