技术新讯 > 电子通信装置的制造及其应用技术 > 音视频通话的同译同传方法及系统、计算机装置与流程 > 正文

音视频通话的同译同传方法及系统、计算机装置与流程

国知局
2024-10-15 10:12:38

本公开涉及通信，尤其涉及一种音视频通话的同译同传方法及系统、计算机装置。

背景技术：

1、随着全球化的加速和信息技术的飞速发展，多语言环境下的语音通话确实变得越来越重要。

2、人们在工作和日常生活中需要与不同语言背景的人进行沟通，这就要求有更高效的沟通方式，然而，目前的实时翻译技术还存在一些挑战和问题，传统的三方通话模式需要专业的翻译人员参与，这不仅增加了通话成本，而且对翻译人员的专业水平和体力都有较高要求，即使是专业的翻译人员，在实时翻译过程中也可能因为语言差异、文化差异或专业术语等原因，导致翻译的准确性和完整性受到影响；虽然有些第三方翻译软件可以提供机器翻译服务，但这些软件的接入过程往往较为复杂，用户需要进行一系列的设置，灵活性差，无法快速适应不同场景和需求，也会导致用户体验感差，也会降低通话的效率。

技术实现思路

1、有鉴于此，本公开实施例提供了一种音视频通话的同译同传方法及系统、计算机装置，能够解决现有技术中存在的翻译成本高、同步译出准确性差、同步率低、灵活性差，无法满足不同语言环境的同传同译需求等的问题。

2、第一方面，本公开实施例提供了一种音视频通话的同译同传方法，采用如下技术方案：

3、建立点对点语音通话通道；

4、yy+242178p

5、获取第一通话端的语音信息；

6、对所述语音信息进行断句，获得n个会话语音段；

7、将n个所述会话语音段按照时间顺序转化为n个文字文本段；

8、基于所述第一通话端的目标语种，对n个所述文字文本段进行翻译，获取n个文字文本翻译信息；

9、基于n个所述文字文本翻译信息获得n个目标语音段；

10、基于所述点对点语音通话通道将n个所述目标语音段根据时间顺序发送至第二通话端；

11、所述第二通话端根据时间顺序依次播放n个所述目标语音段。

12、可选的，所述建立点对点语音通话通道，包括：

13、对第一通话端、第二通话端分别进行认证；

14、将符合认证的所述第一通话端、符合认证的所述第二通话端分别与流媒体转发服务器建立双向互发的流媒体通道。

15、可选的，所述进行认证的方法包括：通过短信验证码、邮箱验证码、生物识别技术、用户名和密码中的一种或多种的方式进行认证。

16、可选的，所述对所述语音信息进行断句，获得n个会话语音段，包括：

17、基于所述语音信息获取所述第一通话端的环境信息；所述环境信息包括若干环境声音信号；

18、基于所述环境信息获得环境分类信息；

19、基于所述语音信息以及所述环境分类信息，确定所述第一通话端处于的发声状态；

20、根据所述发声状态、语音停顿设置信息，对所述语音信息进行断句处理，获得n个会话语音段；

21、所述语音停顿设置信息包括语句停顿时长、无停顿一句话最大时长中的一种或多种；n≥1。

22、可选的，所述基于所述环境信息获得环境分类信息，包括：

23、对所述环境信息进行降噪处理，获得第一声音信号；

24、对所述第一声音信号进行预处理，获得第二声音信号；

25、获取所述第二声音信号的特征信息；所述特征信息包括声音频率、声音响度中的一种或多种；

26、采用机器学习算法训练预设分类器，基于训练好的预设分类器、预设标注数据集对所述特征信息进行分析，获得环境分类信息。

27、可选的，所述基于所述语音信息以及所述环境分类信息，确定所述第一通话端处于的发声状态，包括：

28、按照预设间隔连续采集所述语音信息中至少两次环境声音样本；

29、采用预设策略对所述环境声音样本进行分析，确定所述发声状态；所述发声状态包括有声状态或无声状态。

30、可选的，所述采用预设策略对所述环境声音样本进行分析，确定所述发声状态，包括：

31、基于所述环境分类信息，确定环境阈值；

32、采用连续值法对所述环境声音样本进行分析，若连续采集的m次所述环境声音样本对应的环境值均大于所述环境阈值，确定所述发声状态为有声状态；

33、或者，采用概率值法对所述环境声音样本进行分析，若连续采集的n次所述环境声音样本中存在p次所述环境声音样本对应的环境值均大于所述环境阈值，确定所述发声状态为有声状态；

34、n＞m，p＝n-1。

35、可选的，若所述环境分类信息为安静环境类，设置环境阈值为第一数值；

36、若所述环境分类信息为嘈杂环境类，设置环境阈值为第二数值，且所述第二数值大于所述第一数值。

37、可选的，所述根据所述发声状态、语音停顿设置信息，对所述语音信息进行断句处理，包括：

38、若所述无声状态的连续时长超过所述语句停顿时长时，则将无声状态连续阶段的任一处作为断句点进行断句处理；

39、所述连续时长为采集的所述环境声音样本的间隔时长与采集的样本个数的乘积。

40、可选的，该方法还包括：根据所述语音信息的内容专业度对所述语音停顿设置信息进行调整。

41、可选的，所述基于所述点对点语音通话通道将n个所述目标语音段根据时间顺序发送至第二通话端，包括：

42、将n个所述目标语音段与n个所述会话语音段分别合成处理，获得n个叠加语音段；

43、基于所述点对点语音通话通道将n个所述叠加语音段根据时间顺序发送至第二通话端；

44、其中，在所述叠加语音段中，所述会话语音段为衬底声，对应的所述目标语音段为主要声，且所述目标语音段的设置音量高于所述会话语音段的设置音量。

45、可选的，所述第二通话端根据时间顺序依次播放n个所述目标语音段，包括：

46、根据所述第二通话端的设置需求，判断是否需要播放所述衬底声，若是，根据时间顺序依次播放n个所述叠加语音段；

47、若否，对所述叠加语音段进行分离处理，分离获得n个所述目标语音段，所述第二通话端根据时间顺序依次播放n个所述目标语音段。

48、可选的，所述点对点语音通话通道建立有多个，多个所述点对点语音通话通道为多个所述第二通话端与所述第一通话端建立的通道；

49、在所述第二通话端、所述第一通话端均可对应设置语言。

50、可选的，该同译同传方法还包括：

51、获取所述第一通话端、多个所述第二通话端的语言设置信息；

52、基于所述语言设置信息获取设置数量最多的语言，记为主体语言，并将所述主体语言作为所述目标语音段的语言；

53、若所述第二通话端的设置语言与所述主体语言不一致，将n个所述目标语音段与n个所述会话语音段分别合成处理，获得n个叠加语音段；基于多个所述点对点语音通话通道将n个所述叠加语音段分别发送至多个所述第二通话端；在每个所述第二通话端中均根据时间顺序进行播放；在所述叠加语音段中，所述会话语音段为衬底声，对应的所述目标语音段为主要声，且所述目标语音段的设置音量高于所述会话语音段的设置音量。

54、可选的，该同译同传方法还包括：基于所述点对点语音通话通道将n个所述目标语音段以及n个所述文字文本翻译信息根据时间顺序发送至第二通话端；

55、所述第二通话端根据时间顺序依次播放n个所述目标语音段、n个所述文字文本翻译信息；其中，每个所述目标语音段与对应的所述文字文本翻译信息同步播放。

56、第二方面，本公开实施例还提供了一种音视频通话的同译同传系统，包括如下技术方案：

57、第一会话端，用于获取第一通话端的语音信息，对所述语音信息进行断句，获得n个会话语音段，将n个所述会话语音段按照时间顺序转化为n个文字文本段，基于所述第一通话端的目标语种，对n个所述文字文本段进行翻译，获取n个文字文本翻译信息，基于n个所述文字文本翻译信息获得n个目标语音段；

58、信息转发服务器，用于建立点对点语音通话通道，基于所述点对点语音通话通道将n个所述目标语音段根据时间顺序发送至第二通话端；

59、第二会话端，用于所述第二通话端根据时间顺序依次播放n个所述目标语音段。

60、可选的，所述第二会话端还用于根据所述第二通话端对应的用户的预设或操作，根据预设指令播报所述目标语音段。

61、可选的，该同译同传系统还包括智能语音语义翻译网关；

62、所述智能语音语义翻译网关包括：

63、输入输出模块，用于接收语音信息，接收第一通话端预设的目标语种，yy+242178p

64、将目标语音段发送至所述第二会话端；

65、路由规则引擎，用于确定调用的第三方翻译接口，通过所述第三方翻译接口对接收到的文字文本段进行翻译，得到文字文本翻译信息；

66、缓存数据库，用于存储调用第三方翻译接口得到的文字文本翻译信息；

67、检索模型，用于从所述缓存数据库中检索对应的文字文本翻译信息；

68、接口连接层，用于与所述第三方翻译接口交互数据。

69、第三方面，本公开实施例还提供了一种计算机装置，采用如下技术方案：

70、所述计算机装置包括：

71、至少一个处理器；以及，

72、与所述至少一个处理器通信连接的存储器；其中，

73、所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行以上任一所述的音视频通话的同译同传方法。

74、第四方面，本公开实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行以上任一所述的音视频通话的同译同传方法。

75、第五方面，本公开实施例还提供了一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现以上任一项所述方法的步骤。

76、本技术公开的音视频通话的同译同传方法，能够对点对点语音通话进行同传同译，解决语言不互通的问题，满足通话翻译的即时性和流畅性；具体地，建立点对点语音通话通道和获取语音信息确保了通信的实时性和直接性；断句并转换为文本使得语音信息可以即时准确地转化为可处理的文本形式，从而为后续翻译提供了坚实的基础；基于第一通话端的目标语种进行文本翻译，确保了翻译的准确性和文化适应性，这样的处理方式能够有效地传达语义和情感，避免信息失真或误解；根据翻译的文本信息生成目标语音段，使得翻译结果在语音播放时能够自然流畅，接近本地语言的表达习惯和语调；将目标语音段按时间顺序发送和播放，确保信息的有序传递和接收，这种方式不仅保证了信息的连贯性，还提升了交流的效果和体验；整体方案支持多种语言的同传翻译，适应不同语言环境下的沟通需求，这种灵活性和效率大大提高了跨语言交流的便利性和实用性。

77、上述说明仅是本公开技术方案的概述，为了能更清楚了解本公开的技术手段，而可依照说明书的内容予以实施，并且为让本公开的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图，详细说明如下。