技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种音频转译方法及音频转译服务器、设备及存储介质与流程 > 正文

一种音频转译方法及音频转译服务器、设备及存储介质与流程

国知局
2024-06-21 11:40:33

本发明涉及计算机，具体而言，涉及一种音频转译方法及音频转译服务器、设备及存储介质。

背景技术：

1、随着计算机技术的发展，会议或者访谈的形式越来越多样，不局限于参会人员聚集到统一的会议室中进行开会或者访谈，可以通过远程音视频的网络会议，实现跨地域的会议召开，便利了人们的工作和生活。在会议访谈过程中，往往需要对会议访谈的内容进行文字记录，即进行会议转译。现有技术中，通常是由参会人员在会议现场通过聆听会议发言，手动记录会议访谈中的发言内容得到相关文字记录内容，或者由管理人员在会后回顾聆听会议访谈的录音或者音频，然后手动记录录音或者音频中所指示的文字内容，从而实现会议访谈的音频转译。

2、但是在研究中发现，由于相关人员的听力或认知能力可能存在缺陷，在相关人员通过聆听会议发言或者会议录音进行音频转译时，可能会出现辨别得到的发言内容与实际上的发言内容出现不同的情况，导致记录得到的文字内容出现与实际不符，或者出现错误，从而降低音频转译结果的准确性。除此之外，由相关人员手动进行转译结果的记录，会增加在进行音频转译时所需耗费的人力成本。

技术实现思路

1、有鉴于此，本发明的目的在于提供一种音频转译方法及音频转译服务器、设备及存储介质，以减少在进行音频转译时所需耗费的人力成本，同时提高音频转译结果的准确性。

2、第一方面，本技术实施例提供了一种音频转译方法，所述方法包括：

3、对目标用户端请求转译的待转译音频流进行声纹分割得到多个子音频流和各子音频流所对应的发言人信息；

4、调用sdk服务器对各子音频流进行语音识别得到各子音频流所对应的文字内容；

5、将各子音频流、各子音频流所对应的发言人信息以及各子音频流所对应的文字内容发送至所述目标用户端进行展示。

6、可选地，所述调用sdk服务器对各子音频流进行语音识别得到各子音频流所对应的文字内容，包括：

7、从所述sdk服务器获取各子音频流所对应的文字内容和各子音频流的时间戳；

8、所述将各子音频流、各子音频流所对应的发言人信息以及各子音频流所对应的文字内容发送至所述目标用户端进行展示，包括：

9、分别将各子音频流，与其对应的发言人信息及文字内容进行组装，得到各子音频流所对应的片段数据；

10、根据各子音频流的时间戳由先到后的顺序，对所有子音频流所对应的片段数据进行排序，并按序将各片段数据依次发送至所述目标用户端进行展示。

11、可选地，在将各子音频流、各子音频流所对应的发言人信息以及各子音频流所对应的文字内容发送至所述目标用户端进行展示后，所述方法还包括：

12、通过所述目标用户端获取用户对第一子音频流所对应的发言人信息的第一修改操作，和/或对第二子音频流所对应的文字内容的第二修改操作；

13、利用所述第一修改操作所指示的目标发言人信息对所述第一子音频流所对应的发言人信息进行替换，和/或利用所述第二修改操作所指示的目标文字内容对所述第二子音频流所对应的文字内容进行替换；

14、将各子音频流、替换后的各子音频流所对应的发言人信息和文字内容打包为各子音频流的音频流数据包；

15、将各子音频流的音频流数据包发送至所述目标用户端进行展示。

16、可选地，在将各子音频流、替换后的各子音频流所对应的发言人信息和文字内容打包为各子音频流的音频流数据包后，所述方法还包括：

17、将各子音频流的音频流数据包进行存储，并根据各子音频流的音频流数据包的存储地址生成用于访问各音频流数据包的超链接；

18、将用于访问各音频流数据包的超链接发送至所述目标用户端进行展示。

19、可选地，在将用于访问各子音频流的超链接发送至所述目标用户端进行展示后，所述方法还包括：

20、响应所述目标用户端对目标超链接的访问操作，从所述目标超链接所对应的存储地址中调取出目标音频流数据包；

21、将所述目标音频流数据包发送至所述目标用户端进行展示。

22、可选地，所述方法还包括：

23、向所述目标用户端展示所述待转译音频流音频转译的进度；

24、当将各子音频流、各子音频流所对应的发言人信息以及各子音频流所对应的文字内容发送至所述目标用户端进行展示时，停止展示所述音频转译进度。

25、可选地，所述方法还包括：

26、响应于所述目标用户端发送的约定密钥请求，判断所述约定密钥请求中携带的目标用户端的ip地址和密钥是否均存在于预先配置的白名单中；

27、若所述目标用户端的ip地址和密钥均存在于所述白名单中，则根据所述密钥，利用预先配置的加密算法生成加密令牌，并将所述加密令牌发送至所述目标用户端；

28、接收所述目标用户端针对所述加密令牌发送的待转译音频流，判断所述待转译音频流的格式是否符合音频文件的格式；

29、若所述目标用户端针对所述加密令牌发送的待转译音频流的格式符合音频文件的格式，则将所述目标用户端发送的待转译音频流进行保存。

30、第二方面，本技术实施例提供了一种音频转译服务器，所述音频转译服务器包括：

31、第一模块，用于对目标用户端请求转译的待转译音频流进行声纹分割得到多个子音频流和各子音频流所对应的发言人信息；

32、第二模块，用于调用sdk服务器对各子音频流进行语音识别得到各子音频流所对应的文字内容；

33、第三模块，用于将各子音频流、各子音频流所对应的发言人信息以及各子音频流所对应的文字内容发送至所述目标用户端进行展示。

34、可选地，所述第二模块具体用于：

35、从所述sdk服务器获取各子音频流所对应的文字内容和各子音频流的时间戳；

36、所述音频转译服务器在用于将各子音频流、各子音频流所对应的发言人信息以及各子音频流所对应的文字内容发送至所述目标用户端进行展示时，具体用于：

37、分别将各子音频流，与其对应的发言人信息及文字内容进行组装，得到各子音频流所对应的片段数据；

38、根据各子音频流的时间戳由先到后的顺序，对所有子音频流所对应的片段数据进行排序，并按序将各片段数据依次发送至所述目标用户端进行展示。

39、可选地，所述音频转译服务器还包括：

40、第四模块，用于在将各子音频流、各子音频流所对应的发言人信息以及各子音频流所对应的文字内容发送至所述目标用户端进行展示后，通过所述目标用户端获取用户对第一子音频流所对应的发言人信息的第一修改操作，和/或对第二子音频流所对应的文字内容的第二修改操作；

41、利用所述第一修改操作所指示的目标发言人信息对所述第一子音频流所对应的发言人信息进行替换，和/或利用所述第二修改操作所指示的目标文字内容对所述第二子音频流所对应的文字内容进行替换；

42、将各子音频流、替换后的各子音频流所对应的发言人信息和文字内容打包为各子音频流的音频流数据包；

43、将各子音频流的音频流数据包发送至所述目标用户端进行展示。

44、可选地，所述音频转译服务器还包括：

45、第五模块，用于在将各子音频流、替换后的各子音频流所对应的发言人信息和文字内容打包为各子音频流的音频流数据包后，将各子音频流的音频流数据包进行存储，并根据各子音频流的音频流数据包的存储地址生成用于访问各音频流数据包的超链接；

46、将用于访问各音频流数据包的超链接发送至所述目标用户端进行展示。

47、可选地，所述音频转译服务器还包括：

48、第六模块，用于在将用于访问各子音频流的超链接发送至所述目标用户端进行展示后，响应所述目标用户端对目标超链接的访问操作，从所述目标超链接所对应的存储地址中调取出目标音频流数据包；

49、将所述目标音频流数据包发送至所述目标用户端进行展示。

50、可选地，所述音频转译服务器还包括：

51、第七模块，用于向所述目标用户端展示所述待转译音频流音频转译的进度；

52、当将各子音频流、各子音频流所对应的发言人信息以及各子音频流所对应的文字内容发送至所述目标用户端进行展示时，停止展示所述音频转译进度。

53、可选地，所述音频转译服务器还包括：

54、第八模块，用于响应于所述目标用户端发送的约定密钥请求，判断所述约定密钥请求中携带的目标用户端的ip地址和密钥是否均存在于预先配置的白名单中；

55、若所述目标用户端的ip地址和密钥均存在于所述白名单中，则根据所述密钥，利用预先配置的加密算法生成加密令牌，并将所述加密令牌发送至所述目标用户端；

56、接收所述目标用户端针对所述加密令牌发送的待转译音频流，判断所述待转译音频流的格式是否符合音频文件的格式；

57、若所述目标用户端针对所述加密令牌发送的待转译音频流的格式符合音频文件的格式，则将所述目标用户端发送的待转译音频流进行保存。

58、第三方面，本技术实施例提供了一种计算机设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述第一方面中任一种可选地实施方式中所述的音频转译方法的步骤。

59、第四方面，本技术实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面中任一种可选地实施方式中所述的音频转译方法的步骤。

60、本技术提供的技术方案包括但不限于以下有益效果：

61、本技术通过对目标用户端请求转译的待转译音频流进行声纹分割得到多个子音频流和各子音频流所对应的发言人信息，能够实现在不需要相关人员听音频后，根据经验对音频进行分割的情况下，实现将音频流进行拆分和说话人进行识别，从而减少音频转译过程中所需耗费的人力成本。

62、然后，调用sdk服务器对各子音频流进行语音识别得到各子音频流所对应的文字内容，能够通过sdk服务器代替相关人员对音频数据进行辨别，对音频数据进行语音识别得到所指示的文字内容，从而避免了人为因素的干扰和主观判断的影响，从而提高音频转译结果的准确性的有效性。

63、最后，将各子音频流、各子音频流所对应的发言人信息以及各子音频流所对应的文字内容发送至所述目标用户端进行展示，能够在不需要相关人员手动对转译结果进行记录的情况下，完成音频转译结果的存储和展示，从而减少了音频转译过程中所需耗费的人力成本。

64、采用上述方案，对目标用户端请求转译的待转译音频流进行声纹分割得到语音分割结果，然后将各语音分割结果发送至sdk服务器进行语音识别得到转译文字结果，最后将转译文字结果和语音分割结果通过用户端进行展示，从而在实现音频转译的基础上，减少在进行音频转译时所需耗费的人力成本，同时提高音频转译结果的准确性。

65、为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。