技术新讯 > 电子通信装置的制造及其应用技术 > 直播流的处理方法、装置、设备及存储介质与流程  >  正文

直播流的处理方法、装置、设备及存储介质与流程

  • 国知局
  • 2024-08-02 12:43:28

本公开涉及数据处理,尤其涉及人工智能、语音技术等领域。

背景技术:

1、目前网络直播被应用于各行各业,不仅有直播平台上的主播直播,还有以直播形式进行的新闻、网课等。为了方便观众理解和跟随直播内容,需要将直播中的语音转换为文本并实时显示,比如,对于听障用户而言,直播中显示字幕尤为重要。但是,直播是实时进行的,无法提前翻译,若采用人工实时翻译,会影响直播的实时性并加重直播成本。

技术实现思路

1、本公开提供了一种直播流的处理方法、装置、设备及存储介质。

2、根据本公开的一方面,提供了一种直播流的处理方法,包括:

3、获取原始直播流中的原始音频流和原始视频流;

4、对所述原始音频流进行语音识别,得到目标识别结果;所述目标识别结果包含所述原始音频流的目标字幕信息以及所述目标字幕信息的时间戳;

5、确定所述目标字幕信息的时间戳落后于所述原始视频流的时间戳的情况下,将所述原始视频流的时间戳与所述目标字幕信息的时间戳对齐;

6、基于原始音频流、对齐后的原始视频流以及所述目标字幕信息,得到包含有所述目标字幕信息的目标直播流。

7、根据本公开的另一方面,提供了一种直播流的处理装置,包括:

8、获取单元,用于获取原始直播流中的原始音频流和原始视频流;

9、语音识别单元,用于对所述原始音频流进行语音识别,得到目标识别结果;所述目标识别结果包含所述原始音频流的目标字幕信息以及所述目标字幕信息的时间戳;

10、对齐单元,用于确定所述目标字幕信息的时间戳落后于所述原始视频流的时间戳的情况下,将所述原始视频流的时间戳与所述目标字幕信息的时间戳对齐;

11、合成单元,用于基于原始音频流、对齐后的原始视频流以及所述目标字幕信息,得到包含有所述目标字幕信息的目标直播流。

12、根据本公开的另一方面,提供了一种电子设备,包括:

13、至少一个处理器;以及

14、与该至少一个处理器通信连接的存储器;其中,

15、该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本公开实施例中任一的方法。

16、根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,该计算机指令用于使该计算机执行根据本公开实施例中任一的方法。

17、根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现根据本公开实施例中任一的方法。

18、这样,本公开方案能够有效利用直播流中的音频数据进行字幕信息的识别,得到目标字幕信息,同时,还能够利用目标字幕信息的时间戳与原始视频流的时间戳来确定是否需要进行延迟处理,进而在确定目标字幕信息的时间戳晚于原始视频流的时间戳情况下,才会进行延迟处理,以将原始视频流的时间戳,与目标字幕信息的时间戳进行对齐,如此,来得到包含有所述目标字幕信息的目标直播流,该方式灵活、效果好,且得到的实时字幕时延低。

19、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

技术特征:

1.一种直播流的处理方法,包括:

2.根据权利要求1所述的方法,其中,所述对所述原始音频流进行语音识别,得到目标识别结果,包括:

3.根据权利要求2所述的方法,还包括:

4.根据权利要求3所述的方法,其中,所述基于多个尺度中各尺度上的小波系数,对所述原始音频流进行降噪处理,以得到降噪处理后的原始音频流,包括:

5.根据权利要求2-4任一项所述的方法,其中,所述对所述原始音频流进行对象识别,得到n个音频对象,包括:

6.根据权利要求5所述的方法,还包括:

7.根据权利要求2-6任一项所述的方法,其中,所述目标直播流中不同音频对象所对应的第一字幕信息的展示形式不同;展示形式包括以下至少之一:字体大小、字体颜色。

8.一种直播流的处理装置,包括:

9.根据权利要求8所述的装置,其中,所述语音识别单元,具体用于:

10.根据权利要求9所述的装置,还包括:降噪单元;其中,

11.根据权利要求10所述的装置,其中,所述降噪单元,具体用于:

12.根据权利要求9-11任一项所述的装置,其中,所述语音识别单元,具体用于:

13.根据权利要求12所述的装置,其中,所述语音识别单元,还用于:

14.根据权利要求9-13任一项所述的装置,其中,所述目标直播流中不同音频对象所对应的第一字幕信息的展示形式不同;展示形式包括以下至少之一:字体大小、字体颜色。

15.一种电子设备,包括:

16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。

17.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。

技术总结本公开提供了直播流的处理方法、装置、设备及存储介质,涉及数据处理技术领域,尤其涉及人工智能、语音技术等领域。具体实现方案为:获取原始直播流中的原始音频流和原始视频流;对所述原始音频流进行语音识别,得到目标识别结果;所述目标识别结果包含所述原始音频流的目标字幕信息以及所述目标字幕信息的时间戳;确定所述目标字幕信息的时间戳落后于所述原始视频流的时间戳的情况下,将所述原始视频流的时间戳与所述目标字幕信息的时间戳对齐;基于原始音频流、对齐后的原始视频流以及所述目标字幕信息,得到包含有所述目标字幕信息的目标直播流。技术研发人员:曾依浦,王伟受保护的技术使用者:北京百度网讯科技有限公司技术研发日:技术公布日:2024/8/1

本文地址:https://www.jishuxx.com/zhuanli/20240802/237539.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。