技术新讯 > 电子通信装置的制造及其应用技术 > 一种具有动态背景的视频会议或网络直播系统的实现方法与流程 > 正文

一种具有动态背景的视频会议或网络直播系统的实现方法与流程

国知局
2024-08-02 14:56:57

本发明涉及视频处理，尤其涉及一种具有动态背景的视频会议或网络直播系统的实现方法。

背景技术：

1、当前，一般是通过算法将用户当前的个人影像从视频中剔除，然后和静态的场景做融合，再在视频系统或直播系统中以视频的形式呈现出来。这种形式应用比较多，也比较常见。但是静态的背景，如会议室或其它图片的效果比较生硬，这会给视频观看者比较假的感觉。另外，如腾讯会议、华为welink等视频会议系统可选的背景图像全部是静态的，如果替换背景也只支持静态的背景。此外，在看电视台播放的会议、直播等场景时，会议的背景是可以动态变化的，甚至是可以不断变化的场景，如新闻主播后面的街景等。但需要投入极大的成本及设备去支持。这极大地限制了当下流行的直播视频等的可观看性和多样性。

技术实现思路

1、本发明所要解决的技术问题是克服现有技术的不足，提供一种可以将用户当前背景替换为动态图像、视频作为背景的具有动态背景的视频会议或网络直播系统的实现方法。

2、本发明所采用的技术方案是，本发明方法由包括本地端、服务器端、远程视频采集装置组成的深度卷积神经网络系统实现，在本地端上设置有现场视频采集装置，该方法包括以下步骤：

3、a.所述本地端利用现场视频采集装置采集现场视频，生成实时的现场视频流，同时，所述远程视频采集装置采集远程视频，生成远程视频流或动态影像；

4、b.对实时的现场视频流进行背景去除操作，形成无背景视频流；

5、c.在所述服务器端将无背景视频流及生成的远程视频流或动态影像进行融合，形成融合后的视频流；

6、d.将融合后的视频流在本地端或者是远程视频装置上进行展示；

7、在所述步骤b中，深度卷积神经网络系统将deeplabv3作为编码器，编码器与解码器并联连接，由深度卷积神经网络生成多维度特征，遵从空洞金字塔池化规则增加感受视野，并通过对输出特征反卷积操作，然后解码器与canny边缘检测模块串联；

8、对于编码器deeplabv3，编码层前端采用空洞卷积获取浅层低级特征，传输到解码器前端；编码层后端采用vgg-16获取深层高级特征信息，并且将output_stride为16的特征矩阵传输到解码器；解码器接收到深层高级特征信息，经过双线性上采样得到output_stride为4的256通道特征a；同时为了调整占比相同，采用1x1卷积降通道，将浅层低级特征通道降低到256通道特征b，增强模型学习能力；随后解码器将特征a与特征b做网络层连接，再经过一个3x3的特征卷积细化；最后，在解码器后端再经过双线性4倍采样得到深度学习分割预测结果；将接收到原图与深度学习分割经过标签映射得到前景图，以保证后端canny算法产生精准边缘，其中，前景图计算由以下公式得到：

9、

10、其中， i t表示前景图特征； i b表示经过深度学习分割后的分割图特征； i o表示原图特征；

11、对于在前景图边缘处存在部分背景的情况，由二值图边缘和前景图边缘融合得到的边缘图，沿边缘线采用边缘矫正通道处理，由边缘图计算出边缘图中人物分割边缘线 l blue→red、边缘图中前景分割边缘线 l red→blue和由人物分割边缘线与前景分割边缘线围成的错误背景区域r，错误背景区域r采用如下公式计算得到：

12、

13、在错误背景区域r内，将边缘矫正通道的数值置零，即可将错误背景区域r去除。

14、上述方案可见，通过本发明方法，实现了视频会议或直播系统支持将背景替换为动态图像和视频，可以实现人在其它地方，但可以和远程的图像场景的融合；本发明可以帮助用户打破时空的限制，这对于创造新的视频融合模式，商业模式都具有重要的价值；本发明方法可以用动态的实时视频或动态的图像来替换背景，为用户提供更加真实的融入感，这对开辟更多的直播模式，服务模式或宣传模式都会有很大的帮助。

15、进一步地，所述步骤a中，所述现场视频采集装置为智能手机、相机或摄像机，所述远程视频采集装置为智能手机、相机或摄像机。可见，视频采集的途径比较多，相对地也能有效地降低成本。

16、再进一步地，所述步骤a中，所述远程视频采集装置的输出结果以视频接口的形式直接输出为远程视频流或动态影像，或者通过ip地址的形式从所述远程视频采集装置直接读取。这保证了视频传输的可靠性和安全性以及唯一性。

17、此外，所述步骤b中，对实时的现场视频流进行背景去除操作，形成无背景视频流的流程在本地端或服务器端上完成。可见，本地端和服务器上均能完成背景取出操作，保证了方案的灵活性。

18、另外，所述步骤c中，还可以在本地端将无背景视频流及生成的远程视频流或动态影像进行融合，形成融合后的视频流。可见，同样地，在本地端也可实现视频融合，增加了方案的灵活性。

19、再次地，所述步骤b中，对实时的现场视频流进行背景去除操作，还可以采用人像蒙板法或者是ai智能方法去除。

技术特征：

1.一种具有动态背景的视频会议或网络直播系统的实现方法，该方法由包括本地端、服务器端、远程视频采集装置组成的深度卷积神经网络系统实现，在本地端上设置有现场视频采集装置，该方法包括以下步骤：

2.根据权利要求1所述的一种具有动态背景的视频会议或网络直播系统的实现方法，其特征在于，所述步骤a中，所述现场视频采集装置为智能手机、相机或摄像机，所述远程视频采集装置为智能手机、相机或摄像机。

3.根据权利要求1所述的一种具有动态背景的视频会议或网络直播系统的实现方法，其特征在于，所述步骤a中，所述远程视频采集装置的输出结果以视频接口的形式直接输出为远程视频流或动态影像，或者通过ip地址的形式从所述远程视频采集装置直接读取。

4.根据权利要求1所述的一种具有动态背景的视频会议或网络直播系统的实现方法，其特征在于，所述步骤b中，对实时的现场视频流进行背景去除操作，形成无背景视频流的流程在本地端或服务器端上完成。

5.根据权利要求1所述的一种具有动态背景的视频会议或网络直播系统的实现方法，其特征在于，所述步骤c中，还可以在本地端将无背景视频流及生成的远程视频流或动态影像进行融合，形成融合后的视频流。

6.根据权利要求1所述的一种具有动态背景的视频会议或网络直播系统的实现方法，其特征在于，所述步骤b中，对实时的现场视频流进行背景去除操作，还可以采用人像蒙板法或者是ai智能方法去除。

技术总结本发明旨在提供一种可以将用户当前背景替换为动态图像、视频作为背景的具有动态背景的视频会议或网络直播系统的实现方法。本发明方法包括以下步骤：a.所述本地端利用现场视频采集装置采集现场视频，生成实时的现场视频流，同时，所述远程视频采集装置采集远程视频，生成远程视频流或动态影像；b.对实时的现场视频流进行背景去除操作，形成无背景视频流；c.在所述服务器端将无背景视频流及生成的远程视频流或动态影像进行融合，形成融合后的视频流；d.将融合后的视频流在本地端或者是远程视频装置上进行展示。本发明可应用于视频处理技术领域。技术研发人员：孙傲冰,陈伟,王滨阳受保护的技术使用者：广东城智科技有限公司技术研发日：技术公布日：2024/7/29