技术新讯 > 电子通信装置的制造及其应用技术 > 离线视频背景处理方法、系统及可读存储介质与流程 > 正文

离线视频背景处理方法、系统及可读存储介质与流程

国知局
2024-08-22 14:17:17

本发明涉及视频图像处理，更具体地说，它涉及一种离线视频背景处理方法、系统及可读存储介质。

背景技术：

1、实践中我们经常需要对既已获取的离线视频进行背景处理，例如在提取目标图像后将背景环境虚化或直接替换为特定图像。当前通常的做法是先将各视频帧中的目标图像（如人体图像、车辆图像）从背景中准确的提取分离，而后再将目标图像与设定的背景图像进行融合，最终实现视频图像的背景替换。

2、结合当前人工智能技术的进步，上述过程中需要基于卷积神经网络（cnn）或全卷积网络（fcn），耗费大量算力生成相应的处理模型，通过视频图像的目标检测以及图像分割，最终让目标图像从原始背景环境图像中精确分离。

3、虽然经上述方法步骤处理后的目标图像能够与替换后的背景很好的融合，但是整个处理过程需要耗费大量的算力及时间，无法实现视频背景环境的快速替换。

技术实现思路

1、针对实际运用中视频图像背景替换需要耗费大量时间和算力这一问题，本技术目的一在于提出一种离线视频背景处理方法，其能够快速的对离线视频背景加以处理，速度快且不耗费过高的算力，能够改善低硬件配置条件下视频背景处理效率低的问题；为实现上述方法，本技术目的二在于提供一种离线视频背景处理系统，目的三在于保护一种计算机可读存储介质。具体方案如下：

2、一种离线视频背景处理方法，包括：

3、获取离线视频并按设定规则采样得到若干帧视频图像；

4、自若干帧所述视频图像中识别目标图像并统计所述目标图像在视频图像中各位置出现的概率；

5、基于目标图像于视频图像中的位置概率分布，于视频图像中生成多个不同大小的保留区域；

6、选取形状大小与视频图像相同的目标背景图像并逐次抠除不同大小的保留区域，分别生成多个中间背景图像；

7、比对获取并关联存储若干帧所述视频图像及其对应的中间背景图像；

8、以采样时间为基准将所述离线视频分为多段子视频段，分别调取各子视频段对应的采样视频图像所关联的中间背景图像，利用上述中间背景图像覆盖所述子视频段内各帧视频图像，完成离线视频的背景处理。

9、通过上述技术方案，可以快速确定离线视频各时段内目标图像在视频图像中的位置，并由此计算出离线视频各时段内所需的背景图像轮廓，而后利用上述具备特定轮廓的背景图像覆盖对应时段离线视频所含的所有视频帧图像，即可完成离线视频的背景替换或虚化。上述处理过程无需对各帧图像中的目标图像做精确的识别，也无需生成大量的精确的背景图像轮廓，由此可以大大缩短离线视频背景处理的时间，同时降低视频背景处理系统所需的硬件配置。实践中用户可以通过调整采样率或保留区域的层级数量，获取到不同精度的背景处理效果。

10、进一步的，获取离线视频并按设定规则采样得到若干帧视频图像，包括：

11、根据设定时间间隔对离线视频进行一次采样，获取若干帧初始视频图像；

12、自所述若干帧初始视频图像中识别目标图像并标记目标图像中的至少一个特征点；

13、比较并计算相邻两帧初始视频图像中特征点位置坐标的差值，若所述差值不超过设定阈值，则以既已获取的若干帧初始视频图像作为采样的视频图像；若所述差值超过设定阈值，则于相邻两帧初始视频图像所对应的帧时间之间补充采样一次，而后重新比较计算所述差值，直至相邻两帧视频图像中特征点的位置坐标的差值小于设定阈值；

14、和/或，

15、解析至少三帧相邻初始视频图像，获取各帧初始视频图像中特征点的位置坐标并连接，生成特征点的位置变化曲线，若所述位置变化曲线与设定曲线相匹配，则于相邻帧初始视频图像所对应的帧时间之间补充采样一次；若所述位置变化曲线与设定曲线不相匹配，则以既已获取的若干帧初始视频图像作为采样的视频图像。

16、通过上述技术方案，可以降低由于视频采样时间间隔过大而导致目标图像于视频图像中位置概率分布预估出现重大偏差的概率，有助于提升各层级保留区域位置的准确性，使得后期生成的中间背景图像轮廓能够与目标图像更加契合，处理后的视频背景与目标图像结合更为自然。通过对目标图像中特征点的位置变化曲线加以识别判断，可以预估视频采样间隔时间内目标图像的运动轨迹，进而预判出目标图像在视频图像中可能出现的位置，最终根据上述运动轨迹和可能出现的位置决定是否补充采样，同样可以提升后期生成的用以覆盖原视频背景图像的中间背景图像的准确性，提升视频背景处理的效果。

17、进一步的，获取离线视频并按设定规则采样得到若干帧视频图像，包括：

18、建立音频频谱形态与声源动作之间的关联关系；

19、获取离线视频并解析得到对应的声源音频频谱；

20、识别所述音频频谱中表征声源运动的频谱形态及其对应的运动时间；

21、根据设定时间间隔对离线视频进行一次采样，获取若干帧初始视频图像；

22、根据所述运动时间对离线视频进行二次采样，获取若干帧补充视频图像；

23、基于采样时间将若干帧初始视频图像与补充视频图像相结合，生成所述若干帧视频图像。

24、通过上述技术方案，可以对离线视频所对应的音频加以分析，确定声源运动的时间，而后对上述时间对应的离线视频进行补充采样，由此可以降低由于声源运动而导致的目标图像位置概率分布变化而造成的采样失真概率，提升后期生成的中间背景图像的准确性。

25、进一步的，自若干帧所述视频图像中识别目标图像并统计所述目标图像在视频图像中各位置出现的概率，包括：

26、基于若干帧视频图像经深度学习网络对视频图像进行图像分割及目标检测；

27、检测并根据用户的点击选中操作确定目标图像及其轮廓特征；

28、择取目标图像中的设定位点作为特征点并统计各特征点在各帧视频图像中的位置坐标；

29、根据所述各个特征点与目标图像轮廓特征之间的相对位置关系，生成多个用于表征目标图像所在位置的关联特征点，存储为位置坐标-帧时间的三维数据集；

30、基于上述三维数据集统计视频图像中各位置特征点出现的次数，计算得到目标图像在视频图像中各位置出现的概率。

31、通过上述技术方案，首先利用采样得到的若干帧视频图像结合深度学习算法，得到并确认目标图像的大致轮廓，而后根据目标图像中特征点在视频图像中的位置分布计算目标图像关联特征点于视频图像中可能的位置，最终得到视频图像中各位置特征点出现的次数进而计算得到出现的概率。上述过程无需精确地对目标图像外轮廓进行抠图，只需要大致获取目标图像的轮廓即可，由此可以保证后续生成的中间背景图像能够不覆盖掉需要保留的目标图像，快速完成视频图像的背景替换，兼顾了视频背景处理的效率以及系统硬件配置算力，实践中用户可以通过设定上述深度学习网络的迭代次数来调整图像分割的准确度。

32、进一步的，所述生成多个中间背景图像，包括：

33、获取相邻两帧视频图像并基于光流估算算法，判定并生成视频图像中目标图像的运动趋势函数；

34、基于上述运动趋势函数及采样时间间隔，计算获取所述保留区域在相邻两帧视频图像间各帧非采样视频图像中的修正值；

35、通过所述修正值调整所述保留区域的形状大小并将调整后的保留区域与各帧非采样视频图像关联存储；

36、自各帧非采样视频图像中抠除其对应的保留区域，生成多个所述中间背景图像。

37、通过上述技术方案，采用光流估算算法计算相邻两帧采样视频图像中目标图像的运动趋势并以此生成运动趋势函数，由此生成更加适应于相邻两帧采样视频图像之间的各帧非采样视频图像的中间背景图像，由于上述光流估算算法仅针对于相邻两帧采样视频图像，并不会额外耗费过多的算力，保证视频处理效率的同时能够显著提升后期中间背景图像覆盖视频图像背景的准确度，提升视频背景处理效果。

38、进一步的，利用中间背景图像覆盖所述子视频段内各帧视频图像，还包括：

39、获取覆盖后视频图像中中间背景图像的边缘轮廓坐标，利用高斯模糊算法对中间背景图像边缘轮廓两侧设定范围内的图像进行模糊处理。

40、通过上述技术方案，可以让新生成的视频图像背景与目标图像之间的过渡更加自然，提升视频背景处理的效果。

41、进一步的，所述生成多个中间背景图像，还包括：

42、关联存储视频图像的光流方向及其对应的中间背景图像的特征数值；

43、基于所述光流估算算法获取光流方向，调整当前帧视频图像对应的中间背景图像的特征数值。

44、通过上述技术方案，当视频图像中的目标图像在不同方向运动时，中间背景图像的特征数值，如亮度、对比度等参数会随之发生变化，由此将用户的视线聚焦到目标图像上，从用户主观观感上降低中间背景图像与目标图像之间的割裂感，提升视频背景的处理效果。

45、一种离线视频背景处理系统，包括：

46、存储单元，配置为用于存储待处理的离线视频数据、目标背景图像数据；

47、视频采样单元，配置为用于获取离线视频并对其按设定规则采样，得到若干帧视频图像；

48、概率统计单元，配置为自若干帧所述视频图像中识别目标图像并统计所述目标图像在视频图像中各位置出现的概率；

49、中间背景图像生成单元，配置为基于目标图像于视频图像中的位置概率分布，于视频图像中生成多个不同大小的保留区域，选取形状大小与视频图像相同的目标背景图像并逐次抠除不同大小的保留区域，分别生成多个中间背景图像；

50、视频背景处理单元，配置为以采样时间为基准将所述离线视频分为多段子视频段，分别调取各子视频段对应的采样视频图像所关联的中间背景图像，利用上述中间背景图像覆盖所述子视频段内各帧视频图像，完成离线视频的背景处理；

51、其中，所述视频采样单元包括：

52、基础采样子单元，配置为根据设定时间间隔对离线视频进行一次采样，获取若干帧初始视频图像；

53、特征点标记子单元，配置为用于自所述若干帧初始视频图像中识别目标图像并标记目标图像中的至少一个特征点；

54、第一补充采样子单元，配置为用于检测相邻两帧视频图像中同一特征点的位置坐标差值，和/或相邻的至少三帧视频图像中特征点的运动轨迹，并基于对上述差值或运动轨迹的判断确定是否补充采样，并将补充采样获取的视频图像输出至视频背景处理单元。

55、进一步的，所述离线视频数据包括音频数据及视频数据，所述存储单元还存储有各音频频谱形态数据及其对应的声源动作数据；

56、所述系统还包括：

57、声源动作判定子单元，配置为获取离线视频并解析得到对应的声源音频频谱，识别并输出所述音频频谱中表征声源运动的频谱形态及其对应的运动时间；

58、第二补充采样子单元，配置为根据所述运动时间对离线视频进行二次采样，获取若干帧补充视频图像，并将补充视频图像输出至所述视频背景处理单元；

59、所述中间背景图像生成单元，包括：

60、目标图像运动趋势判定子单元，配置为获取相邻两帧视频图像并基于光流估算算法，判定并生成视频图像中目标图像的运动趋势函数；

61、修正值生成单元，配置为基于上述运动趋势函数及采样时间间隔，计算获取所述保留区域在相邻两帧视频图像间各帧非采样视频图像中的修正值；

62、中间背景图像修正子单元，配置为通过所述修正值调整所述保留区域的形状大小，并自各帧非采样视频图像中抠除其对应的保留区域，生成多个所述中间背景图像。

63、一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如前所述的离线视频背景处理方法的步骤。

64、与现有技术相比，本发明的有益效果如下：

65、（1）通过设定规则对离线视频进行采样获取到若干帧视频图像，快速确定离线视频各时段内目标图像在视频图像中的位置，并由此计算出离线视频各时段内所需的背景图像轮廓，而后利用上述具备特定轮廓的背景图像覆盖对应时段离线视频所含的所有视频帧图像，即可完成离线视频的背景替换或虚化，整个实施过程无需对所有帧的视频图像加以处理，可以有效提升视频处理效率；

66、（2）处理过程无需对各帧图像中的目标图像做精确的识别，也无需生成大量的精确的背景图像轮廓，由此可以大大缩短离线视频背景处理的时间，同时降低视频背景处理系统所需的硬件配置；

67、（3）通过调整采样率或保留区域的层级数量，用户可以获取到不同精度的背景处理效果，灵活适用于不同的硬件配置。