技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于单目标跟踪的半自动化视频图像标注方法及系统 > 正文

一种基于单目标跟踪的半自动化视频图像标注方法及系统

国知局
2024-08-05 11:36:35

本发明涉及视频图像标注，尤其涉及一种基于单目标跟踪的半自动化视频图像标注方法及系统。

背景技术：

1、随着多媒体技术和计算机技术的飞速发展，视频信息已成为一种重要的资源。然而，在视频中迅速且准确地标注所需信息仍是一个关键问题。目前，视频标注可用于计算机视觉方面的深度学习数据集制作，也为视频信息提取研究提供便利。然而，现有的图像或视频标注工具（如labelme、labelimg、yolo_mark、sloth、vott等）通常采用人工逐帧标注的方式，既费时费力，又难以确保准确性和规范性。人工标注存在诸多问题，如错误标注、信息不完整、标注形式不规范等，因此迫切需要更便捷、准确的标注方法。鉴于视频具有连续性，标注也呈现出一定的连续性。目标跟踪算法可追踪连续运动的目标，确定其整体运动路线，并获取每一帧中目标的位置。将目标跟踪与标注相结合，可在人工参与的情况下显著改善视频标注，将传统的人工标注方式转变为半自动化。选择适用于实际应用场景的目标跟踪算法，并对其进行优化，以提高准确性并尽可能保持跟踪速度在可接受范围内。根据跟踪算法的结果，对目标进行定位和标记，从而提高标注速度和准确性。为了更好地进行目标标注，需要在视频的起始帧中，人工指定目标并提供标注信息，而后跟踪算法将利用这些指定目标进行特征提取和跟踪。尽管如此，现有半自动化标注方法仍面临人力依赖重、算法适应性有限、标注质量参差不齐及标准不统一等难题，特别是在复杂场景下，手动介入的时间成本高，跟踪算法在多变环境下易出错，且缺乏有效机制保障标注质量的一致性。

技术实现思路

1、为了解决上述技术问题，本发明的目的是提供一种基于单目标跟踪的半自动化视频图像标注方法及系统，能够实时对视频帧图像跟踪结果进行修正跟踪偏移，确保视频帧图像标注的连续性，提高了视频帧图像的标注效率以及准确率。

2、本发明所采用的第一技术方案是：一种基于单目标跟踪的半自动化视频图像标注方法，包括以下步骤：

3、构建视频帧图像数据集；

4、通过artrack单目标跟踪算法对视频帧图像数据集进行跟踪处理，得到视频帧图像跟踪结果；

5、根据预设误差范围，对视频帧图像跟踪结果进行修改标注处理，得到视频帧图像标注结果。

6、进一步，所述构建视频帧图像数据集这一步骤，其具体包括：

7、获取视频帧序列；

8、对视频帧序列进行遍历并搜索对应的ground_truth.txt文件；

9、若搜索不存在ground_truth.txt文件，则创建空ground_truth.txt文件并将视频帧序列进行读入处理，得到具有断点保存的视频帧序列；

10、建立json文件并将具有断点保存的视频帧序列进行导入，构建视频帧图像数据集。

11、进一步，所述通过artrack单目标跟踪算法对视频帧图像数据集进行跟踪处理，得到视频帧图像跟踪结果这一步骤，其具体包括：

12、创建opencv窗口，并对视频帧图像数据集进行升序排序处理，得到排序后的视频帧图像数据集；

13、基于opencv窗口，读入排序后的视频帧图像数据集中的第一个视频序列中的第一帧图片，并检测对应的ground_truth.txt文件；

14、若检测到ground_truth.txt文件为空，则对对应的视频序列中的图片进行修改标注，若检测到ground_truth.txt文件非空，完成对对应的视频序列中的图片的跟踪；

15、直至完成所有视频帧图像数据集的检测，输出视频帧图像跟踪结果。

16、进一步，所述根据预设误差范围，对视频帧图像跟踪结果进行修改标注处理，得到视频帧图像标注结果这一步骤，其具体包括：

17、设置预设误差范围；

18、若视频帧图像跟踪结果不满足预设误差范围，则对视频帧图像跟踪结果进行修改标注处理，直至视频帧图像跟踪结果满足预设误差范围；

19、若视频帧图像跟踪结果满足预设误差范围，输出视频帧图像标注结果。

20、进一步，所述对视频帧图像跟踪结果进行修改标注处理这一步骤，其具体包括：

21、对视频帧图像跟踪结果进行修改标注处理，其中，所述修改标注处理包括斜角模式、中心模式和四边模式；

22、所述斜角模式的修改标注过程为：

23、确定视频帧图像跟踪结果的边界框的四个方位点为待修改边界框起点，所述四个方位点包括边界框左上方位点、边界框左下方位点、边界框右上方位点和边界框右下方位点；

24、对视频帧图像跟踪结果的边界框进行移动处理，并计算移动过程中边界框左上方位点的横纵坐标以及边界框宽高；

25、当边界框左上方位点的横纵坐标以及边界框宽高满足预设误差范围，将边界框左上方位点的横纵坐标以及边界框宽高写入对应的ground_truth.txt文件；

26、所述中心模式的修改标注过程为：

27、确定视频帧图像跟踪结果的边界框的中心方位点为待修改边界框起点；

28、对视频帧图像跟踪结果的边界框进行移动处理，并改变边界框左上方位点的横纵坐标，直至边界框左上方位点的横纵坐标满足预设误差范围，将边界框左上方位点的横纵坐标以及边界框宽高写入对应的ground_truth.txt文件；

29、所述四边模式的修改标注过程为：

30、确定视频帧图像跟踪结果的边界框的四个线框，所述四个线框包括左侧线框、右侧线框、上侧线框与下侧线框；

31、选择左侧线框并进行移动处理，并将左侧线框的原横坐标更新为移动后的左侧线框的横坐标；

32、获取左侧线框的原横坐标与左侧线框的原边界宽度的相加结果，计算相加结果与移动后的左侧线框的横坐标之差，作为移动后的左侧线框的宽度；

33、选择右侧线框并进行移动处理，获取右侧线框移动后的横坐标，计算右侧线框移动后的横坐标与右侧线框的原横坐标之差，作为移动后的右侧线框的宽度；

34、选择上侧线框并进行移动处理，并将上侧线框的原横坐标更新为移动后的上侧线框的横坐标；

35、获取上侧线框的原横坐标与上侧线框的原边界宽度的相加结果，计算相加结果与移动后的上侧线框的横坐标之差，作为移动后的上侧线框的宽度；

36、选择下侧线框并进行移动处理，获取下侧线框移动后的横坐标，计算下侧线框移动后的横坐标与下侧线框的原横坐标之差，作为移动后的下侧线框的宽度；

37、直至移动后的左侧线框的宽度、移动后的右侧线框的宽度、移动后的上侧线框的宽度和移动后的下侧线框的宽度满足预设误差范围，将移动后的左侧线框的宽度、移动后的右侧线框的宽度、移动后的上侧线框的宽度和移动后的下侧线框的宽度写入对应的ground_truth.txt文件。

38、进一步，还包括结合视频帧图像标注结果与视频帧图像跟踪结果更新修改标注处理的过程参数。

39、本发明所采用的第二技术方案是：一种基于单目标跟踪的半自动化视频图像标注系统，包括：

40、构建模块，用于构建视频帧图像数据集；

41、跟踪模块，用于通过artrack单目标跟踪算法对视频帧图像数据集进行跟踪处理，得到视频帧图像跟踪结果；

42、标注模块，用于根据预设误差范围，对视频帧图像跟踪结果进行修改标注处理，得到视频帧图像标注结果。

43、本发明方法及系统的有益效果是：本发明通过构建视频帧图像数据集，并通过artrack单目标跟踪算法对视频帧图像数据集进行跟踪处理，能够提高视频帧图像数据集的稳定性以及平衡性，进一步降低人工后续处理的时间长度，最后通过对视频帧图像跟踪结果进行修改标注处理，能够实时对视频帧图像跟踪结果进行修正跟踪偏移，确保视频帧图像标注的连续性，提高了视频帧图像的标注效率以及准确率。