技术新讯 > 计算推算,计数设备的制造及其应用技术 > 模型训练方法、视频定位方法、系统、设备、产品及介质与流程 > 正文

模型训练方法、视频定位方法、系统、设备、产品及介质与流程

国知局
2024-07-31 23:10:25

本发明涉及视频定位领域，特别涉及一种模型训练方法、视频定位方法、系统、设备、产品及介质。

背景技术：

1、在传统的avel（audio-visual event localization，视听事件定位）方法中，定位事件往往只依赖于当前分析的视觉片段，而忽略了这些片段与其相邻、相隔或同属于同一视频的其他片段之间的关系和上下文信息。

2、具体来说，事件通常会在时间和空间上延续或变化，只分析单个片段的特征信息，忽略了与相邻片段或同一视频中其他片段的关联，会限制对事件发生时间和过程的完整理解，导致无法获取事件在整个视频序列中的上下文信息，进而导致事件定位的准确性下降。

技术实现思路

1、本发明的目的是提供一种模型训练方法、视频定位方法、系统、设备、产品及介质，通过引入拓展片段，更全面地考虑事件在时间和空间上的延续性，有效地避免了局部信息的限制，使得模型能够更全面地理解和分析视频中的事件，提升了事件定位的精度和鲁棒性。

2、为解决上述技术问题，本发明提供了一种模型训练方法，包括：

3、获取训练视频数据，所述训练视频数据包括多个视频片段，每个所述视频片段包括视觉片段和多个音频片段；

4、根据每个所述视觉片段的起始时间和结束时间确定每个所述视觉片段对应的视觉拓展片段，所述视觉拓展片段包括所述视觉片段且所述视觉拓展片段的时间长度大于所述视觉片段的时间长度；

5、根据每个所述音频片段的起始时间和结束时间确定每个所述音频片段对应的音频拓展片段，所述音频拓展片段包括所述音频片段且所述音频拓展片段的时间长度大于所述音频片段的时间长度；

6、根据所述视觉拓展片段和所述音频拓展片段优化视频定位模型，得到目标视频定位模型，所述目标视频定位模型用于对待处理视频数据进行类别标签定位。

7、其中，获取训练视频数据之后，还包括：

8、根据所有所述视觉片段确定第一候选集，根据所有所述音频片段确定第二候选集；

9、根据每个所述视觉片段的起始时间和结束时间确定每个所述视觉片段对应的视觉拓展片段，包括：

10、根据每个所述视觉片段的起始时间和结束时间从所述第一候选集中确定每个所述视觉片段对应的视觉拓展片段；

11、根据每个所述音频片段的起始时间和结束时间确定每个所述音频片段对应的音频拓展片段，包括：

12、根据每个所述音频片段的起始时间和结束时间从所述第二候选集中确定每个所述音频片段对应的音频拓展片段。

13、其中，根据所有所述视觉片段确定第一候选集，根据所有所述音频片段确定第二候选集，包括：

14、对于每个子片段，确定所述子片段属于事件片段还是背景片段，所述子片段为所述视觉片段或所述音频片段；

15、对所有所述事件片段和/或所述背景片段进行整合或删除，得到第j候选集；

16、其中，所述子片段为所述视觉片段时，j为一；所述子片段为所述音频片段时，j为二。

17、其中，对于每个子片段，确定所述子片段属于事件片段还是背景片段，包括：

18、获取每个所述子片段对应的子特征，所述子特征为视觉特征或音频特征；

19、根据视频引导类别标签和每个所述子特征，使用类别无关的注意力分支，计算每个所述子特征的注意力值，得到注意力序列；所述注意力序列表征每个所述子片段与所述视频引导类别标签无关的程度；

20、将每个所述子特征的注意力值与预设阈值比较；

21、确定所述子特征的注意力值小于所述预设阈值的子片段属于所述背景片段；

22、确定所述子特征的注意力值不小于所述预设阈值的子片段属于所述事件片段。

23、其中，对所有所述事件片段和/或所述背景片段进行整合或删除，得到第j候选集，包括：

24、设定时间长度阈值；

25、判断所有所述事件片段中是否存在连续若干个所述事件片段的时间长度均小于所述时间长度阈值；

26、若是，则将时间长度均小于所述时间长度阈值的连续若干个所述事件片段进行整合；

27、将整合后的事件片段、其它时间长度不小于所述时间长度阈值的事件片段及所述背景片段的集合作为所述第j候选集。

28、其中，对于每个子片段，确定所述子片段属于事件片段还是背景片段之后，还包括：

29、将每个所述子片段输入至初始分类模型中，得到所述初始分类模型输出的对每个所述子片段的第一预测类别标签；

30、根据所述第一预测类别标签和视频引导类别标签对所述初始分类模型的模型参数进行优化，得到目标分类模型；

31、对所有所述事件片段和/或所述背景片段进行整合或删除，得到第j候选集，包括：

32、将所有所述事件片段和/或所述背景片段输入至所述目标分类模型，得到每个所述事件片段和/或所述背景片段的第二预测类别标签；

33、根据所述第二预测类别标签对所有所述事件片段和/或所述背景片段进行整合或删除，得到所述第j候选集。

34、其中，将每个所述子片段输入至初始分类模型中，得到所述初始分类模型输出的对每个所述子片段的第一预测类别标签，包括：

35、获取每个所述子片段对应的子特征，所述子特征为视觉特征或音频特征；

36、根据视频引导类别标签和每个所述子特征，使用类别无关的注意力分支，计算每个所述子特征的注意力值，得到注意力序列；所述注意力序列表征每个所述子片段与所述视频引导类别标签无关的程度；

37、基于所述视频引导类别标签和每个所述子片段，通过类别相关的分支计算所述子特征对应的类别激活片段，所述类别激活片段表征所述子片段与所述视频引导类别标签的相关性；

38、根据所述注意力序列和所述类别激活片段确定类别抑制片段；

39、根据所述类别激活片段和所述类别抑制片段通过分类层确定每个所述子片段的类别标签概率。

40、其中，根据所述注意力序列和所述类别激活片段确定类别抑制片段，包括：

41、将所述注意力序列和所述类别激活片段相乘，得到所述类别抑制片段。

42、其中，根据所述注意力序列和所述类别激活片段确定类别抑制片段之后，还包括：

43、对所述类别激活片段中的各个激活值进行排序，选取激活值较大的k个激活值，得到目标类别激活片段；

44、对所述类别抑制片段中的各个抑制值进行排序，选取抑制值较大的k个抑制值，得到目标类别抑制片段；

45、根据所述类别激活片段和所述类别抑制片段通过分类层确定每个所述子片段的类别标签概率，包括：

46、根据所述目标类别激活片段和所述目标类别抑制片段通过分类层确定每个所述子片段的类别标签概率。

47、其中，根据所述第一预测类别标签和视频引导类别标签对所述初始分类模型的模型参数进行优化，得到目标分类模型，包括：

48、根据各个所述子片段的第一预测类别标签和所述视频引导类别标签构建第一损失函数；

49、根据所述第一损失函数对所述初始分类模型的参数进行优化，得到所述目标分类模型。

50、其中，所述第一损失函数的表达式为：

51、；

52、其中，为所述第一损失函数，c为所述事件片段的个数，c为不大于c+1的整数，为所述类别激活片段对应的视频引导类别标签，为所述类别激活片段对应的第一预测类别标签，为所述类别抑制片段对应的视频引导类别标签，为所述类别激活片段对应的第一预测类别标签。

53、其中，根据所述视觉拓展片段和所述音频拓展片段优化视频定位模型，得到目标视频定位模型，包括：

54、根据所述视觉拓展片段和所述音频拓展片段优化视频定位模型的过程中，判断是否满足预设迭代结束条件；

55、若满足，则将满足所述预设迭代结束条件的视频定位模型确定为所述目标视频定位模型；

56、若不满足，则重新进入基于所述视频引导类别标签和每个所述子片段，通过类别相关的分支计算所述子特征对应的类别激活片段的步骤。

57、其中，根据每个所述视觉片段的起始时间和结束时间确定每个所述视觉片段对应的视觉拓展片段，或，根据每个所述音频片段的起始时间和结束时间确定每个所述音频片段对应的音频拓展片段，包括：

58、将每个子片段的起始时间向前拓展，得到起始拓展时间；

59、将每个所述子片段的结束时间向后拓展，得到结束拓展时间；

60、根据所述起始拓展时间和所述结束拓展时间确定子拓展片段；

61、其中，所述子片段为所述视觉片段时，所述子拓展片段为所述视觉拓展片段；所述子片段为所述音频片段时，所述子拓展片段为所述音频拓展片段。

62、其中，根据所述视觉拓展片段和所述音频拓展片段优化视频定位模型，得到目标视频定位模型，包括：

63、获取所有所述视觉拓展片段的第一特征，得到第一特征序列；

64、获取所有所述音频拓展片段的第二特征，得到第二特征序列；

65、将所述第一特征序列和所述第二特征序列进行融合，得到融合视觉特征序列和融合音频特征序列；

66、将所述融合视觉特征序列和所述融合音频特征序列输入至所述视频定位模型，得到第二预测类别标签；

67、根据所述第二预测类别标签和视频引导类别标签计算第二损失函数；

68、根据所述第二损失函数对所述视频定位模型的参数进行优化，将满足预设优化条件的视频定位模型确定为所述目标视频定位模型。

69、其中，将所述第一特征序列和所述第二特征序列进行融合，得到融合视觉特征序列和融合音频特征序列，包括：

70、根据所述第一特征序列和所述第二特征序列对所述第一特征序列进行自注意力机制计算及跨模态注意力机制计算，得到所述融合视觉特征序列；

71、根据所述第一特征序列和所述第二特征序列对所述第二特征序列进行自注意力机制计算及跨模态注意力机制计算，得到所述融合音频特征序列。

72、其中，将所述第一特征序列和所述第二特征序列进行融合，得到融合视觉特征序列和融合音频特征序列，包括：

73、根据预设公式将所述第一特征序列和所述第二特征序列进行融合，得到融合视觉特征序列和融合音频特征序列；

74、所述预设公式为：；

75、其中，为所述第一特征序列中的第i个特征，为所述第二特征序列中的第i个特征， f v为所述第一特征序列， f a为所述第二特征序列， t为视频片段的个数，i为不大于t的整数，，， g sa为自注意力函数， g ca为跨模态注意力函数，为所述融合视觉特征序列，为所述融合音频特征序列，d为缩放因子，softmax为softmax函数，为第一权重，为第二权重，为 f a的转置矩阵。

76、为解决上述技术问题，本发明提供了一种视频定位方法，包括：

77、待处理数据获取单元，获取待处理视频数据，所述待处理视频数据至少包括待处理视频片段和待处理音频片段；

78、标签定位单元，用于将所述待处理视频数据输入至目标视频定位模型中，得到所述待处理视频数据的类别标签；

79、所述目标视频定位模型根据上述所述的模型训练方法得到。

80、为解决上述技术问题，本发明提供了一种模型训练系统，包括：

81、获取单元，用于获取训练视频数据，所述训练视频数据包括多个视频片段，每个所述视频片段包括视觉片段和多个音频片段；

82、视觉拓展单元，用于根据每个所述视觉片段的起始时间和结束时间确定每个所述视觉片段对应的视觉拓展片段，所述视觉拓展片段包括所述视觉片段且所述视觉拓展片段的时间长度大于所述视觉片段的时间长度；

83、音频拓展单元，用于根据每个所述音频片段的起始时间和结束时间确定每个所述音频片段对应的音频拓展片段，所述音频拓展片段包括所述音频片段且所述音频拓展片段的时间长度大于所述音频片段的时间长度；

84、模型优化单元，用于根据所述视觉拓展片段和所述音频拓展片段优化视频定位模型，得到目标视频定位模型，所述目标视频定位模型用于对待处理视频数据进行类别标签定位。

85、为解决上述技术问题，本发明提供了一种电子设备，包括：

86、存储器，用于存储计算机程序；

87、处理器，用于在存储计算机程序时，实现上述所述的模型训练方法的步骤或上述所述的视频定位方法的步骤。

88、为解决上述技术问题，本发明提供了一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现上述所述的模型训练方法的步骤或上述所述的视频定位方法的步骤。

89、为解决上述技术问题，本发明提供了一种非易失性存储介质，所述非易失性存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述所述的模型训练方法的步骤或上述所述的视频定位方法的步骤。

90、本技术提供了一种模型训练方法、视频定位方法、系统、设备、产品及介质，涉及视频定位领域，用于解决传统方法中因忽略上下文信息而导致的事件定位准确性不足的问题。该方案通过获取训练视频数据，根据每个视觉片段和音频片段的起始时间和结束时间确定视觉拓展片段和音频拓展片段，并根据视觉拓展片段和音频拓展片段优化视频定位模型，得到目标视频定位模型；将待处理视频数据输入至目标视频定位模型中，得到待处理视频数据的定位标签。通过引入拓展片段，更全面地考虑事件在时间和空间上的延续性，有效地避免了局部信息的限制，使得模型能够更全面地理解和分析视频中的事件，提升了事件定位的精度和鲁棒性。