技术新讯 > 计算推算,计数设备的制造及其应用技术 > 动作识别机器学习模型的协同训练的制作方法  >  正文

动作识别机器学习模型的协同训练的制作方法

  • 国知局
  • 2024-07-31 23:19:01

背景技术:

1、机器学习模型可用于处理各种类型的数据,包括图像、视频、时间序列、文本和/或点云等。机器学习模型和/或其训练过程的改进可允许模型更快地执行数据处理和/或将更少计算资源用于处理,以及其他益处。

技术实现思路

1、动作识别模型可被配置为确定视频的分类。为了生成视频的一般性任务无关表示,可使用多个不同训练数据集来训练动作识别模型的至少一些组件。训练数据集可包括例如多个不同视频数据集,以及/或者至少一个视频数据集和图像数据集。使用多个不同视频数据集可改进对多个不同任务有用的时间表示的学习,而与图像数据集结合使用视频数据集可改进对多个不同任务有用的稳健空间表示的学习和/或维护,以及其他益处。

2、在第一示例实施方案中,一种方法可包括获得多个视频数据集,每个视频数据集包括多对(i)训练视频和(ii)训练视频的对应基准真实动作分类。该方法还可包括生成包括共享编码器模型和多个动作分类头的动作识别模型。多个动作分类头的数量可等于多个视频数据集的数量。多个动作分类头中的每个相应动作分类头可被配置为基于共享编码器模型的输出对从多个视频数据集中的对应视频数据集采样的训练视频进行分类。该方法可另外包括由动作识别模型针对从多个视频数据集采样的多个训练视频中的每个相应训练视频确定对应推断动作分类。该方法可进一步包括基于多个训练视频中的每个相应训练视频的对应推断动作分类和对应基准真实动作分类来确定损失值,以及基于损失值来调整动作识别模型的一个或多个参数。

3、在第二示例实施方案中,一种方法可包括获得输入视频,以及由动作识别模型基于输入视频来确定输入视频的第一动作分类。动作识别模型可包括共享编码器模型并且可能已经使用多个动作分类头进行训练。用于训练动作识别模型的多个动作分类头的数量可等于用于训练动作识别模型的多个视频数据集的数量。多个动作分类头中的每个相应动作分类头可被配置为基于共享编码器模型的输出对从多个视频数据集中的对应视频数据集采样的训练视频进行分类。该方法还可包括输出第一动作分类。

4、在第三示例实施方案中,一种系统可包括处理器和其上存储有指令的非暂时性计算机可读介质,这些指令在由处理器执行时使处理器执行根据第一示例实施方案和/或第二示例实施方案的操作。

5、在第四示例实施方案中,一种非暂时性计算机可读介质可在其上存储有指令,这些指令在由计算装置执行时使计算装置执行根据第一示例实施方案和/或第二示例实施方案的操作。

6、在第五示例实施方案中,一种系统可包括用于执行第一示例实施方案和/或第二示例实施方案的操作中的每一者的各种构件。

7、通过阅读以下具体实施方式并适当地参考附图,这些以及其他实施方案、方面、优点和另选方案对于本领域普通技术人员而言将变得显而易见。此外,该技术实现要素:以及本文提供的其他描述和附图旨在仅以举例的方式例示实施方案,因此许多变型是可能的。例如,可以重新布置、组合、分布、消除或以其他方式改变结构元件和过程步骤,同时仍在如所要求保护的实施方案的范围内。

技术特征:

1.一种计算机实现的方法,包括:

2.如权利要求1所述的计算机实现的方法,其中所述共享编码器模型包括与输入图像数据的空间特性的处理相关联的多个空间参数和与所述输入图像数据的时间特性的处理相关联的多个时间参数。

3.如权利要求2所述的计算机实现的方法,进一步包括:

4.如权利要求2至3中任一项所述的计算机实现的方法,进一步包括:

5.如权利要求1至4中任一项所述的计算机实现的方法,其中所述共享编码器模型包括具有多个注意力块的空间-时间transformer模型,每个所述注意力块包括时间注意力层和空间注意力层。

6.如权利要求5所述的计算机实现的方法,其中所述时间注意力层被配置为生成时间键张量和时间值张量,所述时间键张量和所述时间值张量中的每一者基于不同视频帧,其中所述空间注意力层被配置为生成空间键张量和空间值张量,所述空间键张量和所述空间值张量两者基于同一视频帧,并且其中当处理单个图像时,所述时间注意力层被配置为通过基于所述单个图像生成基于图像的时间键张量和基于图像的时间值张量来将所述单个图像视为单帧视频。

7.如权利要求1至6中任一项所述的计算机实现的方法,其中从所述多个视频数据集采样的所述多个训练视频形成训练批次并且包括来自所述多个视频数据集中的每一者的至少一个训练视频。

8.如权利要求7所述的计算机实现的方法,其中从所述多个视频数据集中的每个相应视频数据集选择的样本的数量与所述相应视频数据集的大小成比例。

9.如权利要求1至7中任一项所述的计算机实现的方法,其中确定所述损失值包括:

10.如权利要求1至9中任一项所述的计算机实现的方法,其中获得所述多个视频数据集包括:

11.如权利要求10所述的计算机实现的方法,其中所述一个或多个数据集属性包括以下中的一者或多者:(i)给定视频数据集中的训练视频的对象外观偏差的程度,(ii)所述给定视频数据集中的训练视频的运动偏差的程度,或者(iii)所述给定视频数据集中的训练视频表示的类别多样性的程度。

12.如权利要求1至11中任一项所述的计算机实现的方法,进一步包括:

13.如权利要求12所述的计算机实现的方法,其中确定所述第一动作分类包括:

14.一种计算机实现的方法,包括:

15.如权利要求14所述的计算机实现的方法,其中确定所述第一动作分类包括:

16.如权利要求14至15中任一项所述的计算机实现的方法,其中所述动作识别模型已经通过训练过程进行训练,所述训练过程包括:

17.如权利要求14至16中任一项所述的计算机实现的方法,其中所述共享编码器模型包括具有多个注意力块的空间-时间transformer模型,每个所述注意力块包括时间注意力层和空间注意力层。

18.如权利要求17所述的计算机实现的方法,其中所述时间注意力层被配置为生成时间键张量和时间值张量,所述时间键张量和所述时间值张量中的每一者基于不同视频帧,其中所述空间注意力层被配置为生成空间键张量和空间值张量,所述空间键张量和所述空间值张量两者基于同一视频帧,并且其中当处理单个图像时,所述时间注意力层被配置为通过基于所述单个图像生成基于图像的时间键张量和基于图像的时间值张量来将所述单个图像视为单帧视频。

19.一种系统,包括:

20.一种其上存储有指令的非暂时性计算机可读介质,所述指令在由计算装置执行时使所述计算装置执行根据权利要求1至18中任一项所述的操作。

技术总结一种方法包括获得视频数据集,每个视频数据集包括多对训练视频和该训练视频的基准真实动作分类。该方法还包括生成包括共享编码器模型和动作分类头的动作识别模型。动作分类头的数量可等于视频数据集的数量,并且每个动作分类头可被配置为基于该共享编码器模型的输出对从对应视频数据集采样的训练视频进行分类。该方法还包括由该动作识别模型针对从视频数据集采样的每个训练视频确定推断动作分类。该方法进一步包括基于推断动作分类和基准真实动作分类来确定损失值,以及基于该损失值来调整该动作识别模型的参数。技术研发人员:B·张,J·余,C·菲弗蒂,W·韩,A·M·戴,R·庞,F·沙受保护的技术使用者:谷歌有限责任公司技术研发日:技术公布日:2024/7/29

本文地址:https://www.jishuxx.com/zhuanli/20240730/196976.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。