技术新讯 > 计算推算,计数设备的制造及其应用技术 > 人体姿态识别方法、装置、计算机设备及可读存储介质与流程 > 正文

人体姿态识别方法、装置、计算机设备及可读存储介质与流程

国知局
2024-10-09 16:02:37

本技术涉及图像识别，尤其涉及一种人体姿态识别方法、装置、计算机设备及可读存储介质。

背景技术：

1、人体姿态估计可以通过图像或视频数据来估计人体各部分的位置和姿态，可以识别人体在图像或视频中的姿势和动作，并估计和定位人体各个部位和关节的坐标，从而理解人类的行为意图。人体姿态估计不仅在学术研究中备受关注，而且在工业界也有广泛的应用，例如人机交互、增强现实、运动分析等。通过人体姿态估计，可以让机器能够更好地理解和响应人类的行为。

2、相关技术中，通过采用人体姿态识别模型，在对应的图片中识别多个人体关键点信息，并通过检测出的关节点和关节联通区域，使用贪心算法将关节点快速对应到不同人物个体中。但是，这种方法只适用于静态图像。而在动态视频中，人体可能被其他物体遮挡，或者人体运动过快导致截取的人体信息较为模糊，此时，关节点的对应关系可能会被错误建立或中断，若采用相关技术中的人体姿态识别模型进行对人体姿态进行识别，可能导致识别的准确性和稳定性下降。

技术实现思路

1、本技术实施例的主要目的在于提出一种人体姿态识别方法、装置、计算机设备及可读存储介质，能够提高对人体姿态识别的准确性和稳定性。

2、为实现上述目的，本技术实施例的第一方面提出了一种人体姿态识别方法，所述方法包括：

3、获取目标视频对应的图像帧序列，并从图像帧序列中获取当前时序的第一图像帧以及位于所述第一图像帧前序的第二图像帧、后序的第三图像帧；所述第二图像帧和所述第三图像帧基于所述第一图像帧与所述图像帧序列中的各个图像帧的均方误差确定得到；

4、将所述第一图像帧、所述第二图像帧和所述第三图像帧输入至目标模型中的初始姿态预测模块进行关键点识别，得到所述第一图像帧对应的第一热图、所述第二图像帧对应的第二热图和所述第三图像帧对应的第三热图；

5、根据所述第二图像帧和所述第三图像帧相对于所述第一图像帧的帧距离，确定所述第一热图、所述第二热图和所述第三热图之间的融合权重比例；

6、通过所述目标模型的姿态融合残差模块，基于所述融合权重比例对所述第一热图、所述第二热图和所述第三热图进行融合修正，得到第一特征张量；

7、通过所述目标模型的差分融合残差模块，确定所述第二热图相对于所述第一热图的第一差异热图以及所述第三热图相对于所述第一热图的第二差异热图，并基于所述融合权重比例对所述第一热图、所述第一差异热图和所述第二差异热图进行融合修正，得到第二特征张量；

8、根据所述第一特征张量和所述第二特征张量对所述第一热图进行修正，并基于修正后的第一热图生成人体姿态识别结果。

9、相应的，本技术实施例的第二方面提出了一种人体姿态识别装置，所述装置包括：

10、获取模块，用于获取目标视频对应的图像帧序列，并从图像帧序列中获取当前时序的第一图像帧以及位于所述第一图像帧前序的第二图像帧、后序的第三图像帧；所述第二图像帧和所述第三图像帧基于所述第一图像帧与所述图像帧序列中的各个图像帧的均方误差确定得到；

11、识别模块，用于将所述第一图像帧、所述第二图像帧和所述第三图像帧输入至目标模型中的初始姿态预测模块进行关键点识别，得到所述第一图像帧对应的第一热图、所述第二图像帧对应的第二热图和所述第三图像帧对应的第三热图；

12、确定模块，用于根据所述第二图像帧和所述第三图像帧相对于所述第一图像帧的帧距离，确定所述第一热图、所述第二热图和所述第三热图之间的融合权重比例；

13、第一修正模块，用于通过所述目标模型的姿态融合残差模块，基于所述融合权重比例对所述第一热图、所述第二热图和所述第三热图进行融合修正，得到第一特征张量；

14、第二修正模块，用于通过所述目标模型的差分融合残差模块，确定所述第二热图相对于所述第一热图的第一差异热图以及所述第三热图相对于所述第一热图的第二差异热图，并基于所述融合权重比例对所述第一热图、所述第一差异热图和所述第二差异热图进行融合修正，得到第二特征张量；

15、第一生成模块，用于根据所述第一特征张量和所述第二特征张量对所述第一热图进行修正，并基于修正后的第一热图生成人体姿态识别结果。

16、在一些实施方式中，所述获取模块，还用于：

17、从目标视频中确定至少一个目标关节点；

18、针对每个所述目标关节点，确定在所述目标视频中的任意相邻两个图像帧之间的帧间位移；

19、根据所述帧间位移，确定所述目标关节点的帧间速度；

20、基于所述帧间速度，确定所述目标视频对应的图像帧序列。

21、在一些实施方式中，所述获取模块，还用于：

22、从图像帧序列中获取当前时序的第一图像帧，并计算所述图像帧序列中各图像帧与所述第一图像帧的均方误差；

23、从所述图像帧序列中，确定位于所述第一图像帧前序的前序序列和位于所述第一图像帧后序的后序序列；

24、基于各图像帧与所述第一图像帧的均方误差，从所述前序序列中确定第二图像帧，以及从所述后序序列中确定第三图像帧。

25、在一些实施方式中，所述获取模块，还用于：

26、将所述前序序列中每个图像帧对应的均方误差按照所述前序序列中各图像帧的时间顺序进行排列，得到第一均方误差序列；

27、将所述前序序列中每个图像帧对应的均方误差进行递增排列，得到第二均方误差序列；

28、针对所述第二均方误差序列，确定位于中位数的第一目标均方误差，并确定所述第一目标均方误差在所述第一均方误差序列的位置，以根据所述第一目标均方误差在所述第一均方误差序列的位置，确定与所述第一目标均方误差对应的图像帧，并将所述图像帧作为第二图像帧；

29、将所述后序序列中每个图像帧对应的均方误差按照所述后序序列中各图像帧的时间顺序进行排列，得到第三均方误差序列；

30、将所述后序序列中每个图像帧对应的均方误差进行递增排列，得到第四均方误差序列；

31、针对所述第四均方误差序列，确定位于中位数的第二目标均方误差，并确定所述第二目标均方误差在所述第三均方误差序列的位置，以根据所述第二目标均方误差在所述第三均方误差序列的位置，确定与所述第二目标均方误差对应的图像帧，并将所述图像帧作为第三图像帧。

32、在一些实施方式中，所述第一修正模块，还用于：

33、基于所述融合权重比例，确定所述第一热图对应的第一调整权重、所述第二热图对应的第二调整权重和所述第三热图对应的第三调整权重；

34、通过所述目标模型的姿态融合残差模块，基于所述第二调整权重对所述第二热图进行调整，得到调整后的第二热图，以及基于所述第三调整权重对所述第三热图进行调整，得到调整后的第三热图；

35、将所述第一热图、第二热图和第三热图进行堆叠修正，得到第一初始特征张量；

36、对所述第一初始特征张量输入至所述目标模型的分组卷积层进行分组卷积后，输入至残差块中进行特征融合，得到第一特征张量。

37、在一些实施方式中，所述第二修正模块，还用于：

38、根据所述第二热图和所述第三热图分别与所述第一热图之间的差异值，确定所述第二热图对应的第二差异热图，以及所述第三热图对应的第三差异热图；

39、通过所述目标模型的差分融合残差模块，基于所述第二调整权重对所述第二差异热图进行调整，得到调整后的第二差异热图，以及基于所述第三调整权重对所述第三差异热图进行调整，得到调整后的第三差异热图；

40、将所述第一热图、第二差异热图和第三差异热图进行堆叠修正，得到第二初始特征张量；

41、对所述第二初始特征张量输入至所述目标模型的分组卷积层进行分组卷积后，输入至残差块中进行特征融合，得到第二特征张量。

42、在一些实施方式中，所述第一生成模块，还用于：

43、将所述第一特征张量和所述第二特征张量按照通道维度进行拼接，得到修正特征张量；

44、将所述修正特征张量输入至所述目标模型的姿态修正模块中，以对所述第一热图中的各个关键点进行修正。

45、在一些实施方式中，所述初始姿态预测模块包括第一姿态预测子模块和第二姿态预测子模块；所述识别模块，还用于：

46、将所述第一图像帧、所述第二图像帧和所述第三图像帧输入至所述第一姿态预测子模块中进行均等权重分配，并根据已进行均等权重分配的所述第一图像帧进行关键点的位置预测和各位置的概率映射，得到所述第一图像帧对应的第一热图；

47、将所述第二图像帧和所述第三图像帧依次输入至所述第二姿态预测子模块中进行关键点的定位和识别，依次得到所述第二图像帧对应的第二热图和所述第三图像帧对应的第三热图。

48、在一些实施方式中，所述识别模块，还用于：

49、将所述第二图像帧和所述第三图像帧输入至所述第一姿态预测子模块中进行特征融合，得到所述第二图像帧和所述第三图像帧的中间图像帧；

50、在所述第一姿态预测子模块中对所述中间图像帧和所述第一图像帧分配均等的权重，并根据均等分配的权重对所述中间图像帧和所述第一图像帧进行权重调整，得到新的中间图像帧和第一图像帧；

51、将所述中间图像帧和所述第一图像帧进行融合，得到新的第一图像帧，并对所述第一图像帧进行关键点的位置预测和各位置的概率映射，生成所述第一图像帧对应的第一热图。

52、在一些实施方式中，所述人体姿态识别装置还包括第二生成模块，用于：

53、分别根据所述第一图像帧、所述第二图像帧和所述第三图像帧中目标人体区域对应的内容信息，生成第一目标图像帧、第二目标图像帧和第三目标图像帧；

54、则所述将所述第一图像帧、所述第二图像帧和所述第三图像帧输入至目标模型中的初始姿态预测模块进行关键点识别，得到所述第一图像帧对应的第一热图、所述第二图像帧对应的第二热图和所述第三图像帧对应的第三热图，包括：

55、将所述第一目标图像帧、所述第二目标图像帧和所述第三目标图像帧输入至目标模型中的初始姿态预测模块进行关键点识别，得到所述第一目标图像帧对应的第一热图、所述第二目标图像帧对应的第二热图和所述第三目标图像帧对应的第三热图。

56、相应的，本技术实施例的第三方面提出了一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现本技术第一方面实施例任一项所述的人体姿态识别方法。

57、相应的，本技术实施例的第四方面提出了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本技术第一方面实施例任一项所述的人体姿态识别方法。

58、本技术实施例通过获取目标视频对应的图像帧序列，并从图像帧序列中获取当前时序的第一图像帧以及位于第一图像帧前序的第二图像帧、后序的第三图像帧；第二图像帧和第三图像帧基于第一图像帧与图像帧序列中的各个图像帧的均方误差确定得到；将第一图像帧、第二图像帧和第三图像帧输入至目标模型中的初始姿态预测模块进行关键点识别，得到第一图像帧对应的第一热图、第二图像帧对应的第二热图和第三图像帧对应的第三热图；根据第二图像帧和第三图像帧相对于第一图像帧的帧距离，确定第一热图、第二热图和第三热图之间的融合权重比例；通过目标模型的姿态融合残差模块，基于融合权重比例对第一热图、第二热图和第三热图进行融合修正，得到第一特征张量；通过目标模型的差分融合残差模块，确定第二热图相对于第一热图的第一差异热图以及第三热图相对于第一热图的第二差异热图，并基于融合权重比例对第一热图、第一差异热图和第二差异热图进行融合修正，得到第二特征张量；根据第一特征张量和第二特征张量对第一热图进行修正，并基于修正后的第一热图生成人体姿态识别结果。以此，能够在动态场景中，利用目标视频的时序信息，通过各图像帧与第一图像帧的均方误差选取具有代表性、质量较高的第二图像帧和第三图像帧，由此可以在大大减少输入目标模型的图像帧的数量，避免重复的、冗余的图像帧的干扰，从而提高了对人体姿态识别的效率和准确性。并且，本技术能够根据第二图像帧和第三图像帧相对于第一图像帧的帧距离，确定热图之间的融合权重比例，以整合第一热图、第二热图和第三热图中的信息，对识别有误的关键点进行修正；同时，能够根据差分融合残差模块，实现互补信息的融合。最后，通过姿态融合残差模块得到的第一特征张量和差分融合残差模块得到的第二特征张量，对第一热图进行修正，能够综合多方面信息对第一热图进行修正，能够进一步解决姿态模糊和姿态遮挡的问题，确保了最后输出的人体姿态识别结果的准确性和稳定性。