技术新讯 > 计算推算,计数设备的制造及其应用技术 > 用于位姿识别的训练样本的生成方法及相关装置与流程 > 正文

用于位姿识别的训练样本的生成方法及相关装置与流程

国知局
2024-09-14 14:50:06

所属的技术人员能够理解，本技术的各个方面可以实现为系统、方法或程序产品。因此，本技术的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。与上述方法实施例基于同一发明构思，本技术实施例中还提供了一种计算机设备。在一种实施例中，该计算机设备可以是服务器，如图1所示的服务器130。在该实施例中，计算机设备500的结构如图5所示，可以至少包括存储器501、通讯模块503，以及至少一个处理器502。存储器501，用于存储处理器502执行的计算机程序。存储器501可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统，以及运行即时通讯功能所需的程序等；存储数据区可存储各种即时通讯信息和操作指令集等。存储器501可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，ram)；存储器501也可以是非易失性存储器(non-volatilememory)，例如只读存储器，快闪存储器(flash memory)，硬盘(hard disk drive，hdd)或固态硬盘(solid-state drive，ssd)；或者存储器501是能够用于携带或存储具有指令或数据结构形式的期望的计算机程序并能够由计算机存取的任何其他介质，但不限于此。存储器501可以是上述存储器的组合。处理器502，可以包括一帧或多帧中央处理单元(central processing unit，cpu)或者为数字处理单元等等。处理器502，用于调用存储器501中存储的计算机程序时实现上述用于位姿识别的训练样本的生成方法。通讯模块503用于与终端设备和其他服务器进行通信。本技术实施例中不限定上述存储器501、通讯模块503和处理器502之间的具体连接介质。本技术实施例在图5中以存储器501和处理器502之间通过总线504连接，总线504在图5中以粗线描述，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线504可以分为地址总线、数据总线、控制总线等。为便于描述，图5中仅用一条粗线描述，但并不描述仅有一根总线或一种类型的总线。存储器501中存储有计算机存储介质，计算机存储介质中存储有计算机可执行指令，计算机可执行指令用于实现本技术实施例的用于位姿识别的训练样本的生成方法。处理器502用于执行上述的用于位姿识别的训练样本的生成方法，如图2a所示。在一些可能的实施方式中，本技术提供的用于位姿识别的训练样本的生成方法的各个方面还可以实现为一种程序产品的形式，其包括计算机程序，当程序产品在计算机设备上运行时，计算机程序用于使计算机设备执行本说明书上述描述的根据本技术各种示例性实施方式的用于位姿识别的训练样本的生成方法中的步骤，例如，计算机设备可以执行如图2a中所示的步骤。程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体地例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。本技术的实施方式的程序产品可以采用便携式紧凑盘只读存储器(cd-rom)并包括计算机程序，并可以在电子设备上运行。然而，本技术的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被命令执行系统、装置或者器件使用或者与其结合使用。可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读计算机程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。可读介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于无线、有线、光缆、rf等等，或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本技术操作的计算机程序，程序设计语言包括面向对象的程序设计语言—诸如java、c++等，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。计算机程序可以完全地在用户计算机设备上执行、部分地在用户计算机设备上执行、作为一个独立的软件包执行、部分在用户计算机设备上部分在远程计算机设备上执行、或者完全在远程计算机设备上执行。在涉及远程计算机设备的情形中，远程计算机设备可以通过任意种类的网络包括局域网(lan)或广域网(wan)连接到用户计算机设备，或者，可以连接到外部计算机设备(例如利用因特网服务提供商来通过因特网连接)。应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本技术的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。此外，尽管在附图中以特定顺序描述了本技术方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。本领域内的技术人员应明白，本技术的实施例可提供为方法、系统、或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用计算机程序的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序命令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序命令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的命令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序命令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的命令产生包括命令装置的制造品，该命令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序命令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的命令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。尽管已描述了本技术的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本技术范围的所有变更和修改。显然，本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样，倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内，则本技术也意图包含这些改动和变型在内。

背景技术：

1、近年来，随着信息技术的发展与智能科技的普及，人工智能等技术也在飞速发展，其中，位姿识别技术已经在计算机视觉的相关领域中得到了广泛应用。例如，使用基于深度学习的位姿识别模型，对摄像头采集的待识别图像进行人体位姿识别，得到待识别图像中每位检测对象的位姿识别结果。

2、在训练阶段，常使用基于人工标注或游戏引擎渲染得到的训练样本，对位姿识别模型进行识别。

3、但是，人工标注的训练样本是由标注对象人为主观地标注得到的，带有较大的主观随意性与盲目性，每个人为同一张图像标注的关键点也会有所不同。因此，使用人工标注的训练样本训练得到的模型，在进行位姿识别时也具有一定倾向性，不够客观，降低模型的识别准确率。

4、其次，由于游戏引擎渲染得到的渲染图像，在皮肤纹理、光照变化与背景环境等多个方面，均与真实环境下采集的真实图像之间存在明显差异，导致使用渲染图像训练得到的模型出现过拟合，在识别真实图像时，模型表现欠佳，难以落地应用在实际场景中。

5、有鉴于此，需要提供一种新的用于位姿识别的训练样本的生成方法，以克服上述缺陷。

技术实现思路

1、本技术实施例提供了一种用于位姿识别的训练样本的生成方法及相关装置，以解决如何生成高质量位姿训练样本的问题。

2、第一方面，本技术实施例提供了一种x用于位姿识别的训练样本的生成方法，包括：

3、分别获取固定连接的两个识别设备，各自针对同一目标对象进行位姿识别得到的识别图像集，所述识别图像集包括：针对指定位姿识别生成的第一识别图像，以及针对动态位姿识别生成的第二识别图像，所述动态位姿为所述目标对象的任意位姿；

4、分别对获得的两个识别图像集进行多次图像读取；每次读取时，获得目标拍摄时间同步且来自不同识别设备的一个第一识别图像集，以及获得目标拍摄时间同步且来自不同识别设备的一个第二识别图像集，并基于所述一个第一识别图像集与所述一个第二识别图像集，获得所述两个识别设备之间的目标映射关系；

5、基于获得的各目标映射关系，对通过选定的一个识别设备获得的各第二识别图像进行映射，获得映射图像集，并将所述映射图像集结合通过另一识别设备采集的位姿图像集，作为用于位姿识别的训练样本集，所述位姿图像是由所述另一识别设备拍摄所述目标对象的动态位姿得到的。

6、第二方面，本技术实施例还提供了一种用于位姿识别的训练样本的生成装置，包括：

7、图像接收单元，用于分别获取固定连接的两个识别设备，各自针对同一目标对象进行位姿识别得到的识别图像集，所述识别图像集包括：针对指定位姿识别生成的第一识别图像，以及针对动态位姿识别生成的第二识别图像，所述动态位姿为所述目标对象的任意位姿；

8、图像映射单元，用于分别对获得的两个识别图像集进行多次图像读取；每次读取时，获得目标拍摄时间同步且来自不同识别设备的一个第一识别图像集，以及获得目标拍摄时间同步且来自不同识别设备的一个第二识别图像集，并基于所述一个第一识别图像集与所述一个第二识别图像集，获得所述两个识别设备之间的目标映射关系；

9、样本生成单元，用于基于获得的各目标映射关系，对通过选定的一个识别设备获得的各第二识别图像进行映射，获得映射图像集，并将所述映射图像集结合通过另一识别设备采集的位姿图像集，作为用于位姿识别的训练样本集，所述位姿图像是由所述另一识别设备拍摄所述目标对象的动态位姿得到的。

10、可选的，在对所述两个识别图像集进行时间同步之后，所述训练样本的生成装置还包括图像筛选单元，所述图像筛选单元用于：

11、分别对目标拍摄时间同步且来自不同识别设备的两帧第一识别图像进行筛选，删除识别位姿不同的两帧第一识别图像。

12、可选的，所述图像筛选单元用于：

13、将所述两个识别图像集中目标拍摄时间同步，且来自不同识别设备的两帧第一识别图像，作为一个第一识别图像组；

14、针对获得的各第一识别图像组，分别执行以下操作：对一个第一识别图像组包含的两帧第一识别图像进行位姿匹配，若匹配失败，则在所述两个识别图像集中删除所述两帧第一识别图像。

15、第三方面，本技术实施例还提供了一种计算机设备，包括处理器和存储器，其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行上述任意一种用于位姿识别的训练样本的生成方法的步骤。

16、第四方面，本技术实施例还提供了一种计算机可读存储介质，其包括程序代码，当程序产品在计算机设备上运行时，所述程序代码用于使所述计算机设备执行上述任意一种用于位姿识别的训练样本的生成方法的步骤。

17、第五方面，本技术实施例还提供了一种计算机程序产品，包括计算机指令，计算机指令被处理器执行上述任意一种用于位姿识别的训练样本的生成方法的步骤。

18、本技术有益效果如下：

19、本技术实施例提供了一种用于位姿识别的训练样本的生成方法、装置、设备及存储介质，该方法包括：通过获取固定连接的两个识别设备之间的目标映射关系，对其中一个识别设备得到的各第二识别图像进行映射，得到相应的映射图像集，并将映射图像集与该设备在应用场景中实际采集的位姿图像集作为训练样本集。相较于人工标注的训练样本集，本技术得到的训练样本集避免了人工标注带来的问题，标注精准度有所提升，有利于提升模型性能；相较于游戏引擎渲染的渲染图像，本技术训练样本中的位姿图像源自应用场景的真实采集数据，更加还原目标对象的实际位姿情况，因此，使用本技术生成的训练样本集训练位姿识别模型，该模型在识别真实位姿图像时，模型表现优于使用渲染图像训练得到的模型。此外，本技术实施例提出的训练样本生成方法，操作简单，使用成本低，也很适合在短时间内生成大量用于位姿识别的训练样本。

20、本技术的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本技术而了解。本技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。