技术新讯 > 计算推算,计数设备的制造及其应用技术 > 用于为对象的图像确定描述符图像的方法与流程 > 正文

用于为对象的图像确定描述符图像的方法与流程

国知局
2024-10-15 09:26:09

本发明涉及用于为对象的图像确定描述符图像尤其是以控制机器人装置的方法。

背景技术：

1、为了能够实现机器人对对象的灵活的生产或处理，值得期望的是：机器人能够无视对象被放置到机器人的工作空间中的姿势地对该对象进行操作。因而，机器人旨在能够识别对象的哪些部分位于哪些位置，使得该机器人例如可以在正确部位抓取该对象，以便例如将该对象固定在其它对象上，或者将该对象焊接在当前位置。这意味着：机器人旨在能够例如从通过固定在机器人处的摄像机所拍摄的一个或多个图像中识别对象的姿态(位置和取向)或者确定用于拿起或处理的部位的位置。实现此目的的方法在于：针对对象的部分(也就是说对象的在图像平面内表示的像素)确定描述符、也就是说在预先定义的描述符空间中的点(向量)，其中，机器人被训练来不管对象的当前姿态如何给对象的相同部分分派相同的描述符并且因此识别在图像中的对象的拓扑，使得接着例如知道对象的哪个拐角在图像中处在什么位置。接着，如果已知摄像机的姿态，则进而可以推断出对象的姿态。对该拓扑的识别可以使用相对应地经过训练的机器学习模型(ml模型)来实现。

2、如果机器学习模型相对应地针对特定(第一)类别的对象来被训练，则机器学习模型为该类别的对象提供一致的描述符。然而，如果接着稍后对于不属于该类别的对象来说也需要描述符，例如原因在于机器人要处理新模型，则机器学习模型必须针对该另一(第二)类别来被训练或者也针对这两个类别的对象一起被训练，使得该机器学习模型接着可以为这两个类别的对象提供描述符。然而，针对第一类别的对象的原始训练随后会丢失，这使得可针对其生成描述符图像的对象类别的这种类型的扩展效率低下，并且也可能导致在描述符确定方面的不一致。尤其是当可针对其生成描述符图像的对象类别应该被扩展时，相对应地，值得期望的是允许为对象的图像更高效且一致地生成描述符图像的方法。

技术实现思路

1、按照各种实施方式，提供了一种用于为对象的图像确定描述符图像的方法，该方法具有：针对多个对象类别中的每个对象类别，训练相应的机器学习模型将该对象类别的对象的图像映射到描述符图像(例如分别根据相应对象的相应图像的像素值)，并且为该对象类别的一个或多个对象存储由机器学习模型输出的参考描述符；接收对象的图像；针对每个对象类别，通过借助于针对该对象类别所训练的机器学习模型将所接收到的图像映射到描述符图像，生成该对象的相应的描述符图像；针对每个对象类别，评估为该对象类别存储的参考描述符与为该对象类别生成的描述符图像的描述符的距离；而且将如下描述符图像作为对象的描述符图像分配给该对象，该描述符图像是针对为该对象类别存储的参考描述符与为该对象类别生成的描述符图像的描述符的距离被评估为最小的那个对象类别所生成的。

2、上述方法使得能够：依次针对不同的对象集合(即对象类别)训练机器学习模型(即该机器学习模型的多个相应的实例)、例如密集视觉描述符网络。这使得能够将可操作的对象扩展到添加的对象类别，而不必完全(针对所有对象类别)重新训练，即不会丢失针对一个或多个以前的对象类别的训练结果。这减少了训练工作量并且避免了描述符确定的不一致。

3、在下文说明了各种实施例。

4、实施例1是一种用于控制机器人的方法，如上所述。

5、实施例2是根据实施例1所述的方法，其中，评估这些参考描述符与该描述符图像的距离，其方式是：将这些参考描述符中的每个参考描述符分配给该描述符图像的描述符，并且对这些参考描述符与它们所分配的描述符的距离求平均(即计算(可能是加权的)平均值)。

6、参考描述符例如被分配给其最接近的描述符(在描述符空间中)，其中，在该分配的情况下，然而也可以考虑如参考(关键)点(即被映射到这些参考描述符上的点)相对于彼此的方位等附加信息。这能够实现对象到对象类别的鲁棒分配。

7、实施例3是根据实施例1或2所述的方法，其中，机器学习模型中的至少有些机器学习模型在子模型方面一致。

8、例如，这些机器学习模型可以使用相同的主干(backbone)网络。由此，减少了这些机器学习模型之一的针对新添加的对象类别的训练工作量。

9、实施例4是根据实施例3所述的方法，该方法具有：借助于包含来自所有对象类别的对象的训练数据，训练该子模型。

10、由此，确保了：针对使用该子模型的机器学习模型所训练的每个对象类别，该机器学习模型可以被训练为使得该机器学习模型对于相应对象类别来说有良好的性能。

11、实施例5是根据实施例1至4中任一项所述的方法，其中，针对每个对象类别，借助于训练数据集来训练相应的机器学习模型，该训练数据集包含该对象类别的对象的图像，其中，该对象类别的对象在该训练数据集中被过代表

12、因此，每个机器学习模型都专门针对其对象类别，使得该机器学习模型针对其对象类别的对象准确且一致地确定描述符。

13、实施例6是根据实施例1至5中任一项所述的方法，其中，这些机器学习模型中的至少一部分是神经网络。

14、换言之，至少针对这些对象类别中的有些对象类别，训练密集对象网络。利用这些密集对象网络，可以实现良好的结果，以生成描述符图像。

15、实施例7是一种用于控制机器人来拿起或处理对象的方法，该方法具有：根据实施例1至6中任一项所述的方法来确定该对象的描述符图像；根据所确定的描述符图像，确定在当前控制场景中的用于拿起或处理该对象的部位的位置或者姿态；而且根据所确定的部位位置或者根据所确定的姿态，控制该机器人来拿起或处理该对象。

16、实施例8是一种控制装置，该控制装置被设立为执行根据实施例1至7中任一项所述的方法。

17、实施例9是一种计算机程序，该计算机程序具有指令，当这些指令由处理器执行时，这些指令引起：该处理器执行根据实施例1至7中任一项所述的方法。

18、实施例10是一种计算机可读介质，该计算机可读介质存储指令，当这些指令由处理器执行时，这些指令引起：该处理器执行根据实施例1至7中任一项所述的方法。

技术特征：

1.一种用于为对象的图像确定描述符图像的方法，所述方法具有：

2.根据权利要求1所述的方法，其中，评估所述参考描述符(205、206)与所述描述符图像(208、209)的距离，其方式是：将所述参考描述符(205、206)中的每个参考描述符分配给所述描述符图像(208、209)的描述符，并且对所述参考描述符(205、206)与它们所分配的描述符的距离求平均。

3.根据权利要求1或2所述的方法，其中，这些机器学习模型(203、204)中的至少有些机器学习模型在子模型方面一致。

4.根据权利要求3所述的方法，所述方法具有：借助于包含来自所有对象类别的对象的训练数据，训练所述子模型。

5.根据权利要求1至4中任一项所述的方法，其中，针对每个对象类别，借助于训练数据集来训练相应的机器学习模型(203、204)，所述训练数据集包含该对象类别(201、202)的对象的图像，其中，该对象类别的对象在所述训练数据集中被过代表。

6.根据权利要求1至5中任一项所述的方法，其中，这些机器学习模型(203、204)中的至少一部分是神经网络。

7.一种用于控制机器人来拿起或处理对象的方法，所述方法具有：

8.一种控制装置，所述控制装置被设立为执行根据权利要求1至7中任一项所述的方法。

9.一种计算机程序，所述计算机程序具有指令，当所述指令由处理器执行时，所述指令引起：所述处理器执行根据权利要求1至7中任一项所述的方法。

10.一种计算机可读介质，所述计算机可读介质存储指令，当所述指令由处理器执行时，所述指令引起：所述处理器执行根据权利要求1至7中任一项所述的方法。

技术总结描述了一种用于为对象的图像确定描述符图像的方法，其具有：针对每个对象类别，训练相应的机器学习模型将该对象类别的对象的图像映射到描述符图像，并且为该对象类别的对象存储由机器学习模型输出的参考描述符；接收对象的图像；通过借助于针对该对象类别所训练的机器学习模型将所接收到的图像映射到描述符图像，生成对象的相应的描述符图像；针对每个对象类别，评估为该对象类别存储的参考描述符与为该对象类别生成的描述符图像的描述符的距离；而且将如下描述符图像作为对象的描述符图像分配给对象，该描述符图像是针对为该对象类别存储的参考描述符与为该对象类别生成的描述符图像的描述符的距离被评估为最小的那个对象类别所生成的。技术研发人员：A·G·库普奇克,C·格拉夫,D·阿德里安,J·维尔受保护的技术使用者：罗伯特·博世有限公司技术研发日：技术公布日：2024/10/10