技术新讯 > 计算推算,计数设备的制造及其应用技术 > 捆扎机器人视觉系统中深度学习训练方法和数据集的优化方法与流程 > 正文

捆扎机器人视觉系统中深度学习训练方法和数据集的优化方法与流程

国知局
2024-08-05 12:07:26

本发明属于钢筋捆扎，特别涉及一种捆扎机器人视觉系统中深度学习训练方法和数据集的优化方法。

背景技术：

1、随着智能建造的兴起，自动化车间已经成为了建造业中的主流。其中视觉识别在自动化车间中起到了不可或缺的作用，已经被广泛应用在各种工业车间流水线中。尽管这一技术被广泛应用，但其面临着一些关键挑战。主要问题在于，当前视觉检测方法依赖于数据驱动的深度学习，但缺乏针对特定项目的通用公共数据集。而自建数据集由于难以在短时间内得到非常大量的数据，而过于少的数据量会导致训练出的模型精度和泛用性都很低。尤其是当工业车间中光线和外界环境对识别区域造成影响后，识别精度会进一步降低。针对这一问题，需要工程师针对不同场景重新修改训练参数，进行多次训练优化。这不但增加了开发人员的工作量，导致工作效率低下，而且重新训练的模型可能仍有相同的问题，不利于视觉系统的通用化和标准化发展。因此，现有技术在数据集管理和模型适应性方面存在显著不足。

技术实现思路

1、发明目的：为了克服以上不足，本发明的目的是提供一种捆扎机器人视觉系统中深度学习训练方法和数据集的优化方法，通过更加精确和平衡的数据集创建与优化，显著提高了模型的识别精度和泛用性。并通过动态的数据集更新和基于置信度的反馈调整，能够持续适应不同的工作环境，有效应对光线和外界条件的变化，保证了系统的稳定性和可靠性。

2、技术方案：为了实现上述目的，本发明提供了一种捆扎机器人视觉系统中深度学习训练方法和数据集的优化方法，包括：

3、1）：对工业现场钢筋捆扎作业进行细致采样，完成数据集创建与标注，即工作人员采用工业面阵相机在不同时间段（包括早上、中午、傍晚）以及不同光照条件（晴天、阴天、放置采光设备）下，对钢筋捆扎作业现场进行全方位的图像数据采集，之后对采集的图像数据进行分类标记和类别分布分析；并对图像标注工具对每张图像中的钢筋捆扎点进行精准定位和标记，并记录其类别信息，通过统计分析软件对不同类别的捆扎点数量进行统计，生成类别分布图，以识别数据集中样本量不足的捆扎点类别；

4、2）：图像处理与数据集构建，即根据当前数据集中捆扎点的类别分布，对于样本量不足的捆扎点类别采用mosaic图像增强优化，得到初步的钢筋捆扎点数据集，并对数据集进行增强训练；

5、3）：针对性深度学习模型训练，使用处理后的数据集进行深度学习模型训练，并验证模型的不同工况下的准确性；

6、4）：场景适应性优化与模型验证，在模型训练完成后，工作人员将在真实的钢筋捆扎工作环境中对模型进行严格测试，包括环境适应性测试和性能稳定性测试，还有最后的准确性评估。

7、本发明中所述的捆扎机器人视觉系统中深度学习训练方法和数据集的优化方法，所述1）中数据集创建与标注的具体过程如下：创建数据集监控器，对不同生产线场景下的三种类型标签进行分类和数量统计，通过工业相机采集钢筋捆扎点的图像数据，对每个捆扎点位置进行4~8cm矩形标定框标注，通过捆扎点的图像数据特征，可区分为已绑扎捆扎点、未绑扎捆扎点和钢筋与边模交点，将有钢丝捆扎过的钢筋交点区分为已绑扎捆扎点，将还未有钢丝捆扎过的钢筋交点区分为未绑扎捆扎点，将钢筋与边模的交汇点识别为钢筋与边模交点，以此生成原始数据集及其特征标签。按照监控器中的标签类别分布，

8、本发明中所述的捆扎机器人视觉系统中深度学习训练方法和数据集的优化方法，所述2）图像处理与数据集构建中图像增加的具体流程如下：

9、201）：分析数据集类别不平衡，技术人员首先使用数据分析工具对数据集中的图像分类进行详细统计，识别出在采集的数据集中样本量不足的捆扎点类别；这些类别通常是由于现场出现频率低或在特定条件下难以采集到的类别；

10、202）：对于201）步骤中识别出的样本量不足的类别，采用mosaic对图像增强，每次读取四张图片，然后分别对四张图片进行翻转、平移、缩放、裁剪和改变色域方式进行处理，之后将四张图片按照不同方向排列，可以极大地增强训练数据集的多样性和复杂性，从而提高深度学习模型的鲁棒性和泛化能力；再将四张图片按照各自的位置，进行随机裁剪，最终进行图片的组合和框的组合，得到更为均衡且多样化的数据集；增强操作的目的是人为地创建更多样化的数据，以平衡数据集中各类别的代表性，增强模型的泛化能力；

11、203）：增强数据集训练，对上一步骤中得到的均衡且多样化的数据集采用深度学习模型进行训练，在训练过程中，将密切监控模型在各个类别上的性能，将那些较少数量的类别标签，在图像中分割出该类标签，采取40%透明度处理，并且随机添加在其他随机数据集中混合进行训练，通过这个方法平衡数据集中的类别标签数量，如有必要，还需对模型的参数进行调整。

12、本发明中所述的捆扎机器人视觉系统中深度学习训练方法和数据集的优化方法，所述202）mosaic操作执行标准通过以下公式确定：

13、

14、其中：为预设的图像增强概率，为需要增强的样本数量，为数据集中总样本数量，为类别不平衡度，为最终增强概率。

15、本发明中所述的捆扎机器人视觉系统中深度学习训练方法和数据集的优化方法，所述3）中增强数据集训练的具体过程如下： 2031）：将增强后的图像进行归一化处理，将像素值范围修改为0到1之间，归一化公式如下：

16、

17、其中：为原始像素值，为图像最小像素值为，通常为0；为图像最大像素值，通常为255；为归一化值；

18、通过上面的处理方式，所有的像素值都被缩放到了0到1的范围内，这有助于提高模型训练的数值稳定性和收敛速度；

19、2032）：将图片尺寸调整到640×640，将图片按照64×640×640×3的通道数输入到yolo深度学习模型中，其中64为批次大小，640×640为图像的高度×宽度，3为颜色rgb（红、绿、蓝）通道数；

20、2033）：进行训练参数设置，将数据集分为训练集、验证集和测试集，按照70%、15%、15%的比例分配，训练中损失函数采用交叉熵损失函数来进行迭代训练；

21、2034）：使用准确率可视化训练的结果是否足够优秀，准确率的公式如下：

22、

23、其中，a为识别的准确率；

24、tp（true positives）是真正类的数量：模型正确地将正类预测为正类；

25、tn（true negatives）是真负类的数量：模型正确地将负类预测为负类；

26、fp（false positives）是假正类的数量：模型错误地将负类预测为正类；

27、fn（false negatives）是假负类的数量：模型错误地将正类预测为负类；

28、2035）：最后设置学习率为0.001，在每个训练批次中，模型通过前向传播计算损失，然后通过反向传播进行权重更新，记录并监控训练和验证过程中的损失和准确率。

29、本发明中所述的捆扎机器人视觉系统中深度学习训练方法和数据集的优化方法，所述4）中场景适应性优化与模型验证的具体过程如下： 401）：实时监控模型性能，通过实时性能监控系统，用于持续跟踪和评估模型在新环境下的表现，包括对模型识别的准确率、响应时间和稳定性等关键指标进行实时监测，并通过定期生成的性能报告来分析模型表现的趋势和潜在问题；

30、402）：分析新环境数据与原训练集的差异，当模型被部署到一个新的工作环境中，工作人员首先进行一系列的目标识别测试，并收集新环境中模型的识别数据，通过与原训练集进行比较，分析两者在类别分布上的差异，以判断是否需要对数据集进行更新；这一分析工作将考虑新环境中出现的新型捆扎点样式、背景变化以及光照条件因素；

31、403）：动态更新数据集，根据步骤402）中分析结果，如果识别出数据集需要更新，工作人员将采集新环境中的图像数据，并将其纳入训练集中；同时，为了保持数据集的时效性和准确性，将删除那些在新环境中不再具有代表性的样本，这一过程可能包括手动审核新增样本的质量，确保新增数据的质量符合训练需求；

32、404）：优化模型并重复训练验证，使用经过更新的数据集，工作人员将重新启动模型的训练和验证流程，在此过程中，将细致地调整模型参数，如学习率、正则化项和训练周期，以适应数据集的更新，同时，通过多轮的训练和交叉验证，确保模型在新环境下保持或超越原有的识别准确性。

33、本发明中所述的捆扎机器人视觉系统中深度学习训练方法和数据集的优化方法，所述 403）中动态更新数据集的具体过程如下：

34、4031）：根据之前创建的监控器，对类别标签的分布进行实时的分析，得到数据集类别标签的数量；

35、4032）：当视觉系统进入到一个新的工业环境，对识别到的结果进行分析，通过以下计算识别到的标签类别分布与训练集的标签类别分布差别：

36、

37、其中，为类别标签分布的差异，为标签的总类别数，为新环境中某类别的样本数量，为新环境中的总样本数量，为原始数据集中该类别的样本数量，为原始数据集中总样本数量，设定阈值α，若超过预设阈值α时，系统将触发警报并上传新环境数据，将新场景中拍摄的图像储存打包上传到本地的训练服务器上，删除老数据集中与新数据集类别相差过大的标签，并加入新数据集重新进行训练。

38、本发明中所述的捆扎机器人视觉系统中深度学习训练方法和数据集的优化方法，所述标签识别方法是基于置信度的标签识别方法，具体为：视觉模型识别出物体，会伴随一个置信度标准，以此来可视化出识别的正确概率有多少，当视觉模型对某一类别标签的识别置信度低于阈值时，系统将自动触发模型的再训练流程，此过程中，会优先选择那些置信度低的类别进行重点训练，以此提高模型的整体识别精度和泛化能力。

39、本发明所述模型通过前向传播计算损失的具体计算过程如下：

40、通过bce（binary cross-entropy）损失函数计算损失后，计算每一次训练得到的损失函数的梯度下降趋势，通过反向传播进行权重分析，bce损失函数公式如下：

41、loss=-(ylog(p(x)+(1−y)log(1−p(x))

42、其中p(x)是模型输出，y是真实标签。

43、上述技术方案可以看出，本发明具有如下有益效果：

44、1、本发明中所述的捆扎机器人视觉系统中深度学习训练方法和数据集的优化方法，通过更加精确和平衡的数据集创建与优化，显著提高了模型的识别精度和泛用性。并通过动态的数据集更新和基于置信度的反馈调整，能够持续适应不同的工作环境，有效应对光线和外界条件的变化，保证了系统的稳定性和可靠性。不会因为外界条件的变化导致精度的下降。

45、2、本发明中图像增强和数据平衡策略有效地提高了稀有类别的样本数量，进而提高了整个视觉系统的性能。同时对多张图片按照不同方向排列，可以极大地增强训练数据集的多样性和复杂性，从而提高深度学习模型的鲁棒性和泛化能力，图像增强处理能够人为地创建更多样化的数据，以平衡数据集中各类别的代表性，增强模型的泛化能力。

46、3、本发明确保了钢筋捆扎机器人视觉系统能够在各种复杂的现场工况中保持高准确率的捆扎点识别能力，显著提升了系统的实用性和工作效率。这种方法的具体化程度使得同一技术领域的技术人员能够根据所描述的内容重现本发明的工艺或方法，有利于实现训练方案的通用化。

47、4、本发明在提高自动化建筑行业中视觉识别的精度、稳定性和适应性方面具有显著优势，有利于实现钢筋捆扎的视觉识别训练。

48、5、本发明中标签识别过程中视觉模型识别出物体，会伴随一个置信度标准，以此来可视化出识别的正确概率有多少，当视觉模型对某一类别标签的识别置信度低于阈值时，系统将自动触发模型的再训练流程，此过程中，会优先选择那些置信度低的类别进行重点训练，以此提高模型的整体识别精度和泛化能力。