模型训练方法、装置、电子设备及存储介质与流程

2022-11-16 15:11:19 来源：中国专利 TAG：

1.本技术涉及图像处理技术领域，尤其涉及一种模型训练方法、电子设备及存储介质。

背景技术：

2.语义分割任务是一种对图像进行像素级别分类的任务，目前已广泛应用于自动驾驶领域。在自动驾驶领域中，可以通过识别出道路上的树木、车辆、行人和车道线等对象来辅助自动驾驶系统的判断。
3.随着深度学习在计算机视觉任务中取得的重大进展，基于深度学习的语义分割任务也取得了较好的效果。然而，传统的语义分割方法，需要收集模型训练的样本图像，然后人工标注出图像中出现的所有对象轮廓和类别，之后在深度学习模型上进行端到端的训练得到目标图像的语义分割图，但样本标注工作需要消耗大量的人力财力，增加了样本标注成本，同时，降低了语义分割模型的训练效率。

技术实现要素：

4.本技术实施例提供一种模型训练方法、装置、电子设备及存储介质，以解决相关技术中需要人工对图像进行标注生成模型训练样本，增加了样本标注成本，降低了语义分割模型的训练效率的问题。
5.为了解决上述技术问题，本技术实施例是这样实现的：
6.第一方面，本技术实施例提供了一种模型训练方法，包括：
7.将左视图像和右视图像输入至待训练语义分割模型；所述待训练语义分割模型包括：图像变换层、分割图获取层和损失函数层；
8.调用所述图像变换层对所述左视图像和所述右视图像分别进行图像变换处理，得到所述左视图像对应的第一图像和第二图像，及所述右视图像对应的第三图像和第四图像；
9.调用所述分割图获取层分别对所述第一图像、所述第二图像、所述第三图像和所述第四图像对应的特征图进行处理，得到所述第一图像的第一分割图、所述第二图像的第二分割图、所述第三图像的第三分割图和所述第四图像的第四分割图；
10.调用所述损失函数层根据所述第一分割图、所述第二分割图、所述第三分割图、所述第四分割图和图像视差，计算得到所述待训练语义分割模型的损失值；
11.在所述损失值处于预设范围内的情况下，将训练后的待训练语义分割模型作为最终的目标语义分割模型。
12.可选地，所述图像变换层包括：第一图像变换单元和第二图像变换单元，
13.所述调用所述图像变换层对所述左视图像和所述右视图像分别进行图像变换处理，得到所述左视图像对应的第一图像和第二图像，及所述右视图像对应的第三图像和第四图像，包括：
14.调用所述第一图像变换单元对所述左视图像和所述右视图像进行第一变换处理，得到所述左视图像对应的第一图像，及所述右视图像对应的第三图像；
15.调用所述第二图像变换单元对所述左视图像和所述右视图像进行第二变换处理，得到所述左视图像对应的第二图像，及所述右视图像对应的第四图像。
16.可选地，所述待训练语义分割模型还包括：特征提取层，所述特征提取层位于所述图像变换层与分割图获取层之间，
17.在所述调用所述图像变换层对所述左视图像和所述右视图像分别进行图像变换处理，得到所述左视图像对应的第一图像和第二图像，及所述右视图像对应的第三图像和第四图像之后，还包括：
18.调用所述特征提取层对所述第一图像、所述第二图像、所述第三图像和所述第四图像分别进行图像特征提取处理，以得到所述第一图像的第一特征图、所述第二图像的第二特征图、所述第三图像的第三特征图和所述第四图像的第四特征图。
19.可选地，所述调用所述分割图获取层分别对所述第一图像、所述第二图像、所述第三图像和所述第四图像对应的特征图进行处理，得到所述第一图像的第一分割图、所述第二图像的第二分割图、所述第三图像的第三分割图和所述第四图像的第四分割图，包括：
20.调用所述分割图获取层对所述第一特征图内的图像像素进行聚类处理，得到所述第一特征图对应的像素聚类中心，并根据像素聚类中心输出所述第一特征图的第一分割图；
21.调用所述分割图获取层对所述第二特征图内的图像像素进行聚类处理，得到所述第二特征图对应的像素聚类中心，并根据像素聚类中心输出所述第二特征图的第二分割图；
22.调用所述分割图获取层对所述第三特征图内的图像像素进行聚类处理，得到所述第三特征图对应的像素聚类中心，并根据像素聚类中心输出所述第三特征图的第三分割图；
23.调用所述分割图获取层对所述第四特征图内的图像像素进行聚类处理，得到所述第四特征图对应的像素聚类中心，并根据像素聚类中心输出所述第四特征图的第四分割图。
24.可选地，所述损失函数层包括：变换损失函数单元和视差损失函数单元，
25.所述调用所述损失函数层根据所述第一分割图、所述第二分割图、所述第三分割图、所述第四分割图和图像视差，计算得到所述待训练语义分割模型的损失值，包括：
26.调用所述变换损失函数单元根据所述第一分割图和所述第二分割图，计算得到所述待训练语义分割模型的第一变换损失值；
27.调用所述视差损失函数单元根据所述第一分割图、所述第三分割图和所述图像视差，计算得到所述待训练语义分割模型的第一视差损失值；
28.根据所述第一变换损失值和所述第一视差损失值，计算得到所述待训练语义分割模型的损失值。
29.可选地，所述损失函数层包括：变换损失函数单元和视差损失函数单元，
30.所述调用所述损失函数层根据所述第一分割图、所述第二分割图、所述第三分割图、所述第四分割图和图像视差，计算得到所述待训练语义分割模型的损失值，包括：
31.调用所述变换损失函数单元根据所述第三分割图和所述第四分割图，计算得到所述待训练语义分割模型的第二变换损失值；
32.调用所述视差损失函数单元根据所述第二分割图、所述第四分割图和所述图像视差，计算得到所述待训练语义分割模型的第二视差损失值；
33.根据所述第二变换损失值和所述第二视差损失值，计算得到所述待训练语义分割模型的损失值。
34.第二方面，本技术实施例提供了一种模型训练装置，包括：
35.图像输入模块，用于将左视图像和右视图像输入至待训练语义分割模型；所述待训练语义分割模型包括：图像变换层、分割图获取层和损失函数层；
36.图像变换模块，用于调用所述图像变换层对所述左视图像和所述右视图像分别进行图像变换处理，得到所述左视图像对应的第一图像和第二图像，及所述右视图像对应的第三图像和第四图像；
37.分割图获取模块，用于调用所述分割图获取层分别对所述第一图像、所述第二图像、所述第三图像和所述第四图像对应的特征图进行处理，得到所述第一图像的第一分割图、所述第二图像的第二分割图、所述第三图像的第三分割图和所述第四图像的第四分割图；
38.损失值计算模块，用于调用所述损失函数层根据所述第一分割图、所述第二分割图、所述第三分割图、所述第四分割图和图像视差，计算得到所述待训练语义分割模型的损失值；
39.语义分割模型获取模块，用于在所述损失值处于预设范围内的情况下，将训练后的待训练语义分割模型作为最终的目标语义分割模型。
40.可选地，所述图像变换层包括：第一图像变换单元和第二图像变换单元，
41.所述图像变换模块包括：
42.第一图像变换单元，用于调用所述第一图像变换单元对所述左视图像和所述右视图像进行第一变换处理，得到所述左视图像对应的第一图像，及所述右视图像对应的第三图像；
43.第二图像变换单元，用于调用所述第二图像变换单元对所述左视图像和所述右视图像进行第二变换处理，得到所述左视图像对应的第二图像，及所述右视图像对应的第四图像。
44.可选地，所述待训练语义分割模型还包括：特征提取层，所述特征提取层位于所述图像变换层与分割图获取层之间，
45.所述装置还包括：
46.特征图获取模块，用于调用所述特征提取层对所述第一图像、所述第二图像、所述第三图像和所述第四图像分别进行图像特征提取处理，以得到所述第一图像的第一特征图、所述第二图像的第二特征图、所述第三图像的第三特征图和所述第四图像的第四特征图。
47.可选地，所述分割图获取模块包括：
48.第一分割图输出单元，用于调用所述分割图获取层对所述第一特征图内的图像像素进行聚类处理，得到所述第一特征图对应的像素聚类中心，并根据像素聚类中心输出所
述第一特征图的第一分割图；
49.第二维码分割图输出单元，用于调用所述分割图获取层对所述第二特征图内的图像像素进行聚类处理，得到所述第二特征图对应的像素聚类中心，并根据像素聚类中心输出所述第二特征图的第二分割图；
50.第三分割图输出单元，用于调用所述分割图获取层对所述第三特征图内的图像像素进行聚类处理，得到所述第三特征图对应的像素聚类中心，并根据像素聚类中心输出所述第三特征图的第三分割图；
51.第四分割图输出单元，用于调用所述分割图获取层对所述第四特征图内的图像像素进行聚类处理，得到所述第四特征图对应的像素聚类中心，并根据像素聚类中心输出所述第四特征图的第四分割图。
52.可选地，所述损失函数层包括：变换损失函数单元和视差损失函数单元，
53.所述损失值计算模块包括：
54.第一变换损失计算单元，用于调用所述变换损失函数单元根据所述第一分割图和所述第二分割图，计算得到所述待训练语义分割模型的第一变换损失值；
55.第一视差损失计算单元，用于调用所述视差损失函数单元根据所述第一分割图、所述第三分割图和所述图像视差，计算得到所述待训练语义分割模型的第一视差损失值；
56.第一损失值计算单元，用于根据所述第一变换损失值和所述第一视差损失值，计算得到所述待训练语义分割模型的损失值。
57.可选地，所述损失函数层包括：变换损失函数单元和视差损失函数单元，
58.所述损失值计算模块包括：
59.第二变换损失计算单元，用于调用所述变换损失函数单元根据所述第三分割图和所述第四分割图，计算得到所述待训练语义分割模型的第二变换损失值；
60.第二视差损失计算单元，用于调用所述视差损失函数单元根据所述第二分割图、所述第四分割图和所述图像视差，计算得到所述待训练语义分割模型的第二视差损失值；
61.第二损失值计算单元，用于根据所述第二变换损失值和所述第二视差损失值，计算得到所述待训练语义分割模型的损失值。
62.第三方面，本技术实施例提供了一种电子设备，包括：
63.存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述任一项所述的对象检测结果确定方法，或上述任一项所述的模型训练方法。
64.第四方面，本技术实施例提供了一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述任一项所述的对象检测结果确定方法，或上述任一项所述的模型训练方法。
65.在本技术实施例中，通过将左视图像和右视图像输入至待训练语义分割模型，待训练语义分割模型包括：图像变换层、分割图获取层和损失函数层。调用图像变换层对左视图像和右视图像分别进行图像变换处理，得到左视图像对应的第一图像和第二图像，及右视图像对应的第三图像和第四图像。调用分割图获取层分别对第一图像、第二图像、第三图像和第四图像对应的特征图进行处理，得到第一图像的第一分割图、第二图像的第二分割图、所三图像的第三分割图和第四图像的第四分割图。调用损失函数层根据第一分割图、第
二分割图、第三分割图、第四分割图和图像视差，计算得到待训练语义分割模型的损失值。在损失值处于预设范围内的情况下，将训练后的待训练语义分割模型作为最终的目标语义分割模型。本技术实施例通过结合图像特征和左右视图的图像视差实现自监督的语义分割模型的训练，无需人工对样本图像进行标注，降低了样本标注成本，进而提高了模型的训练效率。
66.上述说明仅是本技术技术方案的概述，为了能够更清楚了解本技术的技术手段，而可依照说明书的内容予以实施，并且为了让本技术的上述和其它目的、特征和优点能够更明显易懂，以下特举本技术的具体实施方式。
附图说明
67.为了更清楚地说明本技术实施例的技术方案，下面将对本技术实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
68.图1为本技术实施例提供的一种模型训练方法的步骤流程图；
69.图2为本技术实施例提供的一种图像变换处理方法的步骤流程图；
70.图3为本技术实施例提供的一种分割图获取方法的步骤流程图；
71.图4为本技术实施例提供的一种损失值计算方法的步骤流程图；
72.图5为本技术实施例提供的另一种损失值计算方法的步骤流程图；
73.图6为本技术实施例提供的一种模型训练流程的示意图；
74.图7为本技术实施例提供的一种模型训练装置的结构示意图；
75.图8为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
76.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
77.参照图1，示出了本技术实施例提供的一种模型训练方法的步骤流程图，如图1所示，该模型训练方法可以包括以下步骤：
78.步骤101：将左视图像和右视图像输入至待训练语义分割模型；所述待训练语义分割模型包括：图像变换层、分割图获取层和损失函数层。
79.本技术实施例可以应用于结合图像深度信息和左右视图的视差实现自监督语义分割模型训练的场景中。
80.在本实施例中，左视图像和右视图像可以为采集的目标车辆的左视图像，目标车辆可以为自动驾驶车辆，在实际应用中，目标车辆可以为无人车，如无人配送车等。
81.在一种具体实现方式中，目标车辆可以为一辆车辆，即通过采集目标车辆在不同行车环境下的左视图像和右视图像，将采集的多幅左视图像和右视图像作为模型训练样本。
82.在另一种具体实现方式中，目标车辆可以为多辆车辆，即通过采集多辆目标车辆在不同行车环境下的左视图像和右视图像，将采集的多幅左视图像和右视图像作为模型训练样本。
83.左视图像和右视图像是指通过设置于目标车辆上的双目摄像头采集的目标车辆的侧视图像，在本示例中，目标车辆的左视图像和右视图像形成了语义分割模型的训练样本图像。
84.待训练语义分割模型是指待训练的用于对图像进行像素级别分类的模型。在本示例中，待训练语义分割模型可以包括：图像变换层、分割图获取层和损失函数层。其中，图像变换层可以用于对左视图像和右视图像进行图像增强处理。分割图获取层可以用于对经图像增强的图像对应的特征图进行像素聚类，并根据像素聚类中心输出增强图像对应的分割图。损失函数层可以用于根据输出的分割图计算待训练语义分割模型的损失值。
85.在需要进行待训练语义分割模型的训练时，可以采集目标车辆的左视图像和右视图像，以作为待训练语义分割模型的训练样本。进而，可以将左视图像和右视图像输入至待训练语义分割模型中。
86.可以理解地，在进行待训练语义分割模型的训练时，左视图像和右视图像是成对作为模型训练样本的，在将模型训练样本输入至待训练语义分割模型时，是将一对模型训练样本(即匹配的左视图像和右视图像)输入至待训练语义分割模型中进行训练。
87.在将左视图像和右视图像输入至待训练语义分割模型之后，执行步骤102。
88.步骤102：调用所述图像变换层对所述左视图像和所述右视图像分别进行图像变换处理，得到所述左视图像对应的第一图像和第二图像，及所述右视图像对应的第三图像和第四图像。
89.第一图像和第二图像是指对左视图像进行两种图像变换处理之后，得到的左视图像的两幅变换图像。例如，第一图像和第二图像均为对左视图像进行旋转处理之后得到的图像，第一图像可以为对左视图像旋转90
°
之后得到的图像，第二图像可以为对右视图像旋转180
°
之后得到的图像等。
90.第三图像和第四图像是指对右视图像进行两种图像变换处理之后，得到的右视图像的两幅变换图像。
91.在将左视图像和右视图像输入至待训练语义分割模型之后，可以先调用图像变换层对左视图像和右视图像分别进行图像变换处理，以得到左视图像对应的第一图像和第二图像，及右视图像对应的第三图像和第四图像。如图6所示，待训练语义分割模型的输入为左视图像和右视图像，在将左视图像输入至待训练语义分割模型之后，对左视图像进行两种数据增强处理，得到左视图像对应的两幅变换图像，即view1和view2。在将右视图像输入至待训练语义分割模型之后，对右视图像进行两种数据增强处理，得到右视图像对应的两幅变换图像，即view3和view4。
92.在本示例中，第三图像和第四图像中有一幅图像与第一图像和第二图像中的一幅图像的变换处理方式相同，第三图像和第四图像中的另一幅图像与第一图像和第二图像中的另一幅图像的变换处理方式相同。例如，第一图像为对左视图像旋转90
°
生成的图像，第三图像为对右视图像旋转90
°
生成的图像。第二图像为对左视图像旋转180
°
生成的图像，第四图像为对右视图像旋转180
°
生成的图像等。具体地，对于图像变换处理过程可以结合图2
进行如下详细描述。
93.参照图2，示出了本技术实施例提供的一种图像变换处理方法的步骤流程图，如图2所示，该图像变换处理方法可以包括：步骤201和步骤202。
94.步骤201：调用所述第一图像变换单元对所述左视图像和所述右视图像进行第一变换处理，得到所述左视图像对应的第一图像，及所述右视图像对应的第三图像。
95.在本实施例中，图像变换层可以包括：第一图像变换单元和第二图像变换单元，其中，第一图像变换单元可以用于对输入的左视图像和右视图像执行第一变换处理操作，第二图像变换单元可以用于对输入的左视图像和右视图像执行第二变换处理操作。
96.在将左视图像和右视图像输入至待训练语义分割模型之后，可以调用第一图像变换单元对左视图像和右视图像进行第一变换处理，以得到左视图像对应的第一图像，及右视图像对应的第三图像。即第一图像和第三图像为对左视图像和右视图像经过了相同的图像变换处理操作得到的图像。例如，在将左视图像和右视图像输入至待训练语义分割模型之后，可以对左视图像和右视图像分别执行旋转90
°
的变换处理操作，从而可以得到左视图像的第一图像，及右视图像的第三图像。或者，对左视图像和右视图像分别进行颜色变换处理，以得到左视图像的第一图像，及右视图像的第三图像等。
97.步骤202：调用所述第二图像变换单元对所述左视图像和所述右视图像进行第二变换处理，得到所述左视图像对应的第二图像，及所述右视图像对应的第四图像。
98.在将左视图像和右视图像输入至待训练语义分割模型之后，可以调用第二图像变换单元对左视图像和右视图像进行第二变换处理，得到左视图像对应的第二图像，及右视图像对应的第四图像。即第二图像和第四图像为对左视图像和右视图像经过了相同的图像变换处理操作得到的图像。
99.在本示例中，第一变换处理的方式与第二变换处理的方式是不相同的，例如，在第一变换处理的方式为旋转90
°
的处理方式时，第二变换处理的方式可以为旋转180
°
的处理方式。或者，在第一变换处理的方式为旋转90
°
的处理方式时，第二变换处理的方式为颜色变换处理的方式等。
100.可以理解地，上述示例仅是为了更好地理解本技术实施例的技术方案而列举的示例，不作为对本实施例的唯一限制。
101.在调用图像变换层对左视图像和右视图像分别进行图像变换处理，得到左视图像对应的第一图像和第二图像，及右视图像对应的第三图像和第四图像之后，执行步骤103。
102.步骤103：调用所述分割图获取层分别对所述第一图像、所述第二图像、所述第三图像和所述第四图像对应的特征图进行处理，得到所述第一图像的第一分割图、所述第二图像的第二分割图、所述第三图像的第三分割图和所述第四图像的第四分割图。
103.在获取到左视图像对应的第一图像和第二图像，及右视图像对应的第三图像和第四图像之后，可以调用分割图分别对这四幅变换处理的图像的特征图进行处理，以得到第一图像的第一分割图，第二图像的第二分割图，第三图像的第三分割图，以及第四图像的第四分割图。
104.可以理解地，本实施例提供的待训练语义分割模型还可以包括：特征提取层，该特征提取层位于图像变换层与分割图获取层之间。在得到左视图像对应的第一图像和第二图像，及右视图像对应的第三图像和第四图像之后，可以将第一图像、第二图像、第三图像和
第四图像作为特征提取层的输入。可以调用特征提取层对第一图像、第二图像、第三图像和第四图像分别进行图像特征提取处理，并得到第一图像的第一特征图、第二图像的第二特征图、第三图像的第三特征图和第四图像的第四特征图。在本示例中，特征提取层可以为cnn(卷积神经网络层)，通过cnn可以提取出四幅变换图像分别对应的图像特征，并输出每幅图像对应的特征图。如图6所示，在得到view1、view2、view3和view4之后，可以采用同一个特征提取器对view1、view2、view3和view4分别进行特征提取，以得到四个视图的特征等。
105.在得到四幅变换图像分别对应的特征图之后，则可以调用分割图获取层对四幅特征图的图像像素特征进行聚类处理，以聚类出像素特征的类别中心，然后根据类别中心输出每幅特征图对应的分割图。如图6所示，在提取四幅视图的特征得到四幅视图分别对应的特征图之后，可以对四幅特征图进行像素聚类处理，以得到四幅分割图。
106.对于上述分割图的获取过程可以结合图3进行如下详细描述。
107.参照图3，示出了本技术实施例提供的一种分割图获取方法的步骤流程图，如图3所示，该分割图获取方法可以包括：步骤301、步骤302、步骤303和步骤304。
108.步骤301：调用所述分割图获取层对所述第一特征图内的图像像素进行聚类处理，得到所述第一特征图对应的像素聚类中心，并根据像素聚类中心输出所述第一特征图的第一分割图。
109.在本实施例中，在得到第一图像的第一特征图之后，可以调用分割图获取层对第一特征图内的图像像素进行聚类处理，以得到第一特征图对应的像素聚类中心。具体地，可以调用分割图获取层采用knn(k-nearestneighbor，k最邻近分类算法)聚类算法对第一特征图内的像素特征进行聚类处理，以得到第一特征图内的像素聚类中心。
110.当然，不仅限于此，在实际应用中，还可以采用其它聚类算法对特征图内的像素特征进行聚类处理，具体地，可以根据业务需求而定，本实施例对于像素特征的聚类处理方式不加以限制。
111.在得到第一特征图对应的像素聚类中心之后，可以根据像素聚类中心输出第一特征图的第一分割图，在第一分割图中即包含了多个像素聚类中心，以及每个像素聚类中心对应的类别，如树木、车辆、行人等。
112.步骤302：调用所述分割图获取层对所述第二特征图内的图像像素进行聚类处理，得到所述第二特征图对应的像素聚类中心，并根据像素聚类中心输出所述第二特征图的第二分割图。
113.步骤303：调用所述分割图获取层对所述第三特征图内的图像像素进行聚类处理，得到所述第三特征图对应的像素聚类中心，并根据像素聚类中心输出所述第三特征图的第三分割图。
114.步骤304：调用所述分割图获取层对所述第四特征图内的图像像素进行聚类处理，得到所述第四特征图对应的像素聚类中心，并根据像素聚类中心输出所述第四特征图的第四分割图。
115.可以理解地，第二分割图、第三分割图和第四分割图的获取方式与第一分割图的获取方式相似，本实施例对于第二分割图、第三分割图和第四分割图的获取过程不再加以详细赘述。
116.在得到第一特征图、第二特征图、第三特征图和第四特征图之后，执行步骤104。
117.步骤104：调用所述损失函数层根据所述第一分割图、所述第二分割图、所述第三分割图、所述第四分割图和图像视差，计算得到所述待训练语义分割模型的损失值。
118.图像视差是指左视图像和右视图像的视差。视差是指从有一定距离的两个点上观察同一个目标对象所产生的方向差异。
119.在具体实现中，左视图像和右视图像是通过目标车辆上的双目相机拍摄得到的，在进行图像视差计算时，可以根据双目相机的相机内参计算得到左视图像和右视图像之间的图像视差。
120.在得到第一特征图、第二特征图、第三特征图和第四特征图之后，可以调用损失函数层根据第一分割图、第二分割图、第三分割图、第四分割图和图像视差，计算得到待训练语义分割模型的损失值。
121.在本示例中，待训练语义分割模型的损失值可以包括：变换损失值和视差损失值。通过左视图像对应的两幅分割图或者右视图像的两幅分割图可以计算得到变换损失值，通过左视图像的一幅分割图与右视图像的一幅分割图结合图像视差可以计算得到视差损失值，然后，根据变换损失值和视差损失值可以确定出待训练语义分割模型的损失值。对于该过程可以结合图4和图5进行如下详细描述。
122.参照图4，示出了本技术实施例提供的一种损失值计算方法的步骤流程图，如图4所示，该损失值计算方法可以包括：步骤401、步骤402和步骤403。
123.步骤401：调用所述变换损失函数单元根据所述第一分割图和所述第二分割图，计算得到所述待训练语义分割模型的第一变换损失值。
124.在本实施例中，损失函数层可以包括：变换损失函数单元和视差损失函数单元。其中，变换损失函数单元可以用于计算变换损失值，视差损失函数单元可以用于计算视差损失值。
125.在得到第一分割图、第二分割图、第三分割图和第四分割图之后，可以调用变换损失函数单元根据第一分割图和第二分割图计算得到待训练语义分割模型的第一变换损失值。
126.在本示例中，第一变换损失值的计算公式如下：
127.view1的分割图＝将view2的分割图进行还原之后再进行与view1同样变换处理的分割图(即变换损失最小的情况)。
128.其中，view1和view2均为左视图像进行变换处理之后得到的图像。在得到左视图像的两幅变换处理图像对应的第一分割图(view1的分割图)和第二分割图(view2的分割图)之后，可以对view2的分割图进行与view1的分割图相同的变换处理，然后根据变换后的view2与view1之间的差异，计算得到第一变换损失值。例如，第一图像是经过旋转90
°
得到的图像，第二图像是经过旋转180
°
得到的图像，此时，可以对第二分割图进行还原，即反向旋转180
°
还原，然后对还原分割图进行与第一图像相同的变换处理(即旋转90
°
，且与第一图像的旋转方向相同)得到变换分割图。然后，根据变换分割图与第一分割图之间的差异，计算得到第一变换损失值。
129.当然，也可以是将view1的分割图进行还原，再进行与view2同样变换处理得到的分割图，然后，根据处理得到的分割图与view2的分割图之间的差异计算得到第一变换损失
值。
130.步骤402：调用所述视差损失函数单元根据所述第一分割图、所述第三分割图和所述图像视差，计算得到所述待训练语义分割模型的第一视差损失值。
131.在得到第一分割图、第二分割图、第三分割图和第四分割图之后，可以调用视差损失函数单元根据第一分割图、第三分割图和图像视差，计算得到待训练语义分割模型的第一视差损失值。其中，第一分割图对应的第一图像和第三分割图对应的第三图像采用了相同的变换处理方式。
132.在本示例中，第一视差损失值的计算公式如下：
133.第一分割图＝第三分割图图像视差(即视差损失最小的情况)。
134.在本实施例中，在得到第一分割图和第三分割图之后，可以比较第一分割图与第三分割图之间的视差，然后根据比较得到视差与图像视差之间的差值，计算得到第一视差损失值。
135.步骤403：根据所述第一变换损失值和所述第一视差损失值，计算得到所述待训练语义分割模型的损失值。
136.在计算得到第一变换损失值和第一视差损失值之后，可以根据第一变换损失值和第一视差损失值计算得到待训练语义分割模型的损失值。具体地，可以计算第一变换损失值和第一视差损失值的和值，将该和值作为待训练语义分割模型的损失值。也可以对第一变换损失值和第一视差损失值进行加权求和，并将加权求和得到的和值作为待训练语义分割模型的损失值等。
137.本技术实施例中通过结合图像特征和左右视图的图像视差实现自监督的语义分割模型的训练，无需人工对样本图像进行标注即可完成模型训练，能够降低样本标注成本，提高模型的训练效率。
138.参照图5，示出了本技术实施例提供的另一种损失值计算方法的步骤流程图，如图5所示，该损失值计算方法可以包括：步骤501、步骤502和步骤503。
139.步骤501：调用所述变换损失函数单元根据所述第三分割图和所述第四分割图，计算得到所述待训练语义分割模型的第二变换损失值。
140.在本实施例中，在本实施例中，损失函数层可以包括：变换损失函数单元和视差损失函数单元。其中，变换损失函数单元可以用于计算变换损失值，视差损失函数单元可以用于计算视差损失值。
141.在得到第一分割图、第二分割图、第三分割图和第四分割图之后，可以调用变换损失函数单元根据第三分割图和第四分割图计算得到待训练语义分割模型的第二变换损失值。
142.在本示例中，第二变换损失值的计算公式如下：
143.view3的分割图＝将view4的分割图进行还原之后再进行与view1同样变换处理的分割图(即变换损失最小的情况)。
144.其中，view3和view4均为左视图像进行变换处理之后得到的图像。在得到左视图像的两幅变换处理图像对应的第三分割图(view3的分割图)和第四分割图(view4的分割图)之后，可以对view4的分割图进行与view3的分割图相同的变换处理，然后根据变换后的view4与view3之间的差异，计算得到第二变换损失值。例如，第三图像是经过旋转90
°
得到
的图像，第四图像是经过旋转180
°
得到的图像，此时，可以对第四分割图进行还原，即反向旋转180
°
还原，然后对还原分割图进行与第三图像相同的变换处理(即旋转90
°
，且与第三图像的旋转方向相同)得到变换分割图。然后，根据变换分割图与第三分割图之间的差异，计算得到第二变换损失值。
145.当然，也可以是将view3的分割图进行还原，再进行与view4同样变换处理得到的分割图，然后，根据处理得到的分割图与view4的分割图之间的差异计算得到第二变换损失值。
146.步骤502：调用所述视差损失函数单元根据所述第二分割图、所述第四分割图和所述图像视差，计算得到所述待训练语义分割模型的第二视差损失值。
147.在得到第一分割图、第二分割图、第三分割图和第四分割图之后，可以调用视差损失函数单元根据第二分割图、第四分割图和图像视差，计算得到待训练语义分割模型的第二视差损失值。其中，第二分割图对应的第二图像和第四分割图对应的第四图像采用了相同的变换处理方式。
148.在本示例中，第二视差损失值的计算公式如下：
149.第二分割图＝第四分割图图像视差(即视差损失最小的情况)。
150.在本实施例中，在得到第二分割图和第四分割图之后，可以比较第二分割图与第四分割图之间的视差，然后根据比较得到视差与图像视差之间的差值，计算得到第二视差损失值。
151.步骤503：根据所述第二变换损失值和所述第二视差损失值，计算得到所述待训练语义分割模型的损失值。
152.在计算得到第二变换损失值和第二视差损失值之后，可以根据第二变换损失值和第二视差损失值计算得到待训练语义分割模型的损失值。具体地，可以计算第二变换损失值和第二视差损失值的和值，将该和值作为待训练语义分割模型的损失值。也可以对第二变换损失值和第二视差损失值进行加权求和，并将加权求和得到的和值作为待训练语义分割模型的损失值等。
153.在计算得到待训练语义分割模型的损失值之后，执行步骤105。
154.步骤105：在所述损失值处于预设范围内的情况下，将训练后的待训练语义分割模型作为最终的目标语义分割模型。
155.在计算得到待训练语义分割模型的损失值之后，可以判断该损失值是否处于预设范围内。
156.若该损失值不处于预设范围内，则表示模型未收敛，此时，可以结合更多的模型训练样本(即成对的左视图像和右视图像)对待训练语义分割模型继续进行训练，直至模型收敛，即损失值处于预设范围内。
157.若该损失值处于预设范围内，则表示模型已收敛，此时，可以将训练后的待训练语义分割模型作为最终的目标语义分割模型，该目标语义分割模型即可以应用于后续的自动驾驶车辆的侧视图像的语义分割场景中。
158.本技术实施例提供的模型训练方法，通过将左视图像和右视图像输入至待训练语义分割模型，待训练语义分割模型包括：图像变换层、分割图获取层和损失函数层。调用图像变换层对左视图像和右视图像分别进行图像变换处理，得到左视图像对应的第一图像和
第二图像，及右视图像对应的第三图像和第四图像。调用分割图获取层分别对第一图像、第二图像、第三图像和第四图像对应的特征图进行处理，得到第一图像的第一分割图、第二图像的第二分割图、所三图像的第三分割图和第四图像的第四分割图。调用损失函数层根据第一分割图、第二分割图、第三分割图、第四分割图和图像视差，计算得到待训练语义分割模型的损失值。在损失值处于预设范围内的情况下，将训练后的待训练语义分割模型作为最终的目标语义分割模型。本技术实施例通过结合图像特征和左右视图的图像视差实现自监督的语义分割模型的训练，无需人工对样本图像进行标注，降低了样本标注成本，进而提高了模型的训练效率。
159.参照图7，示出了本技术实施例提供的一种模型训练装置的结构示意图，如图7所示，该模型训练装置700可以包括以下模块：
160.图像输入模块710，用于将左视图像和右视图像输入至待训练语义分割模型；所述待训练语义分割模型包括：图像变换层、分割图获取层和损失函数层；
161.图像变换模块720，用于调用所述图像变换层对所述左视图像和所述右视图像分别进行图像变换处理，得到所述左视图像对应的第一图像和第二图像，及所述右视图像对应的第三图像和第四图像；
162.分割图获取模块730，用于调用所述分割图获取层分别对所述第一图像、所述第二图像、所述第三图像和所述第四图像对应的特征图进行处理，得到所述第一图像的第一分割图、所述第二图像的第二分割图、所述第三图像的第三分割图和所述第四图像的第四分割图；
163.损失值计算模块740，用于调用所述损失函数层根据所述第一分割图、所述第二分割图、所述第三分割图、所述第四分割图和图像视差，计算得到所述待训练语义分割模型的损失值；
164.语义分割模型获取模块750，用于在所述损失值处于预设范围内的情况下，将训练后的待训练语义分割模型作为最终的目标语义分割模型。
165.可选地，所述图像变换层包括：第一图像变换单元和第二图像变换单元，
166.所述图像变换模块包括：
167.第一图像变换单元，用于调用所述第一图像变换单元对所述左视图像和所述右视图像进行第一变换处理，得到所述左视图像对应的第一图像，及所述右视图像对应的第三图像；
168.第二图像变换单元，用于调用所述第二图像变换单元对所述左视图像和所述右视图像进行第二变换处理，得到所述左视图像对应的第二图像，及所述右视图像对应的第四图像。
169.可选地，所述待训练语义分割模型还包括：特征提取层，所述特征提取层位于所述图像变换层与分割图获取层之间，
170.所述装置还包括：
171.特征图获取模块，用于调用所述特征提取层对所述第一图像、所述第二图像、所述第三图像和所述第四图像分别进行图像特征提取处理，以得到所述第一图像的第一特征图、所述第二图像的第二特征图、所述第三图像的第三特征图和所述第四图像的第四特征图。
172.可选地，所述分割图获取模块包括：
173.第一分割图输出单元，用于调用所述分割图获取层对所述第一特征图内的图像像素进行聚类处理，得到所述第一特征图对应的像素聚类中心，并根据像素聚类中心输出所述第一特征图的第一分割图；
174.第二维码分割图输出单元，用于调用所述分割图获取层对所述第二特征图内的图像像素进行聚类处理，得到所述第二特征图对应的像素聚类中心，并根据像素聚类中心输出所述第二特征图的第二分割图；
175.第三分割图输出单元，用于调用所述分割图获取层对所述第三特征图内的图像像素进行聚类处理，得到所述第三特征图对应的像素聚类中心，并根据像素聚类中心输出所述第三特征图的第三分割图；
176.第四分割图输出单元，用于调用所述分割图获取层对所述第四特征图内的图像像素进行聚类处理，得到所述第四特征图对应的像素聚类中心，并根据像素聚类中心输出所述第四特征图的第四分割图。
177.可选地，所述损失函数层包括：变换损失函数单元和视差损失函数单元，
178.所述损失值计算模块包括：
179.第一变换损失计算单元，用于调用所述变换损失函数单元根据所述第一分割图和所述第二分割图，计算得到所述待训练语义分割模型的第一变换损失值；
180.第一视差损失计算单元，用于调用所述视差损失函数单元根据所述第一分割图、所述第三分割图和所述图像视差，计算得到所述待训练语义分割模型的第一视差损失值；
181.第一损失值计算单元，用于根据所述第一变换损失值和所述第一视差损失值，计算得到所述待训练语义分割模型的损失值。
182.可选地，所述损失函数层包括：变换损失函数单元和视差损失函数单元，
183.所述损失值计算模块包括：
184.第二变换损失计算单元，用于调用所述变换损失函数单元根据所述第三分割图和所述第四分割图，计算得到所述待训练语义分割模型的第二变换损失值；
185.第二视差损失计算单元，用于调用所述视差损失函数单元根据所述第二分割图、所述第四分割图和所述图像视差，计算得到所述待训练语义分割模型的第二视差损失值；
186.第二损失值计算单元，用于根据所述第二变换损失值和所述第二视差损失值，计算得到所述待训练语义分割模型的损失值。
187.本技术实施例提供的模型训练装置，通过将左视图像和右视图像输入至待训练语义分割模型，待训练语义分割模型包括：图像变换层、分割图获取层和损失函数层。调用图像变换层对左视图像和右视图像分别进行图像变换处理，得到左视图像对应的第一图像和第二图像，及右视图像对应的第三图像和第四图像。调用分割图获取层分别对第一图像、第二图像、第三图像和第四图像对应的特征图进行处理，得到第一图像的第一分割图、第二图像的第二分割图、所三图像的第三分割图和第四图像的第四分割图。调用损失函数层根据第一分割图、第二分割图、第三分割图、第四分割图和图像视差，计算得到待训练语义分割模型的损失值。在损失值处于预设范围内的情况下，将训练后的待训练语义分割模型作为最终的目标语义分割模型。本技术实施例通过结合图像特征和左右视图的图像视差实现自监督的语义分割模型的训练，无需人工对样本图像进行标注，降低了样本标注成本，进而提
高了模型的训练效率。
188.本技术实施例提供了一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述模型训练方法。
189.图8示出了本发明实施例的一种电子设备800的结构示意图。如图8所示，电子设备800包括中央处理单元(cpu)801，其可以根据存储在只读存储器(rom)802中的计算机程序指令或者从存储单元808加载到随机访问存储器(ram)803中的计算机程序指令，来执行各种适当的动作和处理。在ram 803中，还可存储电子设备800操作所需的各种程序和数据。cpu801、rom802以及ram803通过总线804彼此相连。输入/输出(i/o)接口805也连接至总线804。
190.电子设备800中的多个部件连接至i/o接口805，包括：输入单元806，例如键盘、鼠标、麦克风等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许电子设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
191.上文所描述的各个过程和处理，可由处理单元801执行。例如，上述任一实施例的方法可被实现为计算机软件程序，其被有形地包含于计算机可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由rom802和/或通信单元809而被载入和/或安装到电子设备800上。当计算机程序被加载到ram803并由cpu801执行时，可以执行上文描述的方法中的一个或多个动作。
192.本技术实施例提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述模型训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(read-only memory，简称rom)、随机存取存储器(random access memory，简称ram)、磁碟或者光盘等。
193.需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
194.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本技术各个实施例所述的方法。
195.上面结合附图对本技术的实施例进行了描述，但是本技术并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本技术的启示下，在不脱离本技术宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本技术的保护之内。
196.本领域普通技术人员可以意识到，结合本技术实施例中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术的范围。
197.所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
198.在本技术所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组间可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
199.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
200.另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。
201.所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
202.以上所述，仅为本技术的具体实施方式，但本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应以权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：基于3D模板匹配的机器人角度定位精度测试方法和系统与流程

模型训练方法、装置、电子设备及存储介质与流程

相关文献

最热文献