用于处理图像的图像处理系统及方法与流程

2022-11-23 18:29:48 来源：中国专利 TAG：

1.本发明一般涉及用于处理图像的肖像区域的系统和方法。更具体地，本发明旨在分割图像的人体肖像区域。

背景技术：

2.人体肖像分割技术应用于电影行业、在线教育、娱乐等领域。传统上，该任务是通过绿屏技术实现的，需要昂贵的设备和特定的环境。大多数分割方法依靠前景和背景之间的色差来实现背景消除。当色差不明显时，这些方法的结果就不太稳定。
3.转让给htc公司的已授权美国专利9,807,316公开了一种技术，涉及根据自适应模型掩模从由第一相机拍摄的图像中提取对象。此外，该专利还公开了根据姿态数据pos和基于相机和前景对象之间的相对运动的自适应模型掩模。尽管该过程提供了三层掩模用于分割，但仍然做不到对整个肖像区域进行精确分割以及对图像中肖像区域进行中心对齐。
4.另一项转让给香港中文大学的专利申请wo2009109127公开了一种技术，涉及人体特征识别系统，该系统包括面部检测模块、人体分割模块和边界抠图模块，其中面部检测模块在混合级联结构上使用了主动提升程序和惰性提升程序。尽管该发明是对先前专利的改进，因为它包括一种语义对象提取技术，可用于数字视频处理、模式识别和计算机视觉，然而，该发明未能实现成本有效且精确地从图像中分割肖像。
5.另一项转让给清华大学的专利申请cn110689542提供了一种基于多级卷积神经网络的人体图像分割处理技术。尽管该发明是对先前发明的改进，以准确有效地实时划分肖像，然而，该专利仍缺乏通过简单工具进行肖像分割的能力，而是使用高科技和昂贵的工具进行分割。
6.因此，为了克服现有技术的缺点，例如在处理具有挑战性的人体成分(例如头发和手)时，需要提供分层混合损失而不是传统的分割损失。最后，为定制人体肖像分割应用，降低学习空间维数，创新了独特的数据增强策略，使训练数据分布均匀，性能更稳定，收敛速度更快。鉴于前述发明，本领域需要一种系统来克服或减轻前述现有技术的缺点。
7.很明显，目前在现有技术中开发了许多适合各种目的的方法和系统。此外，即使这些发明可能因此适合于它们所针对的特定目的，它们也不适合于如前所述的本发明的目的。因此，需要一种先进的图像处理系统来识别图像中的人体肖像并进行分割，然后将图像中的对齐肖像输出。

技术实现要素：

8.本发明利用低成本神经网络来预测对象分割。本发明包括一种跳跃(skip)融合连接网络结构，它使用较少的隐藏层参数并大大降低了计算成本。
9.新兴且快速发展的智能移动设备的使用，使人们能够在一次点击距离内体验到更便捷、更智能的生活方式。不同于传统笨重的pc甚至笔记本电脑，智能手机以其超强的便携性和超强的计算能力成为了我们日常的得力助手。人们使用智能手机进行商务会议、订餐、
购买电影票。
10.除了基本的和被动的交互之外，人们现在期望与设备进行更深入的沟通，这迫使它具有更加智能的装备。得益于强大的深度学习技术，智能设备能够更好地理解世界。由于此类设备将经常与人类用户交互，因此对人体属性或行为的理解非常重要。
11.语义分割作为必不可少的基本功能，可以通过机器的语义级智能，以像素级的精度提供感兴趣对象在图像中的位置。它为摄影美化、ar、vr等商业应用方面的进一步处理和改进铺平了道路。然而，如何在边缘计算芯片上提供高质量和鲁棒的语义分割掩模，同时降低计算复杂度是非常具有挑战性的。
12.在深度神经网络盛行之前，希望实现人体肖像分割的研究人员需要手动提取肤色、体型、面部特征等特征，然后将这些发送到设计好的分类器(如adaboost)中。这些方法通常存在泛化不足的问题。它们对外部噪声很脆弱，例如光照变化、身体形状变形、甚至运动模糊。
13.深度学习网络的出现能够缓解此类问题，因为它们通过强大的回归能力从大量示例中学习。鲁棒性问题得到了很大改善，但仍不足以应用于工业应用，尤其是在嵌入式或移动设备上。
14.为了保证这个像素级分类问题的准确性，大多数研究人员使用了fcn等非常重的网络，这给设备带来了很大的计算成本。很少有创新设计高效但硬件友好的网络来平衡性能和复杂性之间的矛盾。
15.对细节进行分割需要额外的努力，这通常会导致更复杂的网络，如头部抠图。通过在训练期间应用损失惩罚是解决该问题的方法。
16.最后，对于训练集，为了提高样本的多样性，数据增强被广泛采用。然而，随着数据量的增加，人的位置分布将不太均匀。很少有工作解决这个问题，因为很少有高质量的人体分割数据集可用，并且为了适应低质量的标注，他们倾向于使用高复杂度的网络。如果希望减少网络的神经层，则要学习的目标问题的维度也应相应减少。
17.本发明的主要目的是提供一种新颖的人体肖像分割系统，其具有可部署的复杂性和卓越的性能。该系统是一种用于处理图像的图像处理系统，其中图像处理系统包括分类模块，该分类模块由编码器-解码器单元和跳跃融合连接逻辑组成。
18.编码器-解码器单元包括编码器和解码器。编码器从肖像区域中提取和分类多个区别特征和多个相似特征。所述多个相似特征是基于一个或多个预定义级别的语义类别进行分类的。解码器对一个或多个相似的特征进行细化，以生成多个细化的特征。跳跃融合连接逻辑将该多个细化特征级联以生成图像的细化肖像区域。
19.分层混合损失模块包括二元交叉熵(bce)损失单元、梯度损失单元和局部二元交叉熵(bce)损失单元。bce损失单元用于调节应用于细化肖像区域的第一部分上的第一掩模。梯度损失单元用于将第二掩模应用于细化肖像区域，并且局部二元交叉熵损失单元用于调节应用于细化肖像区域的第二部分上的第三掩模以形成掩模肖像区域。
20.以人体为中心(human centric)的数据增强模块用于对掩模肖像区域与中心区域进行预对齐，并生成输出图像。
21.本发明的另一个目的是提供一种具有轻跳跃连接融合的编码器-解码器架构，以生成图像的细化肖像区域。
22.本发明的另一个目的是提供用于丰富细节分割并形成掩模肖像区域的分层混合损失。
23.本发明的又一个目的是提供一种以人体为中心的数据增强方案，以使训练数据分布均匀，而且对掩模肖像区域与中心区域进行预对齐，并生成输出图像。
24.本发明的其他目的和方面将结合附图从以下详细描述中变得明显，这些附图通过示例的方式示出了根据本发明的实施例的特征。
25.为了实现上述和相关的目的，本发明可以以附图中所示的形式实施，但是要注意以下事实：附图仅是说明性的，并且可以在所附权利要求的范围内说明和描述的具体结构中做出改变。
26.尽管上面根据各种示例性实施例和实施方式描述了本发明，但是应当理解，在一个或多个单独的实施例中描述的各种特征、方面和功能不限于它们对特定实施例的适用性，相反，它们可以单独或以各种组合应用到本发明的其他实施例中的一个或多个，无论这些实施例是否被描述，以及这些特征是否被呈现为所描述实施例的一部分。因此，本发明的广度和范围不应受到任何上述示例性实施例的限制。
27.在某些情况下，诸如“一个或多个”、“至少”、“但不限于”或其他类似短语之类的扩展词和短语的存在不应被理解为在可能不存在此类扩展短语的情况下就意味着或者必须是较窄的情况。
附图说明
28.本发明的目的和特征将通过结合附图的以下描述和所附权利要求变得更加明显。理解这些附图仅描绘了本发明的典型实施例并且因此不应被视为限制其范围，将通过使用附图以额外的特性和细节来描述和解释本发明，其中：
29.图1示出了根据本发明的图像处理系统；
30.图2示出了图像处理系统的分类模块；
31.图3a示出了图像处理系统的分层混合损失模块；
32.图3b示出了根据本发明的分层混合损失的梯度损失单元；
33.图3c示出了根据本发明的分层混合损失中的分层混合损失模块；
34.图4a示出了图像处理系统的以人体为中心的数据增强模块；
35.图4b示出了根据本发明的以人体为中心的数据增强模块；和
36.图5图示了用于处理图像的方法。
具体实施方式
37.随着智能移动设备使用的出现和快速发展，人们能够在一次点击距离内体验到更加便捷和智能的生活方式。不同于传统笨重的pc甚至笔记本电脑，智能手机以其超强的便携性和超强的计算能力成为了我们日常的得力助手。人们使用智能手机进行商务会议、订餐、购买电影票。
38.除了基本和被动交互之外，人们现在期望与设备进行更深入的沟通，这迫使设备具有更加智能的装备。得益于强大的深度学习技术，智能设备能够更好地理解世界。由于此类设备将经常与人类用户交互，因此对人体属性或行为的理解非常重要。
39.语义分割作为必不可少的基本功能，可以通过机器的语义级智能，以像素级的精度提供感兴趣对象在图像中的位置。它为摄影美化、ar、vr等商业应用方面的进一步处理和改进铺平了道路。然而，如何在边缘计算芯片上提供高质量和鲁棒的语义分割掩模，同时降低计算复杂度是非常具有挑战性的。
40.本发明提出了一种人体分割方法，具有以下主要创新之处：(1)具有跳跃融合连接结构的轻巧而高效的编码器-解码器结构。(2)具有整体分割监督能力和细节刻画能力的混合损失。(3)用以实现使网络在实际用例中表现更好的新的分层数据增强方案。
41.本发明试图提供对肖像分割的改进。更具体地，本发明涉及对人体肖像分割的改进。此外，本发明提出了一种用于预测对象分割的低成本神经网络。本发明采用跳跃融合连接网络结构，其使用较少的隐藏层参数且大大降低了计算成本。为了处理具有挑战性的人体成分，例如头发和手，提出了一种分层混合损失，而不是具有设计权重的传统分割损失。
42.图1图示了根据本发明的图像处理系统。该系统是用于处理图像的图像处理系统100。特别地，系统100通过从图像中分割出肖像区域来处理图像。此外，图像处理系统包括分类模块200、分层混合损失模块300和以人体为中心的数据增强模块400。
43.分类模块200包括编码器-解码器单元和跳跃融合连接逻辑。编码器-解码器单元包括编码器和解码器。编码器从肖像区域中提取和分类多个区别特征和多个相似特征。此外，多个相似特征是基于一个或多个预定义级别的语义类别进行分类的。编码器和解码器形成多个层。解码器对一个或多个相似特征进行细化，以生成多个细化的特征。
44.跳跃融合连接逻辑将多个细化特征级联以生成图像的细化肖像区域。跳跃融合连接逻辑重新使用一个或多个预定义级别中的每一个中的多个细化特征，以级联编码器和解码器层中的一个或多个预定义级别。合成是通过对跳跃融合连接逻辑与融合神经元进行加法操作来执行的。融合神经元被训练来学习多个相似特征之间的融合比率。跳跃融合连接逻辑基于大小相似性和通道数来级联多个细化特征，用以添加连接。
45.分层混合损失模块300包括二元交叉熵(bce)损失单元、梯度损失单元和局部二元交叉熵(bce)损失单元。bce损失单元调节应用于细化肖像区域的第一部分上的第一掩模。梯度损失单元用于将第二掩模应用于细化肖像区域，并且局部二元交叉熵损失单元用于调节应用于细化肖像区域的第二部分上的第三掩模以形成掩模肖像区域。第一部分包括人体，而第二部分包括人体的手或头发。
46.此外，梯度损失单元是使用索贝尔算子计算的。梯度损失单元用于惩罚原始图像肖像区域中的一个或多个隆起。一个或多个隆起包括头发或胡须。分层混合损失单元的公式是通过组合bce损失单元、梯度损失单元和局部bce损失单元中的每一个来计算的。分层混合损失单元使用多个权重参数之一进行调整。
47.以人体为中心的数据增强模块400用于对掩模肖像区域和中心区域进行预对齐，并生成输出图像。
48.图2图示了图像处理系统的分类模块200。分类模块200用于对图像的肖像区域进行分类。分类模块包括编码器-解码器单元202和跳跃融合连接逻辑208。
49.编码器-解码器单元202包括编码器204和解码器206。编码器204从肖像区域中提取和分类多个区别特征和多个相似特征。然后基于一个或多个预定义级别的语义类别对多个相似特征进行分类。解码器206细化一个或多个相似特征以生成多个细化特征。跳跃融合
连接逻辑208用于级联多个细化特征以生成图像的细化肖像区域。
50.本质上是像素级分类问题的图像分割通常需要更复杂的结构来表示区域像素与整体语义分类的关系。编码器-解码器结构适用于这个问题，因为编码器能够以不同级别提取区别特征和语义特征，而解码器将有助于沿其上采样路径细化语义细节。
51.然而，纯编码器-解码器流水线缺乏对应层之间的通信并导致缺乏足够的特征细节。为了提高特征的使用率，提出了一种跳跃融合连接方案。
52.跳跃连接将重新使用编码器204的每个级别中的特征，并通过连接编码器和解码器层中的特征的对应级别来提高训练期间的收敛速度。
53.最直接的跳跃连接方案是将每个对应层中具有相同大小的特征级联起来，以保留网络内的原始描述。但是，这将不可避免地增加框架的复杂性。有时，至少是解码器的计算强度的两倍。为了解决这个问题，提出了一种跳跃连接与融合神经元的加法操作方式，这要求对应层的特征不仅大小相同，而且通道数相同，这样对应的特征才能相加。
54.融合神经元可以被训练以学习特征编码器和解码器之间的融合比率。以这种方式，可以降低所得网络的复杂性。在训练过程中，反向传播将迫使网络从这种简化的跳跃连接融合中学习到好处，并产生良好的性能。
55.图3a图示了图像处理系统内的分层混合损失模块300a。分层混合损失模块300a包括bce损失单元302、梯度损失单元304和局部bce损失单元306。二元交叉熵(bce)损失单元302调节应用于细化肖像区域的第一部分上的第一掩模。梯度损失单元304用于将第二掩模应用于细化肖像区域。局部二元交叉熵(bce)损失单元306用于调节应用于细化肖像区域的第二部分上的第三掩模以形成掩模肖像区域。
56.在这个提议中使用的损失有几个部分，第一个是传统的bce损失(binary cross entropy)，用以规范整个掩模的分割。此外，将梯度损失应用于原始图像和预测掩模以保留丰富的细节，并且利用sobel算子来计算梯度。
57.对掩模图像之间的差异进行惩罚。由于其极度非线性的局部模式，一些特定的身体组件(例如人的手)通常很难处理。为了解决这个问题，提出了额外的手损失。这是只考虑手边界框内的区域的局部bce损失。为了使用这种损失，我们还在分割的真实数据(ground truth)中标注了手部区域。以这种方式，在传统损失之上，局部损失被呈现以细化结果，从而使掩模的结果以分层方式呈现。连同调整的权重参数，所有损失结合在一起，得到以下公式。
58.图3b图示了根据本发明的梯度损失单元300b。本提案中使用的损失有几个部分。第一个是传统的bce(binary cross entropy)损失来调节整个掩模的分割。此外，对原始图像和预测掩模应用梯度损失以保留丰富的细节，并使用sobel算子结合以下公式计算梯度。
[0059][0060]
然后对掩模图像之间的差异进行惩罚。
[0061]
第一个图呈现了梯度损失，这有助于丰富的细节，尤其是在头发区域。梯度损失利用图像308来对所有隆起310进行掩模处理并且在图像上放置掩模覆盖层312。梯度损失将惩罚任何图像级别的隆起，而bce损失将约束人类的语义掩模。它们的组合使网络能够识别
所谓的语义隆起，例如头发。
[0062]
图3c图示了根据本发明的分层混合损失模块300c。本提案中使用的分层混合损失有几个部分，第一个是传统的bce(binary cross entropy)损失其调节整个掩模的分割。此外，对原始图像和预测掩模应用梯度损失以保留丰富的细节，并使用sobel算子结合以下公式计算梯度。
[0063][0064]
然后，对图像与第2层318之间的差异进行惩罚。正如在314中观察到的，由于其极度非线性的局部模式，一些特定的身体组件(例如人的手)通常很难处理。为了解决这个问题，在316中观察到了额外的手部损失。这是一种局部bce损失，只考虑手部边界框内的区域。为了使用这种损失，我们还在分割的真实数据中标记了手部区域。以这种方式，在传统损失之上，局部损失被呈现以细化结果，从而使掩模的结果以分层方式呈现。连同调整的权重参数，所有损失结合在一起，得到以下公式。
[0065]
l_total＝l_bce(image)*w_image l_bce(hand)*w_hand grd(image)*w_image
[0066]
具有所应用的、建议的损失的掩模的结果318在图3c中显示为314和316。图3b表示梯度损失，它有助于丰富细节，尤其是在头发区域。梯度损失将惩罚图像级别的任何隆起，而bce损失将约束人类的语义掩模。它们的组合使网络能够识别所谓的语义隆起，例如头发。
[0067]
此外，该图显示了分层混合损失和传统bce损失的比较结果。首先，对于直接视觉性能，具有混合损失的方案对人手区域进行了更好和更完整地掩模分割。此外，由于分层损失的参与，结果掩模成为一个连续的分布，背景在0-0.3范围内，前景人体在0.6-0.8范围内，并且手部区域在0.8以上，因为它受到了额外的手损失作为严重惩罚。
[0068]
此外，分割不再是二元分类问题，而是成为有利于网络收敛性的回归问题。并且网络能够识别它应该关注哪个部分，并付出更多的努力来学习以获得更好的结果。
[0069]
图4a图示了图像处理系统中的以人体为中心的数据增强模块400a。以人体为中心的数据增强模块用于对掩模肖像区域与中心区域进行预对齐，并生成输出图像。
[0070]
训练数据402的预对齐是由预对齐单元404执行的。下图中描绘了工作流程。在图像和掩模中，可以在掩模中找到人体的中心和大小。计算出对应的仿射变换矩阵，使得其在被应用后，原始人体肖像会移动到图像的中心区域，同时进行相对一致的缩放。
[0071]
图4b示出了根据本发明的以人体为中心的数据增强模块400b。在准备训练数据时，数据的分布应该与实际用例一致，这样网络才能在类似的场景下表现良好。因此，我们在训练期间在传统数据增强方案之上提出了附加的增强过程。可以看到，帧406中的主要人体有很大的概率位于中心。
[0072]
因此，应该对训练数据进行预对齐。工作流程如下图所示。给定肖像图像的掩模中心和尺寸，在掩模中找到人体的中心和尺寸408。计算相应的仿射变换矩阵，以便在其被应用后，原始人体肖像将移动到图像的中心区域410，并进行相对一致的缩放412。这样，可以覆盖大部分用户情况。
[0073]
此外，该处理过程还有一个优点，即背景人将被很好地抑制，这有助于在采用诸如
散焦之类的摄影效果时方便操作。在以人体为中心的对齐410之后执行增强414，以可控方式执行诸如旋转、平移、缩放之类的传统数据增强策略，从而得到预对齐后的训练数据416。
[0074]
图5图示了用于处理图像的方法500。该方法包括：502：通过编码器提取多个区别特征和多个相似特征。多个区别特征和多个相似特征来自一个或多个预定义级别的图像。504：基于语义分类对多个相似特进行分类。
[0075]
506：通过解码器细化一个或多个相似特征以生成多个细化特征。508：将一个或多个具有相同大小的细化特征级联起来；510：通过跳跃融合连接逻辑生成细化肖像区域。
[0076]
512：基于二元交叉熵(bce)损失在细化肖像区域的第一部分上应用第一掩模。514：基于梯度损失在细化肖像区域上应用第二掩模，516：基于局部二元交叉熵(bce)损失在细化肖像区域的第二部分上应用第三掩模。
[0077]
518：基于将权重与二元交叉熵(bce)损失、梯度损失和局部二元交叉熵(bce)损失中的每一个相关联来调整分层混合损失以生成经掩模的肖像区域。520：通过以人体为中心的数据增强模块对掩模肖像区域与中心区域进行预对齐，以生成输出图像。
[0078]
虽然上面已经描述了本发明的各种实施例，但是应该理解它们只是作为示例而不是限制性的方式呈现的。同样，该图可以描绘本发明的示例架构或其他配置，这样做是为了帮助理解可以包括在本发明中的特征和功能。本发明不限于图示的示例架构或配置，而是可以使用各种替代架构和配置来实现期望的特征。
[0079]
尽管以上根据各种示例性实施例和实施方式描述了本发明，但应当理解，在一个或多个单独实施例中描述的各种特征、方面和功能不限于它们对特定实施例的适用性。描述它们的实施例，但可以单独或以各种组合应用到本发明的其他实施例中的一个或多个，无论这些实施例是否被描述，以及这些特征是否被呈现为一部分描述的实施例。因此，本发明的广度和范围不应受到任何上述示例性实施例的限制。
[0080]
在某些情况下，诸如“一个或多个”、“至少”、“但不限于”或其他类似短语之类的扩大词和短语的存在不应被理解为在可能不存在此类扩展短语的情况下意指或需要较窄的情况。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：装修资源确定方法、装置、计算机程序产品和存储介质与流程

用于处理图像的图像处理系统及方法与流程

相关文献

最热文献