目标检测方法、装置、电子设备及存储介质与流程

2022-08-11 05:47:55 来源：中国专利 TAG：

1.本公开实施例涉及图像处理领域，尤其涉及一种目标检测方法、装置、电子设备及存储介质。

背景技术：

2.目标检测，是一种用于将目标图像从背景中检测出来的技术。随着计算机技术的发展和计算机视觉原理的广泛应用，对于目标检测的研究越来越热门，其应用也日益广泛。
3.例如，当用户将图像上传至某一网站时，该网站会对用户上传的图像进行水印检测，当发现竞手的水印时，会根据实际的业务需求进行处理。在该应用场景中，水印即为目标图像。
4.然而，在目标检测的过程中，检测较为复杂的、尺寸所占图像比例较大的目标图像，其准确率和召回率均有良好的性能。但在检测较为简单的目标图像时，在确保召回率的情况下，准确率的性能较差，会出现较多的误检情况。

技术实现要素：

5.鉴于此，为解决上述部分或全部技术问题，本公开实施例提供一种目标检测方法、装置、电子设备及存储介质。
6.第一方面，本公开实施例提供一种目标检测方法，上述方法包括：
7.获取待检测图像；
8.确定上述待检测图像中的候选图像，上述候选图像与目标图像的近似度大于第一预设值；
9.确定上述待检测图像中的文本，确定上述候选图像与上述文本的相对位置；
10.基于上述相对位置是否符合预设位置条件，确定上述候选图像是否为上述目标图像。
11.可选地，在本公开任一实施例的方法中，上述确定上述待检测图像中的文本，包括：
12.如果上述候选图像与目标图像的近似度大于上述第一预设值且小于第二预设值，则执行上述确定上述待检测图像中的文本的步骤，其中，上述第二预设值大于上述第一预设值；以及
13.上述方法还包括：
14.如果上述候选图像与上述目标图像的近似度大于或等于上述第二预设值，则确定上述候选图像为上述目标图像。
15.可选地，在本公开任一实施例的方法中，上述预设位置条件包括以下至少一项：
16.上述文本的参考点位置与上述候选图像的参考点位置之间的水平距离，小于或等于预设水平距离阈值；
17.上述文本的参考点位置与上述候选图像的参考点位置之间的垂直距离，小于或等
于预设垂直距离阈值。
18.可选地，在本公开任一实施例的方法中，所述文本的参考点位置为所述文本的中心位置。
19.可选地，在本公开任一实施例的方法中，所述候选图像的参考点位置为所述候选图像的中心位置。
20.可选地，在本公开任一实施例的方法中，上述目标图像符合以下至少一项条件：
21.上述目标图像的图像复杂度小于或等于预设图像复杂度阈值；
22.上述目标图像在上述待检测图像中所占比例小于或等于预设比例阈值；
23.上述目标图像与上述目标图像的邻域图像区域的相似度大于或等于预设相似度阈值；
24.上述目标图像的透明度大于或等于预设透明度阈值；
25.上述目标图像的颜色为预设颜色。
26.可选地，在本公开任一实施例的方法中，上述目标图像为预先确定的产品的标识图像。
27.可选地，在本公开任一实施例的方法中，上述文本为上述产品的用户名，上述产品的不同用户具有不同的用户名。
28.第二方面，本公开实施例提供一种目标检测装置，上述装置包括：
29.获取单元，被配置成获取待检测图像；
30.第一确定单元，被配置成确定上述待检测图像中的候选图像，上述候选图像与目标图像的近似度大于第一预设值；
31.第二确定单元，被配置成确定上述待检测图像中的文本，确定上述候选图像与上述文本的相对位置；
32.第三确定单元，被配置成基于上述相对位置是否符合预设位置条件，确定上述候选图像是否为上述目标图像。
33.可选地，在本公开任一实施例的装置中，第二确定单元，具体被配置成：
34.如果上述候选图像与目标图像的近似度大于上述第一预设值且小于第二预设值，则执行上述确定上述待检测图像中的文本的步骤，其中，上述第二预设值大于上述第一预设值；以及
35.上述装置还包括：
36.第四确定单元，被配置成如果上述候选图像与上述目标图像的近似度大于或等于上述第二预设值，则确定上述候选图像为上述目标图像。
37.可选地，在本公开任一实施例的装置中，上述预设位置条件包括以下至少一项：
38.上述文本的参考点位置与上述候选图像的参考点位置之间的水平距离，小于或等于预设水平距离阈值；
39.上述文本的参考点位置与上述候选图像的参考点位置之间的垂直距离，小于或等于预设垂直距离阈值。
40.可选地，在本公开任一实施例的装置中，上述文本的参考点位置为上述文本的中心位置。
41.可选地，在本公开任一实施例的装置中，上述候选图像的参考点位置为上述候选
图像的中心位置。
42.可选地，在本公开任一实施例的装置中，上述目标图像符合以下至少一项条件：
43.上述目标图像的图像复杂度小于或等于预设图像复杂度阈值；
44.上述目标图像在上述待检测图像中所占比例小于或等于预设比例阈值；
45.上述目标图像与上述目标图像的邻域图像区域的相似度大于或等于预设相似度阈值；
46.上述目标图像的透明度大于或等于预设透明度阈值；
47.上述目标图像的颜色为预设颜色。
48.可选地，在本公开任一实施例的装置中，上述目标图像为预先确定的产品的标识图像。
49.可选地，在本公开任一实施例的装置中，上述文本为上述产品的用户名，上述产品的不同用户具有不同的用户名。
50.第三方面，本公开实施例提供一种电子设备，包括：
51.存储器，用于存储计算机程序；
52.处理器，用于执行上述存储器中存储的计算机程序，且上述计算机程序被执行时，实现本公开上述第一方面的目标检测方法中任一实施例的方法。
53.第四方面，本公开实施例提供一种计算机可读介质，该计算机程序被处理器执行时，实现如上述第一方面的目标检测方法中任一实施例的方法。
54.第五方面，本公开实施例提供一种计算机程序，该计算机程序包括计算机可读代码，当该计算机可读代码在设备上运行时，使得该设备中的处理器执行用于实现如上述第一方面的目标检测方法中任一实施例的方法中各步骤的指令。
55.本公开实施例提供的目标检测方法，通过获取待检测图像，确定上述待检测图像中的候选图像，上述候选图像与目标图像的近似度大于第一预设值，之后，确定上述待检测图像中的文本，确定上述候选图像与上述文本的相对位置，随后，基于上述相对位置是否符合预设位置条件，确定上述候选图像是否为上述目标图像。由此方法，通过判断待检测图像中的候选图像，与该待检测图像中的文本之间的相对位置，是否符合针对文本与目标图像设置的预设位置条件，来确定候选图像是否为目标图像，进而实现目标检测，由此，可以更大程度上兼顾对目标图像进行目标检测的准确度和召回率。
附图说明
56.图1为本公开实施例提供的一种目标检测方法的流程示意图；
57.图2为本公开实施例提供的另一种目标检测方法的流程示意图；
58.图3a-图3b为本公开实施例提供的又一种目标检测方法的流程示意图；
59.图4为本公开实施例提供的一种目标检测装置的结构示意图；
60.图5为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
61.现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值并不限制
本公开的范围。
62.本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等对象，既不代表任何特定技术含义，也不表示它们之间的逻辑顺序。
63.还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。
64.还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。
65.另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。
66.还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。
67.以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。
68.对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，上述技术、方法和设备应当被视为说明书的一部分。
69.应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。
70.需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。为便于对本公开实施例的理解，下面将参考附图并结合实施例来详细说明本公开。显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。
71.图1为本公开实施例提供的一种目标检测方法的流程示意图，如图1所示，该方法具体包括：
72.101、获取待检测图像。
73.在本公开实施例中，目标检测方法的执行主体(例如终端设备、服务器、目标检测装置等)，可以获取待检测图像。
74.其中，上述待检测图像可以是待对其进行检测的任意一张或多张图像。作为示例，待检测图像可以是用户上传的图像、终端设备呈现的图像、存储器中存储的图像等等。
75.102、确定上述待检测图像中的候选图像，上述候选图像与目标图像的近似度大于第一预设值。
76.在本实施例中，上述执行主体可以确定上述待检测图像中的候选图像。其中，上述候选图像与目标图像的近似度大于第一预设值。第一预设值，可以是预先确定的近似度数值，作为示例，第一预设值可以是0。
77.在一些情况下，候选图像可以为上述执行主体在检测待检测图像中的目标图像的过程中，所确定出的图像。换言之，上述执行主体在检测待检测图像中的目标图像的过程中所确定出的图像(也即上述候选图像)，与目标图像的近似度大于第一预设值。
78.实践中，可以在以下场景中，确定上述候选图像与目标图像的近似度大于第一预设值：上述执行主体在检测待检测图像中的目标图像的过程中确定出了图像。
79.在上述场景中，上述执行主体在检测待检测图像中的目标图像的过程中，可以采用目标检测框来框选出候选图像，并且，每个目标检测框对应一个该框内包含目标图像的置信度。其中，上述置信度指示目标检测框内包含目标图像的概率。
80.作为示例，上述执行主体可以采用如下方式，来确定上述置信度：
81.将上述待检测图像输入至预先训练的置信度确定模型，通过该置信度确定模型来对待检测图像进行图像识别，以确定目标检测框内包含目标图像的置信度。其中，上述置信度确定模型可以是采用机器学习算法训练得到的卷积神经网络等模型。
82.在上述情况中，上述执行主体可以采用如下方式，来确定待检测图像中是否包括候选图像：
83.对待检测图像中的目标图像进行目标检测，如果检测到目标图像，则将所检测到的该图像作为候选图像。
84.可以理解，通常，在进行目标检测的过程中往往存在一定的误检率，因而，这里在检测到目标图像的情况下，并非将所检测到的图像直接确定为目标图像，而是首先将其作为候选图像，以便后续进一步判断其是否为目标图像。
85.上述目标图像，可以是预先确定其特征的任意一个或多个图像。作为示例，目标图像可以包括预先确定其形状、颜色、纹理结构中的至少一项特征的水印。例如，目标图像可以是社交软件的水印。
86.在这里，上述执行主体可以通过在待检测图像中，对目标图像进行目标检测，来确定候选图像在待检测图像中的位置。
87.103、确定上述待检测图像中的文本，确定上述候选图像与上述文本的相对位置。
88.在本实施例中，上述执行主体可以确定上述待检测图像中的文本，确定上述候选图像与上述文本的相对位置。
89.其中，文本，可以是是预先确定其特征的任意一个或多个字符。作为示例，文本可以包括预先确定其字体、颜色中的至少一项特征的水印。例如，文本可以是由上述社交软件的用户的用户名形成的水印。
90.此外，文本在待检测图像中的位置，可以为文本所在的文本行的位置。
91.这里，可以采用如下方式，来确定上述文本行的位置：
92.首先，截取上述待检测图像中包括上述候选图像的图像区域。
93.其中，上述图像区域，可以是待检测图像中包括上述候选图像的任意图像区域。该图像区域可以采用多种方式来确定。作为示例，可以将上述候选图像的中心像素作为基准像素点，将包含该基准像素点、该基准像素点的上下各第一预设数量个像素点，以及该基准像素点的上下各第二预设数量个像素点的图像区域，作为上述执行主体截取的图像区域。例如，可以将上述目标图像的中心像素、中心像素的上下各100个像素点、以及中心像素的上下各250个像素点的图像区域，作为上述执行主体截取的图像区域。
94.之后，采用文本检测算法，对上述图像区域进行文本检测，得到上述文本的文本行所在的位置。
95.进一步地，上述执行主体可以确定出上述候选图像与上述待检测图像中的文本之
间的相对位置。
96.104、基于上述相对位置是否符合预设位置条件，确定上述候选图像是否为上述目标图像。
97.在本实施例中，上述执行主体可以基于上述相对位置是否符合预设位置条件，来确定上述候选图像是否为上述目标图像。
98.其中，上述文本与上述目标图像之间的相对位置符合上述预设位置条件。换言之，在生成包含目标图像和文本的图像(例如上述待检测图像)的过程中，该图像中的目标图像，与该图像中的文本之间的相对位置需符合预设位置条件。
99.预设位置条件，可以是预先确定的、表征目标图像和文本之间的位置关系的条件。
100.具体地，如果上述待检测图像中包括上述文本，那么，上述执行主体可以进一步确定上述待检测图像中包括的文本和候选图像之间的相对位置是否符合预设位置条件(例如候选图像和文本之间相距预设数量个像素点、候选图像的中央像素点和文本的中央像素点位于图像的同一行)。如果文本和候选图像之间的相对位置符合预设位置条件，则确定候选图像为目标图像，也即，上述待检测图像中包括上述目标图像。如果文本和候选图像之间的相对位置不符合预设位置条件，则确定候选图像并非目标图像，也即，上述待检测图像中不包括目标图像。
101.如果上述检测结果并非指示上述待检测图像中包括上述文本，则确定上述待检测图像中不包括上述目标图像。
102.在本实施例的一些可选的实现方式中，上述预设位置条件包括以下至少一项：
103.第一项，上述文本的参考点位置与上述候选图像的参考点位置之间的水平距离，小于或等于预设水平距离阈值。
104.第二项，上述文本的参考点位置与上述候选图像的参考点位置之间的垂直距离，小于或等于预设垂直距离阈值。
105.其中，上述参考点位置可以是端点位置、中心位置等。
106.在上述可选的实现方式中的一些应用场景下，上述文本的参考点位置为上述文本的中心位置。
107.在上述可选的实现方式中的一些应用场景下，上述候选图像的参考点位置为上述候选图像的中心位置。
108.在上述可选的实现方式中的一些应用场景下，上述文本的参考点位置为上述文本的中心位置，并且，上述候选图像的参考点位置为上述候选图像的中心位置。
109.可选的，上述预设位置条件也可以是：上述文本行环绕上述候选图像行设置。
110.可以理解，用户在使用产品发布图像的过程中，可以通过该产品为该图像自动生成并添加目标图像和文本，以区分发布图像的产品，以及图像的发布者。这里，上述产品为图像自动生成并添加的目标图像和文本可以符合上述预设位置条件，由此，可以使得生成的图像(例如上述待检测图像)中的目标图像和文本符合预设文本行生成条件。
111.具体地，如果上述相对位置符合上述预设位置条件，那么，上述执行主体可以确定上述候选图像为目标图像；如果上述相对位置不符合上述预设位置条件，那么，上述执行主体可以确定上述候选图像不是目标图像。
112.在本实施例的一些可选的实现方式中示例性的，上述目标图像符合以下至少一项
条件(包括条件一至条件五)：
113.条件一：上述目标图像的图像复杂度小于或等于预设图像复杂度阈值。
114.其中，上述图像复杂度可以表征图像的复杂程度。实践中，图像复杂度可以采用图像纹理的复杂程度来表征。这里，图像纹理的复杂程度可以采用灰度共生矩阵计算得到，也可以采用灰度协方差矩阵计算得到。
115.可以理解，上述条件一可以用于筛选出图像复杂度小于或等于预设图像复杂度阈值的目标图像。
116.条件二：上述目标图像在上述待检测图像中所占比例小于或等于预设比例阈值。
117.其中，上述预设比例阈值可以是预先确定的比例值。作为示例，预设比例阈值可以是0.05、0.1等等。
118.可以理解，上述条件二可以用于筛选出所占比例小于或等于预设比例阈值的目标图像。
119.条件三：目标图像与上述目标图像的邻域图像区域的相似度大于或等于预设相似度阈值。
120.其中，上述目标图像的邻域图像区域可以采用多种方式来确定。作为示例，可以将上述目标图像的中心像素为基准像素点，将包含该基准像素点、该基准像素点的上下各第一预设数量个像素点，以及该基准像素点的上下各第二预设数量个像素点的图像区域，作为上述目标图像的邻域图像区域。例如，可以将上述目标图像的中心像素、中心像素的上下各100个像素点、以及中心像素的上下各250个像素点的图像区域，作为上述目标图像的邻域图像区域。
121.可以理解，上述条件三可以用于筛选出邻域图像区域的相似度大于或等于预设相似度阈值的目标图像。
122.条件四：上述目标图像的透明度大于或等于预设透明度阈值。
123.其中，上述预设透明度阈值可以是预先确定的透明度值。
124.可以理解，上述条件四可以用于筛选出透明度大于或等于预设透明度阈值的目标图像。
125.条件五：上述目标图像的颜色为预设颜色。
126.其中，上述预设颜色可以是预先确定的颜色。作为示例，预设颜色可以是白色或类白色。可选的，预设颜色也可以通过确定图像的rgb(redgreenblue，红绿蓝)值来设定。
127.可以理解，上述条件五可以用于筛选出颜色为预设颜色的目标图像。
128.在本实施例的一些可选的实现方式中，上述目标图像为预先确定的产品的标识图像。其中，上述产品可以是虚拟产品也可以是实物产品。作为示例，上述产品可以是软件应用(例如上述社交软件)。上述标识图像可以是预先确定的产品的标识。作为示例，标识图像可以是产品的商标图像、名称图像等等。
129.在本实施例的一些可选的实现方式中，上述文本为上述产品的用户名，上述产品的不同用户具有不同的用户名。作为示例，如果用户a的用户名为“123”，那么，与用户a对应的文本可以为“123”并且，在此情况下，除用户a之外的其他任一用户无法使用“123”作为用户名。这里，文本可以是用户a发布的图像中包含的用户名。用户在使用上述产品发布图像的过程中，可以为该图像自动生成并添加目标图像和文本，以区分图像的发布应用和发布
者。这里，上述产品为图像自动生成并添加的目标图像，可以符合上述条件一至条件五中的至少一项，为图像自动生成并添加的文本和目标图像之间的相对位置可以符合上述预设位置条件。
130.本公开实施例提供的目标检测方法，通过获取待检测图像，确定上述待检测图像中的候选图像，上述候选图像与目标图像的近似度大于第一预设值，之后，确定上述待检测图像中的文本，确定上述候选图像与上述文本的相对位置，随后，基于上述相对位置是否符合预设位置条件，确定上述候选图像是否为上述目标图像。由此方法，通过判断待检测图像中的候选图像，与该待检测图像中的文本之间的相对位置，是否符合针对文本与目标图像设置的预设位置条件，来确定候选图像是否为目标图像，进而实现目标检测，由此，可以更大程度上兼顾对目标图像进行目标检测的准确度和召回率。
131.图2为本公开实施例提供的另一种目标检测方法的流程示意图，如图2所示，该方法具体包括：
132.201、获取待检测图像。
133.在本公开实施例中，目标检测方法的执行主体(例如终端设备、服务器、目标检测装置等)，可以获取待检测图像。之后，执行步骤202。
134.在本公开实施例中，步骤201的执行方式可以参照上述步骤101，在此不再赘述。
135.202、确定上述待检测图像中的候选图像，上述候选图像与目标图像的近似度大于第一预设值。
136.在本实施例中，上述执行主体可以确定上述待检测图像中的候选图像。其中，上述候选图像与目标图像的近似度大于第一预设值。之后，执行步骤203。
137.在本公开实施例中，步骤202的执行方式可以参照上述步骤102，在此不再赘述。
138.203、确定上述候选图像与目标图像的近似度是否小于第二预设值。
139.在本实施例中，上述执行主体可以确定上述候选图像与目标图像的近似度是否小于第二预设值。其中，第二预设值大于上述第一预设值。之后，若是，则执行步骤204；若否，则执行步骤206。
140.这里，上述候选图像与目标图像的近似度，可以为候选图像所在的目标检测框内包含目标图像的置信度。在此情况下，上述第二预设值可以是预先确定的置信度数值。作为示例，上述第二预设值可以是0.8、0.9等等。
141.204、确定上述待检测图像中的文本，确定上述候选图像与所述待检测图像中的上述文本之间的相对位置。
142.在本实施例中，上述执行主体可以确定上述待检测图像中的文本，确定上述候选图像与所述待检测图像中的上述文本之间的相对位置。之后，执行步骤205。
143.在本公开实施例中，步骤204的执行方式可以参照上述步骤103，在此不再赘述。
144.205、基于上述相对位置是否符合预设位置条件，确定上述候选图像是否为上述目标图像。
145.在本实施例中，上述执行主体可以基于上述相对位置是否符合预设位置条件，确定上述候选图像是否为上述目标图像。
146.在本公开实施例中，步骤205的执行方式可以参照上述步骤104，在此不再赘述。
147.206、确定上述候选图像为上述目标图像。
148.在本实施例中，上述执行主体可以确定上述候选图像为上述目标图像。
149.本公开实施例提供的目标检测方法中，在候选图像与目标图像的近似度小于第二预设值的情况下，再检测待检测图像中的文本，进而通过判断候选图像与文本之间的相对位置是否符合预设位置条件，来判断候选图像是否为目标图像。而如果上述近似度大于上述第二预设值，则直接确定上述候选图像为上述目标图像，进而确定上述待检测图像中包括上述目标图像，由此提高了确定待检测图像中是否包括目标图像的速度。
150.图3为本公开实施例提供的又一种目标检测方法的流程示意图，本方法可以应用于社交软件、购物软件、新闻发布平台等场景中。本方法可以应用在终端、服务端等一类电子设备上。
151.作为一种示例，该方法具体包括：获取待检测图像，确定上述待检测图像中的候选图像，上述候选图像与目标图像的近似度大于第一预设值，之后，确定上述待检测图像中的文本，确定上述候选图像与上述文本的相对位置，随后，基于上述相对位置是否符合预设位置条件，确定上述候选图像是否为上述目标图像。
152.具体而言，进一步参照图3a所示，对上述示例进行说明：
153.实践中，在针对水印(例如包括上述社交软件的水印、其他软件的水印)的检测场景中，由于一些水印(例如上述社交软件的水印)的特征不明显，且水印在图像中所占比例较小，由此往往导致误检测较多。因此，需要提升此类水印检测的准确性，有效的将检测出的出现错误的水印过滤掉。
154.下面将图像中的上述社交软件的水印作为目标图像，将该社交软件的用户的的用户名作为文本，对上述示例进行说明：
155.在检测到图像(也即上述待检测图像)中的水印后，通过检测算法可获得检测到的水印的类别信息(类别信息可以指示上述社交软件的水印，或者，其他软件的水印)、位置信息、置信度信息(例如上述候选图像所在的目标检测框内包含目标图像的置信度)。此处假设水印的类别信息指示所检测到的候选图像为目标图像，也即，水印的类别信息指示所检测到的候选图像为上述社交软件的水印。
156.之后，通过置信度信息，可将置信度较低的检测结果过滤掉。对于上述社交软件的水印，为确保算法的高召回，需将置信度过滤的阈值设置较低，因此会产生较多的误检情况。这里通过将阈值较低的检测结果，再次通过对检测到的上述社交软件的水印周围的图像进行文字检测，通过文字检测得到的每一行文字位置信息，来反向判断该低置信度的目标物体是否为正确的上述社交软件的水印。
157.当物体检测算法检测到图像中含有候选图像，且该候选图像为目标图像的置信度高于所设置的阈值(也即上述第二预设值)时，会产生以下几种结果：
158.结果一、如检测到候选图像，且该候选图像为目标图像的置信度高于需要进行二次文字检测所设置的阈值(也即上述第二预设值)，则不做二次文字检测来反向确认该物体检测的结果是否正确。例如，检测到候选图像，且该候选图像为目标图像的置信度(例如0.95)高于需要进行二次文字检测所设置的阈值(例如0.8)，则不做二次文字检测，可以直接确定待检测图像中包括目标图像，也即上述社交软件的水印。
159.结果二、如检测到候选图像，且该候选图像为目标图像的置信度低于需要进行二次文字检测所设置的阈值(也即上述第二预设值)，则需要二次文字检测。例如，检测到候选
图像，且该候选图像为目标图像的置信度(例如0.73)低于需要进行二次文字检测所设置的阈值(例如0.8)，因此需要二次文字检测。如果检测到文字信息，则可确定待检测图像中包括目标图像。
160.结果三、如检测到候选图像，且该候选图像为目标图像的置信度低于需要进行二次文字检测所设置的阈值(也即上述第二预设值)，则需要二次文字检测。例如，检测到候选图像，且该候选图像为目标图像的置信度(例如0.72)低于需要进行二次文字检测所设置的阈值(例如0.8)，因此需要二次文字检测。具体地，如果只检测到了部分文字信息，但可通过检测到的文本行的高度信息和相对位置，则可以确定待检测图像中包括目标图像。
161.结果四、如检测到候选图像，且该候选图像为目标图像的置信度低于需要进行二次文字检测所设置的阈值(也即上述第二预设值)，则需要二次文字检测。例如，如果未检测到文字信息，则可反向确定待检测图像中不包括目标图像。
162.如图3b所示，当需要二次检测时，对候选图像附近的图像数据进行截取，通过借助文本检测算法，可检测到截取图像中所包含的文本行信息。当存在文本行的参考点位置与候选图像的参考点位置的绝对值小于一个固定阈值，检测到的候选图像的高度与检测到的文本行的高度小于一个固定方式计算的阈值，文本行出现在候选图像后方，或者，候选图像与文本框紧密相连，且文本框出现在候选图像的右侧，或者，上述候选图像与文本框存在一定的距离(由于文字过浅导致文本行检测不够完整)但文本框出现在候选图像的右侧。则确定待检测图像中包括目标图像，并可进行输出。
163.同样，当需要二次检测时，对候选图像附近的图像数据进行截取，通过借助文本检测算法，可检测到截取图像中所包含的文本行信息。如果检测到的文本行出现在其他位置且不符合上述预设位置条件，则认为文本检测为无效的检测，也即确定待检测图像中不包括目标图像，因此认为该水印检测为误检测，不做任何的输出。
164.同样，当需要二次检测时，对候选图像附近的图像数据进行截取，如借助于文本检测算法，未检测到文本行信息，如果未发现任何文本行信息，则认为该水印检测为误检测，不做任何输出。
165.实践中，当用户将图像上传至一些网站时，通常会对用户上传的图像进行水印检测，当发现竞手的水印时，会根据实际的业务需求进行处理。目前可通过物体检测技术对图像中的水印进行检测，如检测一张带有特定水印(例如上述社交软件的水印)的图像。通常，在物体检测的过程中，检测较为复杂且尺寸所占图像比例较大的水印，准确率和召回率均有良好的性能。但在检测较为简单的水印时，在确保召回率的情况下，准确率的性能较差，会出现较多的误检情况。如检测上述社交软件的水印，则无论是从水印的复杂程度角度，还是从水印的颜色角度，再或者是从水印在图像中的所占比例角度，都不利于物体检测算法对其进行检测。
166.因此，针对上述社交软件的水印，需要通过物体检测算法进行检测的基础上，再使用后处理算法对该类水印进行二次检测，来判断该类水印是否为目标的水印。该类水印通常的格式为“社交软件的水印用户名”。如果在进行物体检测的过程中，对“社交软件的水印用户名”的样式进行检测，那么，由于用户名无论是从文字的长度还是从文字的内容角度，差异均非常大，这样将影响物体检测算法的准确率。因此选择通过检测该类水印的共有样式来对水印进行物体检测。但上述社交软件的水印可具有较为复杂的特征，并且在一张
图像中出现时，其所占比例也非常小。在实际的物体检测过程中，如果保证上述社交软件的水印召回率较高的情况下，则会产生较多的误检情况。通常一些颜色较浅，尺寸的比例与上述社交软件的水印接近的物体将会被误检。因此，这里通过加入文字检测算法，来检测上述社交软件的水印附近的图像，通过对文字区域的位置特征，来反向判断物体检测算法所检测到的上述社交软件的水印是否正确(也即判断候选图像是否为目标图像)。
167.上述示例中，针对物体检测算法对较小或特征不明显的上述目标图像在检测时通常性能较差的问题，通过根据实际的业务需求，充分分析上述社交软件的水印的特征，确定通过使用二次确认的算法“文字检测算法”，来确认第一次所检测到的上述社交软件的水印周围是否存在符合上述社交软件的水印特征的文字信息，进而二次确认第一次物体检测中检测到的水印是否为正确的上述社交软件的水印(也即确认候选图像是否为目标图像)。由此，在确保上述社交软件的水印高召回的情况下，也大大降低了误检情况。
168.图4为本公开实施例提供的一种目标检测装置的结构示意图，具体包括：
169.获取单元401，被配置成获取待检测图像；
170.第一确定单元402，被配置成确定上述待检测图像中的候选图像，上述候选图像与目标图像的近似度大于第一预设值；
171.第二确定单元403，被配置成确定上述待检测图像中的文本，确定上述候选图像与上述文本的相对位置；
172.第三确定单元404，被配置成基于上述相对位置是否符合预设位置条件，确定上述候选图像是否为上述目标图像。
173.可选地，在本公开任一实施例的装置中，第二确定单元403，具体被配置成：
174.如果上述候选图像与目标图像的近似度大于上述第一预设值且小于第二预设值，则执行上述确定上述待检测图像中的文本的步骤，其中，上述第二预设值大于上述第一预设值；以及
175.上述装置还包括：
176.第四确定单元(图中未示出)，被配置成如果上述相似度大于上述第二预设值，则确定上述候选图像为上述目标图像。
177.可选地，在本公开任一实施例的装置中，上述预设位置条件包括以下至少一项：
178.上述文本的参考点位置与上述候选图像的参考点位置之间的水平距离，小于或等于预设水平距离阈值；
179.上述文本的参考点位置与上述候选图像的参考点位置之间的垂直距离，小于或等于预设垂直距离阈值。
180.可选地，在本公开任一实施例的装置中，上述文本的参考点位置为上述文本的中心位置。
181.可选地，在本公开任一实施例的装置中，上述候选图像的参考点位置为上述候选图像的中心位置。
182.可选地，在本公开任一实施例的装置中，上述目标图像符合以下至少一项条件：
183.上述目标图像的图像复杂度小于或等于预设图像复杂度阈值；
184.上述目标图像在上述待检测图像中所占比例小于或等于预设比例阈值；
185.上述目标图像与上述目标图像的邻域图像区域的相似度大于或等于预设相似度
阈值；
186.上述目标图像的透明度大于或等于预设透明度阈值；
187.上述目标图像的颜色为预设颜色。
188.可选地，在本公开任一实施例的装置中，上述目标图像为预先确定的产品的标识图像。
189.可选地，在本公开任一实施例的装置中，上述文本为上述产品的用户名，上述产品的不同用户具有不同的用户名。
190.本实施例提供的目标检测装置可以是如图4中所示的目标检测装置，可执行如图1-3b中目标检测方法的所有步骤，进而实现图1-3b所示目标检测方法的技术效果，具体请参照图1-3b相关描述，为简洁描述，在此不作赘述。
191.图5为本公开实施例提供的一种电子设备的结构示意图，图5所示的电子设备500包括：至少一个处理器501、存储器502、至少一个网络接口504和其他用户接口503。电子设备500中的各个组件通过总线系统505耦合在一起。可理解，总线系统505用于实现这些组件之间的连接通信。总线系统505除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图5中将各种总线都标为总线系统505。
192.其中，用户接口503可以包括显示器、键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等。
193.可以理解，本公开实施例中的存储器502可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，rom)、可编程只读存储器(programmable rom，prom)、可擦除可编程只读存储器(erasable prom，eprom)、电可擦除可编程只读存储器(electrically eprom，eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory，ram)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的ram可用，例如静态随机存取存储器(static ram，sram)、动态随机存取存储器(dynamic ram，dram)、同步动态随机存取存储器(synchronous dram，sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram，ddrsdram)、增强型同步动态随机存取存储器(enhanced sdram，esdram)、同步连接动态随机存取存储器(synch link dram，sldram)和直接内存总线随机存取存储器(direct rambus ram，drram)。本文描述的存储器502旨在包括但不限于这些和任意其它适合类型的存储器。
194.在一些实施方式中，存储器502存储了如下的元素，可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作系统5021和应用程序5022。
195.其中，操作系统5021，包括各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序5022，包括各种应用程序，例如媒体播放器(media player)、浏览器(browser)等，用于实现各种应用业务。实现本公开实施例方法的程序可以包括在应用程序5022中。
196.在本公开实施例中，通过调用存储器502存储的程序或指令，具体的，可以是应用程序5022中存储的程序或指令，处理器501用于执行各方法实施例所提供的方法步骤，例如包括：
197.获取待检测图像；
198.确定上述待检测图像中的候选图像，上述候选图像与目标图像的近似度大于第一预设值；
199.确定上述待检测图像中的文本，确定上述候选图像与上述文本的相对位置；
200.基于上述相对位置是否符合预设位置条件，确定上述候选图像是否为上述目标图像。
201.可选地，在本实施例的一些可选的实现方式中，
202.上述确定上述待检测图像中的文本，包括：
203.如果上述候选图像与目标图像的近似度大于上述第一预设值且小于第二预设值，则执行上述确定上述待检测图像中的文本的步骤，其中，上述第二预设值大于上述第一预设值；以及
204.上述方法还包括：
205.如果上述候选图像与上述目标图像的近似度大于或等于上述第二预设值，则确定上述候选图像为上述目标图像。
206.可选地，在本实施例的一些可选的实现方式中，上述预设位置条件包括以下至少一项：
207.上述文本的参考点位置与上述候选图像的参考点位置之间的水平距离，小于或等于预设水平距离阈值；
208.上述文本的参考点位置与上述候选图像的参考点位置之间的垂直距离，小于或等于预设垂直距离阈值。
209.可选地，在本实施例的一些可选的实现方式中，上述文本的参考点位置为上述文本的中心位置。
210.可选地，在本实施例的一些可选的实现方式中，上述候选图像的参考点位置为上述候选图像的中心位置。
211.可选地，在本实施例的一些可选的实现方式中，上述目标图像符合以下至少一项条件：
212.上述目标图像的图像复杂度小于或等于预设图像复杂度阈值；
213.上述目标图像在上述待检测图像中所占比例小于或等于预设比例阈值；
214.上述目标图像与上述目标图像的邻域图像区域的相似度大于或等于预设相似度阈值；
215.上述目标图像的透明度大于或等于预设透明度阈值；
216.上述目标图像的颜色为预设颜色。
217.可选地，在本实施例的一些可选的实现方式中，上述目标图像为预先确定的产品的标识图像。
218.可选地，在本实施例的一些可选的实现方式中，上述文本为上述产品的用户名，上述产品的不同用户具有不同的用户名。
219.上述本公开实施例揭示的方法可以应用于处理器501中，或者由处理器501实现。处理器501可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电
路(application specific integrated circuit，asic)、现成可编程门阵列(field programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本公开实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器502，处理器501读取存储器502中的信息，结合其硬件完成上述方法的步骤。
220.可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(application specific integrated circuits，asic)、数字信号处理器(digital signal processing，dsp)、数字信号处理设备(dspdevice，dspd)、可编程逻辑设备(programmable logic device，pld)、现场可编程门阵列(field-programmable gate array，fpga)、通用处理器、控制器、微控制器、微处理器、用于执行本技术上述功能的其它电子单元或其组合中。
221.对于软件实现，可通过执行本文上述功能的单元来实现本文上述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
222.本实施例提供的电子设备可以是如图5中所示的电子设备，可执行如图1-3b中目标检测方法的所有步骤，进而实现图1-3b所示目标检测方法的技术效果，具体请参照图1-3b相关描述，为简洁描述，在此不作赘述。
223.本公开实施例还提供了一种存储介质(计算机可读存储介质)。这里的存储介质存储有一个或者多个程序。其中，存储介质可以包括易失性存储器，例如随机存取存储器；存储器也可以包括非易失性存储器，例如只读存储器、快闪存储器、硬盘或固态硬盘；存储器还可以包括上述种类的存储器的组合。
224.当存储介质中一个或者多个程序可被一个或者多个处理器执行，以实现上述在电子设备侧执行的目标检测方法。
225.上述处理器用于执行存储器中存储的预测程序，以实现以下在电子设备侧执行的目标检测方法的步骤：
226.获取待检测图像；
227.确定上述待检测图像中的候选图像，上述候选图像与目标图像的近似度大于第一预设值；
228.确定上述待检测图像中的文本，确定上述候选图像与上述文本的相对位置；
229.基于上述相对位置是否符合预设位置条件，确定上述候选图像是否为上述目标图像。
230.可选地，在本实施例的一些可选的实现方式中，
231.上述确定上述待检测图像中的文本，包括：
232.如果上述候选图像与目标图像的近似度大于上述第一预设值且小于第二预设值，则执行上述确定上述待检测图像中的文本的步骤，其中，上述第二预设值大于上述第一预设值；以及
233.上述方法还包括：
234.如果上述候选图像与上述目标图像的近似度大于或等于上述第二预设值，则确定上述候选图像为上述目标图像。
235.可选地，在本实施例的一些可选的实现方式中，上述预设位置条件包括以下至少一项：
236.上述文本的参考点位置与上述候选图像的参考点位置之间的水平距离，小于或等于预设水平距离阈值；
237.上述文本的参考点位置与上述候选图像的参考点位置之间的垂直距离，小于或等于预设垂直距离阈值。
238.可选地，在本实施例的一些可选的实现方式中，上述文本的参考点位置为上述文本的中心位置。
239.可选地，在本实施例的一些可选的实现方式中，上述候选图像的参考点位置为上述候选图像的中心位置。
240.可选地，在本实施例的一些可选的实现方式中，上述目标图像符合以下至少一项条件：
241.上述目标图像的图像复杂度小于或等于预设图像复杂度阈值；
242.上述目标图像在上述待检测图像中所占比例小于或等于预设比例阈值；
243.上述目标图像与上述目标图像的邻域图像区域的相似度大于或等于预设相似度阈值；
244.上述目标图像的透明度大于或等于预设透明度阈值；
245.上述目标图像的颜色为预设颜色。
246.可选地，在本实施例的一些可选的实现方式中，上述目标图像为预先确定的产品的标识图像。
247.可选地，在本实施例的一些可选的实现方式中，上述文本为上述产品的用户名，上述产品的不同用户具有不同的用户名。
248.专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。
249.结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
250.以上所述的具体实施方式，对本公开的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本公开的具体实施方式而已，并不用于限定本公开的保护范围，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包括在本公开的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

目标检测方法、装置、电子设备及存储介质与流程

相关文献

最热文献