一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

活体检测方法、活体检测网络模型训练方法及设备与流程

2022-03-01 20:16:24 来源:中国专利 TAG:


1.本发明涉及智能识别技术领域,尤其涉及一种活体检测方法、活体检测网络模型训练方法及设备。


背景技术:

2.在多种人脸识别应用场景当中,活体检测算法有非常重要的作用,用于判断真人和活体图像之间的差异性,防止不法分子用翻拍图像冒充人脸图像攻击人脸识别系统。
3.活体检测方法可分为动态活体检测和静默活体检测,目前的静默活体检测方式有基于单帧rgb(r:red,红色;g:green,绿色;b:blue,蓝色)图像的活体检测方式。但是,基于单帧rgb图像的活体检测方式,存在检测精度低,防御攻击的能力差等问题。


技术实现要素:

4.有鉴于此,本发明提供一种活体检测方法、活体检测网络模型训练方法及设备,用于解决目前静默活体检测方式存在的检测精度低、防御攻击的能力差的问题。
5.为解决上述技术问题,第一方面,本发明提供一种活体检测方法,包括:
6.获取待检测对象的多个模态的图像;
7.利用活体检测网络模型,分别对所述多个模态的图像进行特征提取,并对从所述多个模态的图像中提取的特征进行加权融合,根据融合后的特征输出分类结果。
8.可选的,所述利用活体检测网络模型,分别对所述多个模态的图像进行特征提取,并对从所述多个模态的图像中提取的特征进行加权融合,根据融合后的特征输出分类结果,包括:
9.分别对所述多个模态的图像进行浅层特征提取;
10.对所述多个模态的图像的浅层特征进行加权融合;
11.对浅层特征加权融合后的特征,进行深层特征提取;
12.基于提取的深层特征,输出分类结果。
13.可选的,所述活体检测网络模型为squeezenet网络模型;
14.所述分别对所述多个模态的图像进行浅层特征提取,包括:
15.采用所述squeezenet网络模型中的浅层特征提取网络分别对所述多个模态的图像进行浅层特征提取;
16.所述对浅层特征加权融合后的特征,进行深层特征提取,包括:
17.采用所述squeezenet网络模型中的深层特征提取网络,对所述浅层特征加权融合后的特征,进行深层特征提取。
18.可选的,所述利用活体检测网络模型,分别对所述多个模态的图像进行特征提取之前,还包括:
19.分别对所述多个模态的图像进行预处理,所述预处理包括人脸检测;
20.针对每一所述图像,对所述图像中的人脸区域和背景区域进行加权处理得到加权
处理后的图像,其中所述人脸区域的权重值大于所述背景区域的权重值;
21.所述分别对所述多个模态的图像进行特征提取,包括:
22.对所述加权处理后的所述图像,进行特征提取。
23.可选的,所述背景区域为所述图像中距离所述人脸区域预设范围内的区域。
24.可选的,所述对所述多个模态的图像的浅层特征进行加权融合,包括:
25.经过均值池化将每个模态的图像的浅层特征映射为一个浅层特征值;
26.对所有的所述浅层特征值进行softmax运算映射为第一数值,所述第一数值为0~1之间的数值;
27.针对每个模态的图像,分别根据对应的所述第一数值确定浅层特征加权权重值。
28.第二方面,本发明还提供一种活体检测网络模型训练方法,包括:
29.获取模型训练集,所述模型训练集中包括多个检测对象的图像,每个所述检测对象的图像包括多个模态的图像;
30.基于所述模型训练集,训练得到活体检测网络模型,所述活体检测网络模型为上述的任一种活体检测网络模型。
31.可选的,所述基于所述模型训练集,训练得到活体检测网络模型,包括:
32.基于所述模型训练集,利用分阶损失函数训练所述活体检测网络模型;其中,
33.当预测和真实标记同为真人时第一检测对象的图像对应的损失函数为:
[0034][0035]
其中:
[0036][0037]
其中,所述第一检测对象为所述模型训练集中的任一个标记为真人的检测对象,s是通过统计所述模型训练集中正例的比例得到的分隔点,max是所述活体检测网络模型基于所述模型训练集中的数据输出的预测值中最大的数值,mean是所述活体检测网络模型基于所述模型训练集中标记为真人的检测对象的图像输出的预测值的平均值,p是所述活体检测网络模型基于所述第一检测对象的图像输出的预测值;
[0038]
当预测和真实标记同为攻击时第二检测对象的图像对应的损失函数为:
[0039][0040]
其中:
[0041][0042]
其中,所述第二检测对象为所述模型训练集中的任一个标记为攻击的检测对象,s是通过统计所述模型训练集中正例的比例得到的分隔点,min是所述活体检测网络模型基于所述模型训练集中的数据输出的预测值中最小的数值,mean'是所述活体检测网络模型基于所述模型训练集中标记为攻击的检测对象的图像输出的预测值的平均值,p'是所述活体检测网络模型基于所述第二检测对象的图像输出的预测值。
[0043]
第三方面,本发明还提供一种活体检测装置,包括:
[0044]
获取模块,用于获取待检测对象的多个模态的图像;
[0045]
检测模块,用于利用活体检测网络模型,分别对所述多个模态的图像进行特征提取,并对从所述多个模态的图像中提取的特征进行加权融合,根据融合后的特征输出分类结果。
[0046]
可选的,所述检测模块包括:
[0047]
浅层特征提取单元,用于分别对所述多个模态的图像进行浅层特征提取;
[0048]
浅层特征加权融合单元,用于对所述多个模态的图像的浅层特征进行加权融合;
[0049]
深层特征提取单元,用于对浅层特征加权融合后的特征,进行深层特征提取;
[0050]
分类单元,用于基于提取的深层特征,输出分类结果。
[0051]
可选的,所述活体检测网络模型为squeezenet网络模型;
[0052]
所述浅层特征提取单元,用于采用所述squeezenet网络模型中的浅层特征提取网络分别对所述多个模态的图像进行浅层特征提取;
[0053]
所述深层特征提取单元,用于采用所述squeezenet网络模型中的深层特征提取网络,对所述浅层特征加权融合后的特征,进行深层特征提取。
[0054]
可选的,所述活体检测装置还包括:
[0055]
预处理模块,用于分别对所述多个模态的图像进行预处理,所述预处理包括人脸检测;
[0056]
加权处理模块,用于针对每一所述图像,对所述图像中的人脸区域和背景区域进行加权处理得到加权处理后的图像,其中所述人脸区域的权重值大于所述背景区域的权重值;
[0057]
所述检测模块,用于对所述加权处理后的所述图像,进行特征提取。
[0058]
可选的,所述背景区域为所述图像中距离所述人脸区域预设范围内的区域。
[0059]
可选的,所述浅层特征加权融合单元包括:
[0060]
第一映射子单元,用于经过均值池化将每个模态的图像的浅层特征映射为一个浅层特征值;
[0061]
第二映射子单元,用于对所有的所述浅层特征值进行softmax运算映射为第一数值,所述第一数值为0~1之间的数值;
[0062]
加权权重确定子单元,用于针对每个模态的图像,分别根据对应的所述第一数值确定浅层特征加权权重值。
[0063]
第四方面,本发明还提供一种活体检测网络模型训练装置,包括:
[0064]
训练集获取模块,用于获取模型训练集,所述模型训练集中包括多个检测对象的图像,每个所述检测对象的图像包括多个模态的图像;
[0065]
训练模块,用于基于所述模型训练集,训练得到活体检测网络模型,所述活体检测网络模型为上述任一种活体检测网络模型。
[0066]
可选的,所述训练模块,用于基于所述模型训练集,利用分阶损失函数训练所述活体检测网络模型;其中,
[0067]
当预测和真实标记同为真人时第一检测对象的图像对应的损失函数为:
[0068][0069]
其中:
[0070][0071]
其中,所述第一检测对象为所述模型训练集中的任一个标记为真人的检测对象,s是通过统计所述模型训练集中正例的比例得到的分隔点,max是所述活体检测网络模型基于所述模型训练集中的数据输出的预测值中最大的数值,mean是所述活体检测网络模型基于所述模型训练集中标记为真人的检测对象的图像输出的预测值的平均值,p是所述活体检测网络模型基于所述第一检测对象的图像输出的预测值;
[0072]
当预测和真实标记同为攻击时第二检测对象的图像对应的损失函数为:
[0073][0074]
其中:
[0075][0076]
其中,所述第二检测对象为所述模型训练集中的任一个标记为攻击的检测对象,s是通过统计所述模型训练集中正例的比例得到的分隔点,min是所述活体检测网络模型基于所述模型训练集中的数据输出的预测值中最小的数值,mean'是所述活体检测网络模型基于所述模型训练集中标记为攻击的检测对象的图像输出的预测值的平均值,p'是所述活体检测网络模型基于所述第二检测对象的图像输出的预测值。
[0077]
第五方面,本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序;所述处理器执行所述程序时实现上述任一种活体检测方法中的步骤或者实现上述任一种活体检测网络模型训练方法中的步骤。
[0078]
第六方面,本发明还提供一种可读存储介质,其上存储有程序,该程序被处理器执行时实现上述任一种活体检测方法中的步骤或者实现上述任一种活体检测网络模型训练方法中的步骤。
[0079]
本发明的上述技术方案的有益效果如下:
[0080]
本发明实施例中,基于多模态图像进行活体检测,使用跨模态特征加权融合的方式强化不同模态特征中的有效特征,能够有效地判断获取到的图像是否是真人,从而达到活体检测的目的,提高活体检测精度,提升防御攻击的能力。
附图说明
[0081]
图1为本发明实施例一中的一种活体检测方法的流程示意图;
[0082]
图2为本发明实施例中的一种使用活体检测网络模型进行活体检测的过程示意图;
[0083]
图3为本发明实施例中另一种活体检测方法的流程示意图;
[0084]
图4为本发明实施例二中的一种活体检测网络模型训练方法的流程示意图;
[0085]
图5为本发明实施例中的另一种活体检测网络模型训练方法的流程示意图;
[0086]
图6为本发明实施例三中的一种活体检测装置的结构示意图;
[0087]
图7为本发明实施例四中的一种活体检测网络模型训练装置的结构示意图;
[0088]
图8为本发明实施例五中的一种电子设备的结构示意图;
[0089]
图9为本发明实施例六中的一种电子设备的结构示意图。
具体实施方式
[0090]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
[0091]
相关技术中,公开了一种基于近红外与可见光双目摄像头的活体人脸检测方法,属于接收机视觉及安防领域。属于计算机多媒体技术领域,一种基于可见光和近红外相机的双目活体检测方法,包括以下步骤:s1:提取照度鲁棒特征,对vis和nir相机接收到的图像进行分块,对每个图像块计算直方图,得到每个图像块的直方图特征;对于每个图像块,分别学习其投影方向,使相关性系数最大化,并计算其投影大小和关联度;建立相关性置信图,自动去除对反欺骗检测系统是没有价值的图像块。该发明根据检测对象在vis和nir光谱下表现出来的相关性,判断检测对象是否为真实人脸,从而有效抵御人脸欺骗攻击,能够有效应对照片、视频回放、三维人脸面具等多种形式的人脸欺骗攻击。但该方案只是通过简单手段来对活体检测进行了判断,因此表现效果较差。
[0092]
相关技术中,还存在一种基于双目摄像机的人脸活体检测方法,通过对红外谱段的人脸图像做傅里叶变换计算平均值来做活体检测,而通过深度神经网络来做人脸识别,该过程为一个串行过程。该方案其实用了傅里叶变换的计算平均值的方法来对做活体检测,因此其计算过程也比较原始和简单,是一个简单的活体检测工作。
[0093]
针对相关技术中的活体检测方法的不足,本发明实施例提供了一种针对多模态图像进行活体检测的方法。
[0094]
请参阅图1,图1为本发明实施例一提供的一种活体检测方法的流程示意图,包括以下步骤:
[0095]
步骤11:获取待检测对象的多个模态的图像;
[0096]
步骤12:利用活体检测网络模型,分别对所述多个模态的图像进行特征提取,并对从所述多个模态的图像中提取的特征进行加权融合,根据融合后的特征输出分类结果。
[0097]
其中,多个模态的图像至少包括原始rgb图像(具体可以是高动态范围(high-dynamic range,简称hdr)图像),原始rgb图像也即彩色图像,还包括红外(infrared,ir)图像和深度图中的至少一种。ir图像可以是基于原始rgb图像得到的预估ir图像,深度图也可以是基于原始rgb图像得到的预估深度图。红外图像可以是近红外图像。
[0098]
所述待检测对象的多个模态的图像可以同时获取,例如可以基于双目相机同时获取原始rgb图像和另一个模态的图像。另外,所述待检测对象的多个模态的图像除了可以是同一时刻对该待检测对象获取到的图像外,还可以是图像采集设备在同一位置、角度和/或高度对该待检测对象获取到的图像。例如,可以是在同一位置、角度和/或高度的摄像头在
同一时刻对待检测对象获取到的多个模态的图像。
[0099]
本发明实施例中,所述分类结果可以是概率值,例如是真人的概率。
[0100]
本发明实施例提供了一种基于多模态图像的活体检测方法,使用跨模态特征加权融合的方式强化不同模态特征中的有效特征,能够有效地判断获取到的图像是否是真人,从而达到活体检测的目的,提高活体检测精度,提升防御攻击的能力。并且便于系统集成。
[0101]
所述活体检测方法可以是针对人脸进行活体检测。
[0102]
下面举例说明上述活体检测方法。
[0103]
可选的,所述利用活体检测网络模型,分别对所述多个模态的图像进行特征提取,并对从所述多个模态的图像中提取的特征进行加权融合,根据融合后的特征输出分类结果,包括:
[0104]
分别对所述多个模态的图像进行浅层特征提取;
[0105]
对所述多个模态的图像的浅层特征进行加权融合;
[0106]
对浅层特征加权融合后的特征,进行深层特征提取;
[0107]
基于提取的深层特征,输出分类结果。
[0108]
也即是说,利用活体检测网络模型,对待检测对象的多个模态的图像分别进行浅层特征提取,然后对分别从多个模态的图像提取的浅层特征进行加权融合,之后再进行深层特征提取,最后基于提取的深层特征进行分类,得到分类结果。
[0109]
进一步可选的,所述活体检测网络模型为squeezenet网络模型;
[0110]
所述分别对所述多个模态的图像进行浅层特征提取,包括:
[0111]
采用所述squeezenet网络模型中的浅层特征提取网络分别对所述多个模态的图像进行浅层特征提取;
[0112]
所述对浅层特征加权融合后的特征,进行深层特征提取,包括:
[0113]
采用所述squeezenet网络模型中的深层特征提取网络,对所述浅层特征加权融合后的特征,进行深层特征提取。
[0114]
本发明实施例中使用squeezenet作为活体检测的基础网络。具体的,如图2所示,浅层特征提取网络包括所述squeezenet网络模型的fire结构中的模块fire1~fire3,深层特征提取网络包括所述squeezenet网络模型的fire结构中的模块fire4~fire8。也就是说,本技术实施例中,使用基础网络squeezenet的fire结构进行特征提取,构建活体检测网络。
[0115]
在所述待检测对象有2个模态的图像时,则采用两个浅层特征提取网络分别对2个模态的图像分别进行浅层特征提取。也就是说,待检测对象有几个模态的图像,就采用几个浅层特征提取网络分别对各个模态的图像分别进行浅层特征提取。
[0116]
本发明实施例提供的活体检测方法既可以在终端侧环境运行,也可以在中央处理器(central processing unit,cpu)侧环境运行。
[0117]
其中,浅层特征提取也可以称为第一层特征提取,深层特征提取也可以称为第二层特征提取。
[0118]
当然,所述活体检测网络模型,并不限于使用fire结构实现的网络,还可以使用例如普通卷积层或者resnet的block结构等来实现。
[0119]
可选的,所述利用活体检测网络模型,分别对所述多个模态的图像进行特征提取
之前,还包括:
[0120]
分别对所述多个模态的图像进行预处理,所述预处理包括人脸检测;
[0121]
针对每一所述图像,对所述图像中的人脸区域和背景区域进行加权处理得到加权处理后的图像,其中所述人脸区域的权重值大于所述背景区域的权重值;
[0122]
所述分别对所述多个模态的图像进行特征提取,包括:
[0123]
对所述加权处理后的所述图像,进行特征提取。
[0124]
其中,所述预处理还包括人脸对齐。
[0125]
具体的,所述分别对所述多个模态的图像进行浅层特征提取之前,还包括:
[0126]
针对每一图像,进行包括人脸检测的预处理,对所述图像中的人脸区域和背景区域进行加权处理。
[0127]
可选的,所述背景区域为所述图像中距离所述人脸区域预设范围内的区域。也即所述背景区域为人脸边缘区域,或称为人脸周围区域。
[0128]
在第一个卷积中使用加权卷积来对脸部图像进行加权时,需要指定参数board,board的取值表示所述人脸边缘区域在图像中的占比,例如该board的取值可以在0.1~0.2之间。加权卷积生成一个单一通道的权重信息与对应位置像素相乘。
[0129]
进一步的,所述预处理还包括人脸对齐。具体的,可以在预处理时,将检测到的人脸区域缩放到预设尺寸,并将人脸区域调整至图像的中央位置。然后,指定参数board的取值。最后,加权卷积生成一个单一通道的权重信息与对应位置像素相乘,将图像中央height*(1-board*2)*width*(1-board*2)大小像素的区域(其中height,width分别为图像的高和宽)权重设置为1,背景区域的权重设置为小于1但大于0的值,例如(1-2*board)。
[0130]
人脸区域参数board是根据图像的不同而调整的。具体来说,该参数可以根据图像中人脸部分的比例大小不同而不同。因此,在图像预处理中还需要记录人脸区域在图像中的比例关系,以便根据人脸区域在图像中的比例设置board值。
[0131]
另一种可选的具体实施方式中,在预处理时,在检测到人脸之后,可以调整图像中人脸区域的尺寸并对图像进行裁剪,以使得预处理后的图像中人脸区域位于中央且人脸区域的宽度和高度在图像中的宽度占比和高度占比均为(1-board*2),也即除人脸区域以外的其他区域的宽度占比和高度占比均为board的取值。从而,加权卷积生成一个单一通道的权重信息与对应位置像素相乘,将图像中央height*(1-board*2)*width*(1-board*2)大小像素的区域(其中height,width分别为图像的高和宽)权重设置为1,其他像素的权重设置为小于1但大于0的值,例如(1-2*board)。
[0132]
本发明实施例中,背景区域,也即人脸周围区域的权重值w根据人脸区域所占比例大小进行动态调整。其调整方法为w=1-(2*board),但是该参数的调整方法不仅限于此种方法,可以根据图像中的特征和分布对此进行修改。
[0133]
当然,在其他可选的具体实施方式中,也可以在利用活体检测网络模型,分别对所述多个模态的图像进行特征提取之前,分别对所述多个模态的图像进行预处理。
[0134]
请参阅图2,加权卷积层输出的特征经过级联的三个fire模块计算后得到浅层特征。
[0135]
本发明实施例,通过人脸区域加权的方法使得网络模型在参照背景信息的同时更加关注人脸部分的图像信息。
[0136]
可选的,所述对所述多个模态的图像的浅层特征进行加权融合,包括:
[0137]
经过均值池化(average pooling)将每个模态的图像的浅层特征映射为一个浅层特征值;
[0138]
对所有的所述浅层特征值进行softmax运算映射为第一数值,所述第一数值为0~1之间的数值;
[0139]
针对每个模态的图像,分别根据对应的所述第一数值确定浅层特征加权权重值。
[0140]
本发明实施例中,跨模态特征加权融合的具体过程包括:在获取到多个模态的图像的浅层特征之后,经过average pooling将每个特征图映射为一个数值,将所有特征值进行softmax运算映射到(0,1)之间,然后计算来自于各个模态的图像特征的均值,计算得到的均值分别作为相应模态图像的浅层特征加权权重值。例如,在所述多个模态的图像包括原始rgb图像和ir图像这两种模态的图像时,分别计算原始rgb图像特征的均值m1和ir图像特征的均值m2。然后,原始rgb图像的浅层特征乘以m1,ir图像浅层特征乘以m2后进行concat(用于连接两个或多个数组)操作送入深层特征提取网络得到分类结果。
[0141]
请参阅图3,下面以基于双目相机采集得到待检测对象的2个模态的图像为例,说明上述活体检测方法:
[0142]
s101:双目相机的双目摄像头获取图像,双目摄像头包括彩色摄像头和近红外摄像头;
[0143]
s102:判断彩色摄像头采集的图像中是否有人脸,如果没有,则转s103,如果有则转s104;
[0144]
s103:继续等待;
[0145]
s104:判断近红外摄像头采集的图像中是否有人脸,如果没有,则转s105,如果有,则转s106;
[0146]
s105:放弃之前获取的图像继续等待;具体的,可以同时放弃彩色摄像头之前获取的图像和近红外摄像头获取的图像;
[0147]
s106:对双目摄像头获取到的两幅图像进行预处理,具体的,包括检测两幅图像中的人脸部分、对检测到的人脸进行对齐和/或对图像进行裁剪;
[0148]
s107:将预处理后的两幅图像输入到活体检测网络模型进行分类判断;
[0149]
s108:输出两幅图像中的待检测对象是活体的概率。
[0150]
本发明实施例中,活体检测网络模型是一种卷积神经网络,其优点在于:根据人脸活体检测任务的特点,利用加权卷积的方式,对人脸区域和背景区域进行了区分,并着重对图像中人脸区域进行判别;使用了跨模态特征加权融合的方法对不同的模态的特征赋予不同的权重,让容易区分和/或更加重要的模态特征更好地起到判断作用。
[0151]
请参阅图4,图4是本发明实施例二提供的一种活体检测网络模型训练方法的流程示意图,包括以下步骤:
[0152]
步骤41:获取模型训练集,所述模型训练集中包括多个检测对象的图像,每个所述检测对象的图像包括多个模态的图像;
[0153]
步骤42:基于所述模型训练集,训练得到活体检测网络模型,所述活体检测网络模型为上述实施例所述的任一种活体检测网络模型。
[0154]
关于检测对象,需要说明的是,即使是同一个实体对象,在不同时刻采集到的图
像,也可以认为是不同的检测对象。例如,对于同一个人的人脸前后两个时刻分别采集到两套图像(一套图像包括多个模态的图像),可以认为这两套图像的检测对象不同。
[0155]
本发明实施例中,在训练活体检测网络模型时使用的模型训练数据包括多个检测对象的多个模态的图像,训练出的活体检测网络模型能够使用跨模态特征加权融合的方式强化不同模态特征中的有效特征,能够有效地判断获取到的图像是否是真人,从而达到活体检测的目的,提高活体检测精度,提升防御攻击的能力。
[0156]
可选的,所述基于所述模型训练集,训练得到活体检测网络模型,包括:
[0157]
基于所述模型训练集,利用分阶损失函数训练所述活体检测网络模型;其中,
[0158]
当预测和真实标记同为真人时第一检测对象的图像对应的损失函数为:
[0159][0160]
其中:
[0161][0162]
其中,所述第一检测对象为所述模型训练集中的任一个标记为真人的检测对象,s是通过统计所述模型训练集中正例的比例得到的分隔点,max是所述活体检测网络模型基于所述模型训练集中的数据输出的预测值中最大的数值(也即,同批处理(batch)中预测值最大的数值),mean是所述活体检测网络模型基于所述模型训练集中标记为真人的检测对象的图像输出的预测值的平均值(也即,同batch中标记为真人的预测值的平均值),p是所述活体检测网络模型基于所述第一检测对象的图像输出的预测值;
[0163]
当预测和真实标记同为攻击时第二检测对象的图像对应的损失函数为:
[0164][0165]
其中:
[0166][0167]
其中,所述第二检测对象为所述模型训练集中的任一个标记为攻击的检测对象,s是通过统计所述模型训练集中正例的比例得到的分隔点,min是所述活体检测网络模型基于所述模型训练集中的数据输出的预测值中最小的数值(也即,同batch中预测值最小的数值),mean'是所述活体检测网络模型基于所述模型训练集中标记为攻击的检测对象的图像输出的预测值的平均值(也即,同batch中标记为攻击的预测值的平均值),p'是所述活体检测网络模型基于所述第二检测对象的图像输出的预测值。
[0168]
在活体检测场景中,存在难样本容易造成神经网络难以收敛的问题。本发明实施例中提出的分阶损失函数,将不同置信度的训练样本进行区分,能够有效解决网络长时间训练难以收敛的问题。也就是说,上述分阶损失函数能够有效减少难样本(hardset)对损失(loss)的影响,加快网络模型的收敛速度,减少了模型泛化风险。
[0169]
换句话说,本发明实施例针对网络模型训练中过于专注于难例(即难以区分的样本)而造成整体分类效果变差的问题,使用分阶损失函数来对网络模型进行训练。
[0170]
当预测错误时训练数据的损失函数为交叉熵损失。
[0171]
在模型训练之前,需要统计模型训练集(也即训练数据)中正例的比例,以得到分割点s。例如,正例占50%时,分割点s=0.5。另外,还需要对模型训练集中的检测对象进行标记,以区分真人和攻击,例如真人标记为“1”,攻击标记为“0”,也即对模型训练集中的每个检测对象的图像使用标签进行标记。正例,也即模型训练集中检测对象为真人;攻击,也即模型训练集中检测对象不是真人,是假人,例如照片、视频、三维模型等。预测为真人,也即网络模型输出的预测值表示对应的检测对象为真人;预测为攻击,也即网络模型输出的预测值表示对应的检测对象为攻击,不是真人。
[0172]
请参阅图5,本发明实施例提供的活体检测网络模型训练方法的主要流程有:
[0173]
s201:获取模型训练集,所述模型训练集中包括多个检测对象的图像,每个检测对象的图像包括多个模态的图像,例如,在使用双目相机采集检测对象的图像时,可以针对每个检测对象采集到一对模态不同的图像;
[0174]
s202:对模型训练集中的图像进行预处理,并按照真实情况对模型训练集中的图像打上真人还是攻击的标签;
[0175]
s203:使用模型训练集中已经完成预处理和打标签的图像,训练活体检测网络模型,得到训练完成的活体检测网络模型。
[0176]
训练完成的活体检测网络模型即可用于实现上述实施例中的活体检测方法。
[0177]
本发明实施例中,活体检测网络模型训练方法的具体过程可以是:
[0178]
第一步:获取模型训练集(或称为模型训练数据集),所述模型训练集中包括多个检测对象的图像,每个所述检测对象的图像包括多个模态的图像;同一个实体对象在不同时刻或以不同角度采集到的图像,可以认为是不同的检测对象。
[0179]
第二步:对模型训练集中的图像进行预处理,具体包括人脸检测、对齐,以及裁剪和/或调整图像大小,预处理后的图像中人脸区域位于中间位置。并对模型训练集中的图像根据实际情况进行标记,例如使用“1”表示该图像是真人的图像,使用“0”表示该图像是假人的图像。同时,还需要记录人脸区域在图像中的比例关系,如果模型训练集中不同检测对象的图像的人脸区域在图像中的比例关系不同,需要分别记录各检测对象的图像的人脸区域在图像中的比例关系,例如将该比例关系作为数据标签信息的方式记录各检测对象的图像的人脸区域在图像中的比例关系。
[0180]
第三步:设置人脸周边区域(即背景区域)board值,即设置人脸周边区域在图像中的占比,具体的,可根据图像中人脸区域的比例关系设置board值。如果模型训练集中不同检测对象的图像的人脸区域在图像中的比例关系不同,那么不同检测对象的图像的board值,需要根据记录对应检测对象的图像的人脸区域在图像中的比例关系的数据标签信息设置。请参阅图2,在预构的活体检测网络模型的第一层卷积层中使用加权卷积来对图像中的人脸区域进行加权,并给中间人脸区域更高的权重。
[0181]
第四步:请参阅图2,使用预构的活体检测网络模型中浅层特征提取网络(fire1~fire3),对第一层卷积层加权卷积处理后的图像进行浅层特征提取。
[0182]
第五步:请参阅图2,设置各模态的图像的权重值,按照设置的权重值进行跨模态特征加权融合,将各模态的浅层特征融合输入到深层特征提取网络,最后通过分阶损失函数训练出一个全局最优的分类网络模型,以利用该分类网络模型进行活体检测。
[0183]
本发明实施例,通过加权卷积、跨模态特征加权融合和分阶损失函数的方法,增强了活体检测网络模型(一种神经网络)的学习能力,减少了模型泛化风险,有效地提高了活体检测的效果。
[0184]
本发明实施例提供的是与上述实施例一对应的、具有相同发明构思的技术方案,且能达到相同的技术效果,详细可参阅上述实施例一,此处不再赘述。
[0185]
请参阅图6,图6是本发明实施例三提供的一种活体检测装置的结构示意图,该活体检测装置60包括:
[0186]
获取模块61,用于获取待检测对象的多个模态的图像;
[0187]
检测模块62,用于利用活体检测网络模型,分别对所述多个模态的图像进行特征提取,并对从所述多个模态的图像中提取的特征进行加权融合,根据融合后的特征输出分类结果。
[0188]
本发明实施例中,基于多模态图像进行活体检测,使用跨模态特征加权融合的方式强化不同模态特征中的有效特征,能够有效地判断获取到的图像是否是真人,从而达到活体检测的目的,提高活体检测精度,提升防御攻击的能力。
[0189]
可选的,所述检测模块62包括:
[0190]
浅层特征提取单元,用于分别对所述多个模态的图像进行浅层特征提取;
[0191]
浅层特征加权融合单元,用于对所述多个模态的图像的浅层特征进行加权融合;
[0192]
深层特征提取单元,用于对浅层特征加权融合后的特征,进行深层特征提取;
[0193]
分类单元,用于基于提取的深层特征,输出分类结果。
[0194]
可选的,所述活体检测网络模型为squeezenet网络模型;
[0195]
所述浅层特征提取单元,用于采用所述squeezenet网络模型中的浅层特征提取网络分别对所述多个模态的图像进行浅层特征提取;
[0196]
所述深层特征提取单元,用于采用所述squeezenet网络模型中的深层特征提取网络,对所述浅层特征加权融合后的特征,进行深层特征提取。
[0197]
可选的,所述活体检测装置还包括:
[0198]
预处理模块,用于分别对所述多个模态的图像进行预处理,所述预处理包括人脸检测;
[0199]
加权处理模块,用于针对每一所述图像,对所述图像中的人脸区域和背景区域进行加权处理得到加权处理后的图像,其中所述人脸区域的权重值大于所述背景区域的权重值;
[0200]
所述检测模块62,用于对所述加权处理后的所述图像,进行特征提取。
[0201]
可选的,所述背景区域为所述图像中距离所述人脸区域预设范围内的区域。
[0202]
可选的,所述浅层特征加权融合单元包括:
[0203]
第一映射子单元,用于经过均值池化将每个模态的图像的浅层特征映射为一个浅层特征值;
[0204]
第二映射子单元,用于对所有的所述浅层特征值进行softmax运算映射为第一数值,所述第一数值为0~1之间的数值;
[0205]
加权权重确定子单元,用于针对每个模态的图像,分别根据对应的所述第一数值确定浅层特征加权权重值。
[0206]
本发明实施例是与上述方法实施例一对应的产品实施例,故在此不再赘述,详细请参阅上述实施例一。
[0207]
请参阅图7,图7是本发明实施例四提供的一种活体检测网络模型训练装置的结构示意图,该活体检测网络模型训练装置70包括:
[0208]
训练集获取模块71,用于获取模型训练集,所述模型训练集中包括多个检测对象的图像,每个所述检测对象的图像包括多个模态的图像;
[0209]
训练模块72,用于基于所述模型训练集,训练得到活体检测网络模型,所述活体检测网络模型为上述任一种活体检测网络模型。
[0210]
本发明实施例中,在训练活体检测网络模型时使用的模型训练数据包括多个检测对象的多个模态的图像,训练出的活体检测网络模型能够使用跨模态特征加权融合的方式强化不同模态特征中的有效特征,能够有效地判断获取到的图像是否是真人,从而达到活体检测的目的,提高活体检测精度,提升防御攻击的能力。
[0211]
可选的,所述训练模块72,用于基于所述模型训练集,利用分阶损失函数训练所述活体检测网络模型;其中,
[0212]
当预测和真实标记同为真人时第一检测对象的图像对应的损失函数为:
[0213][0214]
其中:
[0215][0216]
其中,所述第一检测对象为所述模型训练集中的任一个标记为真人的检测对象,s是通过统计所述模型训练集中正例的比例得到的分隔点,max是所述活体检测网络模型基于所述模型训练集中的数据输出的预测值中最大的数值,mean是所述活体检测网络模型基于所述模型训练集中标记为真人的检测对象的图像输出的预测值的平均值,p是所述活体检测网络模型基于所述第一检测对象的图像输出的预测值;
[0217]
当预测和真实标记同为攻击时第二检测对象的图像对应的损失函数为:
[0218][0219]
其中:
[0220][0221]
其中,所述第二检测对象为所述模型训练集中的任一个标记为攻击的检测对象,s是通过统计所述模型训练集中正例的比例得到的分隔点,min是所述活体检测网络模型基于所述模型训练集中的数据输出的预测值中最小的数值,mean'是所述活体检测网络模型基于所述模型训练集中标记为攻击的检测对象的图像输出的预测值的平均值,p'是所述活体检测网络模型基于所述第二检测对象的图像输出的预测值。
[0222]
本发明实施例是与上述方法实施例二对应的产品实施例,故在此不再赘述,详细请参阅上述实施例二。
[0223]
请参阅图8,图8是本发明实施例五提供的一种电子设备的结构示意图,该电子设备80包括处理器81、存储器82及存储在所述存储器82上并可在所述处理器81上运行的程序;所述处理器81执行所述程序时实现如下步骤:
[0224]
获取待检测对象的多个模态的图像;
[0225]
利用活体检测网络模型,分别对所述多个模态的图像进行特征提取,并对从所述多个模态的图像中提取的特征进行加权融合,根据融合后的特征输出分类结果。
[0226]
本发明实施例中,基于多模态图像进行活体检测,使用跨模态特征加权融合的方式强化不同模态特征中的有效特征,能够有效地判断获取到的图像是否是真人,从而达到活体检测的目的,提高活体检测精度,提升防御攻击的能力。
[0227]
可选的,所述处理器81执行所述程序时还可实现如下步骤:
[0228]
所述利用活体检测网络模型,分别对所述多个模态的图像进行特征提取,并对从所述多个模态的图像中提取的特征进行加权融合,根据融合后的特征输出分类结果,包括:
[0229]
分别对所述多个模态的图像进行浅层特征提取;
[0230]
对所述多个模态的图像的浅层特征进行加权融合;
[0231]
对浅层特征加权融合后的特征,进行深层特征提取;
[0232]
基于提取的深层特征,输出分类结果。
[0233]
可选的,所述活体检测网络模型为squeezenet网络模型;所述处理器81执行所述程序时还可实现如下步骤:
[0234]
所述分别对所述多个模态的图像进行浅层特征提取,包括:
[0235]
采用所述squeezenet网络模型中的浅层特征提取网络分别对所述多个模态的图像进行浅层特征提取;
[0236]
所述对浅层特征加权融合后的特征,进行深层特征提取,包括:
[0237]
采用所述squeezenet网络模型中的深层特征提取网络,对所述浅层特征加权融合后的特征,进行深层特征提取。
[0238]
可选的,所述处理器81执行所述程序时还可实现如下步骤:
[0239]
所述利用活体检测网络模型,分别对所述多个模态的图像进行特征提取之前,还包括:
[0240]
分别对所述多个模态的图像进行预处理,所述预处理包括人脸检测;
[0241]
针对每一所述图像,对所述图像中的人脸区域和背景区域进行加权处理得到加权处理后的图像,其中所述人脸区域的权重值大于所述背景区域的权重值;
[0242]
所述分别对所述多个模态的图像进行特征提取,包括:
[0243]
对所述加权处理后的所述图像,进行特征提取。
[0244]
可选的,所述背景区域为所述图像中距离所述人脸区域预设范围内的区域。
[0245]
可选的,所述处理器81执行所述程序时还可实现如下步骤:
[0246]
所述对所述多个模态的图像的浅层特征进行加权融合,包括:
[0247]
经过均值池化将每个模态的图像的浅层特征映射为一个浅层特征值;
[0248]
对所有的所述浅层特征值进行softmax运算映射为第一数值,所述第一数值为0~1之间的数值;
[0249]
针对每个模态的图像,分别根据对应的所述第一数值确定浅层特征加权权重值。
[0250]
本发明实施例的具体工作过程与上述方法实施例一中的一致,故在此不再赘述,详细请参阅上述实施例一中方法步骤的说明。
[0251]
请参阅图9,图9是本发明实施例六提供的一种电子设备的结构示意图,该电子设备90包括处理器91、存储器92及存储在所述存储器92上并可在所述处理器91上运行的程序;所述处理器91执行所述程序时实现如下步骤:
[0252]
获取模型训练集,所述模型训练集中包括多个检测对象的图像,每个所述检测对象的图像包括多个模态的图像;
[0253]
基于所述模型训练集,训练得到活体检测网络模型,所述活体检测网络模型为上述任一种活体检测网络模型。
[0254]
本发明实施例中,在训练活体检测网络模型时使用的模型训练数据包括多个检测对象的多个模态的图像,训练出的活体检测网络模型能够使用跨模态特征加权融合的方式强化不同模态特征中的有效特征,能够有效地判断获取到的图像是否是真人,从而达到活体检测的目的,提高活体检测精度,提升防御攻击的能力。
[0255]
可选的,所述处理器91执行所述程序时还可实现如下步骤:
[0256]
所述基于所述模型训练集,训练得到活体检测网络模型,包括:
[0257]
基于所述模型训练集,利用分阶损失函数训练所述活体检测网络模型;其中,
[0258]
当预测和真实标记同为真人时第一检测对象的图像对应的损失函数为:
[0259][0260]
其中:
[0261][0262]
其中,所述第一检测对象为所述模型训练集中的任一个标记为真人的检测对象,s是通过统计所述模型训练集中正例的比例得到的分隔点,max是所述活体检测网络模型基于所述模型训练集中的数据输出的预测值中最大的数值,mean是所述活体检测网络模型基于所述模型训练集中标记为真人的检测对象的图像输出的预测值的平均值,p是所述活体检测网络模型基于所述第一检测对象的图像输出的预测值;
[0263]
当预测和真实标记同为攻击时第二检测对象的图像对应的损失函数为:
[0264][0265]
其中:
[0266][0267]
其中,所述第二检测对象为所述模型训练集中的任一个标记为攻击的检测对象,s是通过统计所述模型训练集中正例的比例得到的分隔点,min是所述活体检测网络模型基于所述模型训练集中的数据输出的预测值中最小的数值,mean'是所述活体检测网络模型基于所述模型训练集中标记为攻击的检测对象的图像输出的预测值的平均值,p'是所述活体检测网络模型基于所述第二检测对象的图像输出的预测值。
[0268]
本发明实施例的具体工作过程与上述方法实施例二中的一致,故在此不再赘述,详细请参阅上述实施例二中方法步骤的说明。
[0269]
本发明实施例七提供一种可读存储介质,其上存储有程序,该程序被处理器执行时实现上述实施例一中任一种活体检测方法中的步骤或者实施例二中任一种活体检测网络模型训练方法中的步骤。详细请参阅以上对应实施例中方法步骤的说明。
[0270]
本发明实施例中的终端可以是无线终端也可以是有线终端,无线终端可以是指向用户提供语音和/或其他业务数据连通性的设备,具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备。无线终端可以经无线接入网(radio access network,简称ran)与一个或多个核心网进行通信,无线终端可以是移动终端,如移动电话(或称为“蜂窝”电话)和具有移动终端的计算机,例如,可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置,它们与无线接入网交换语言和/或数据。例如,个人通信业务(personal communication service,简称pcs)电话、无绳电话、会话发起协议(session initiation protocol,简称sip)话机、无线本地环路(wireless local loop,简称wll)站、个人数字助理(personal digital assistant,简称pda)等设备。无线终端也可以称为系统、订户单元(subscriber unit)、订户站(subscriber station),移动站(mobile station)、移动台(mobile)、远程站(remote station)、远程终端(remote terminal)、接入终端(access terminal)、用户终端(user terminal)、用户代理(user agent)、终端(user device or user equipment),在此不作限定。
[0271]
上述可读存储介质,包括计算机可读存储介质。计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
[0272]
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献