一种基于ViT和StarGAN的驾驶员表情识别方法与流程

2022-02-22 07:26:17 来源：中国专利 TAG：

技术特征：
1.一种基于vit和stargan的驾驶员表情识别方法，其特征在于，包括以下步骤：s1：利用驾驶员面部表情数据集中所有的人脸表情图像，采用viola-jones人脸检测算法检测面部区域并进行裁剪和背景去除，然后搭建和训练stargan网络用于扩充驾驶员面部表情数据集，随后对扩充数据进行归一化处理，得到一个驾驶员面部表情扩充数据集；s2：构建基于vit的驾驶员面部表情识别网络；s3：利用步骤s1得到的面部表情扩充数据集训练步骤s2构建的vit驾驶员面部表情识别网络；s4：将步骤s1人脸定位处理后的且未作为网络训练的kmu-fed数据集子集送入步骤s3训练过程中最后20个迭代循环对应的网络模型中，得到每个图像的识别标签。2.根据权利要求1所述的基于vit和stargan的驾驶员表情识别方法，其特征在于，所述步骤s1中，训练stargan网络具体包括以下步骤：s11：将人脸定位裁剪后的图像进行缩放至分辨率为96
×
96，并进行噪点处理；s12：随机将图片x及其标签f输入到生成器g中，得到生成的图像结果g(x,f)，组成一系列带标签特征的假图并混合真假图像；s13：将真假混合图像集中的随机图片x输入判别器d及其辅助分类器中，得到判别真假图的判别结果d
src
(x)和鉴别图片表情标签的判别结果d
cls
(x)；s14：为使得生成器g的生成图与真值集差距不断减小，且加快训练的同时防止训练过程中产生过拟合现象，定义生成器g和判别器d之间关于真假的对抗误差函数表示如下：式中，表示原图像和生成图像之间的直线均匀样本，表示判别器d对样本的梯度值；s15：假设真值集原图标签为f
′
，将原图和假图分别送入判别器d中的辅助分类器，得到分类误差和表示为：表示为：s16：将生成图和它对应的标签再次放入生成器g中进行重构，得到第二次生成的图片与原图之间的像素点信息差值的均方误差l
rec
，表示为：l
rec
＝e
x,f,f
′
[||x-g(g(x,f),f
′
)||1]；s17：根据步骤s14、s15、s16结果得到生成器g和判别器d的训练目标函数，分别表示如下：下：式中，λ
cls
和λ
rec
分别表示判别器d中特征分类的学习率和生成器g重构损失相对的学习率；s18：设置超参数值λ
cls
＝1，λ
gp
＝10，λ
rec
＝10，同时为防止过拟合现象，设置训练迭代次数为100000，开始模型训练，并得到最终的生成结果，即驾驶员面部表情扩充数据集。
3.根据权利要求2所述的基于vit和stargan的驾驶员表情识别方法，其特征在于，所述步骤s2中，基于vit的驾驶员面部表情识别网络主要包括patch embedding、position embedding、transformer encoder block和mlp分类器四个部分；patch embedding是用于记录图片的特征；输入的图像为x(h,w,c),其中，h和w为图片的长和宽，c为图片的通道数；position embedding用于编码每一个特征块的位置信息；transformer encoder block的输入是一系列特征向量组成的特征块x
′
p
(n 1,d)，经过归一化处理和线性变换，得到三个特征向量组q:{q1,q2,
…
,q
n
}、k:{k1,k2,
…
,k
n
}、v:{v1,v2,
…
,v
n
}，经过多头自注意力机制的计算获得注意力权重，将权重与输入x
′
p
(n 1,d)加和，得到新的一维向量y
p
(n,d)，对该向量再进行正则化处理，并输入多层感知器mlp，即多个全连接层，其结果与原一维向量y
p
(n 1,d)再加和，最终输出向量y
′
p
(n 1,d)，该输出向量会进入下一层的训练中，类似于多层卷积神经网络，这样多层叠加transformer编码器能够达到学习特征的目的。4.根据权利要求3所述的基于vit和stargan的驾驶员表情识别方法，其特征在于，在最后一层transformer编码器，结果y
′
p
(n,d)，经过均值处理后具有一维结构，因此经过线性变换得到最终的分类结果。5.根据权利要求4所述的基于vit和stargan的驾驶员表情识别方法，其特征在于，patch embedding是用于记录图片的特征：输入的图像为x(h,w,c),其中，h和w为图片的长和宽，c为图片的通道数：设需要将图片分成p
×
p大小的特征图,那么可以通过一个重塑形操作,将图片变成一系列特征块x
p
(n,p2·
c),其中特征块的数量n＝hw/p2,特征块的大小为(1,p2·
c),最后对每一个特征块进行线性变换,将数据映射到n个大小为(1,d)的一系列新特征块x
′
p
(n,d),其中d为设定的自注意力机制结构的输入的大小；另外重新输入一串长度为d的可学习向量x
class
,该向量为随机数向量，用于初始化该模型；将x
class
与x
′
p
(n,d)进行合并，得到大小为x
′
p
(n 1,d)的一系列特征块，这一系列特征块包含了全部的图片信息。6.根据权利要求5所述的基于vit和stargan的驾驶员表情识别方法，其特征在于，position embedding用于编码每一个特征块的位置信息：由于在图片重塑形时，位置信息会发生改变，如果不提供位置信息，那么模型只能通过嵌入块的语义来学习特征，而图像特征往往取决于相近像素之间的信息，没有位置信息意味着模型必须自己寻找该信息，这样会额外添加学习成本，因此需要一个地址块来储存位置信息；为了与嵌入块中的输出一致，同时避免模型过于复杂，vit采用的是由n 1个大小为(1,d)的特征块组成，而地址块由[-1,1]的随机数组成但无序的数字排列并不代表无序的位置信息，相反，如果两个区域把相邻区域也作为位置编码的内容，那么这两个区域的位置编码就会存在一定的重复内容，此时可以认为这两个区域更相近，相反位置编码没有重复内容的两个区域距离将会更远，最后选择地址块与嵌入块相加和，作为二者的结合，输入第一层transformer编码器中。7.根据权利要求6所述的基于vit和stargan的驾驶员表情识别方法，其特征在于，步骤s3中，训练过程中设置的网络参数分别为：数据增强方式为随机水平翻转，batchsize为16
×
16，网络深度为12，patch embedding的dim设置为128，multi-head self-attention的头数h＝8，dropout设为0；训练过程选取的激活函数为relu函数，损失方程为ce loss，优化器为adam，学习率初始值为lr＝5e-4，学习率变化策略为间隔调整学习率，调整间隔设置为5，下降比例为0.7，迭代次数设置为1500。8.根据权利要求7所述的基于vit和stargan的驾驶员表情识别方法，其特征在于，驾驶
员面部表情数据集是指公开的kmu-fed数据集，该数据集包含1106张驾驶场景下的6种人脸表情即愤怒、烦躁、恐惧、快乐、悲伤、惊奇图像且均标注对应的表情标签，该数据集是目前为数不多的公开的驾驶场景下人脸表情图像数据集之一。9.根据权利要求7所述的基于vit和stargan的驾驶员表情识别方法，其特征在于，viola-jones人脸检测算法使用不同的haar特征和积分函数获取人脸图像中不同区域之间的特征，每一类特征用一个adaboost分类器进行分类，但单个分类器的效果有限，所以需要多个分类器协同，因此扩大haar特征的长和宽，重复训练不同的adaboost分类器，最后将这些不同的分类器级联，得到一个强分类器，该强分类器可以有效地识别出人脸位置。10.根据权利要求9所述的基于vit和stargan的驾驶员表情识别方法，其特征在于，stargan网络由一个生成器g和一个判别器d组成；生成器g能够将驾驶员人脸图片映射到不同标签上，生成一组带标签特征的假图；判别器d能够判别图片是否为g生成，且能识别出图片中的驾驶员表达哪种表情，生成器g由多层卷积层、残差块、反卷积层顺序连接，判别器d由纯卷积层构成。

技术总结
本发明提供一种基于ViT和StarGAN的驾驶员表情识别方法，该方法基于面部图像的非接触式驾驶员情绪识别方法，通过基于haar特性的人脸定位和裁剪使得驾驶员面部图像尺寸减小、特征增强，然后采用一种新的数据增强策略用于生成驾驶员面部表情图像，即搭建并训练StarGAN网络获得一个驾驶员面部表情扩充数据集；本发明不同于传统的基于CNN网络框架的表情识别方法，构建了一个基于多头自注意力机制的ViT表情识别网络，该方法一方面能够使得网络训练的注意力逐渐集中在重要的表情特征上，另一方面能够更多地关注表情图像的长距离信息；同时，缓解了数据集数据不足的问题，达到了更高的识别准确率。别准确率。别准确率。

技术研发人员：苟超黄志杰玉悦钊
受保护的技术使用者：中山大学
技术研发日：2021.06.23
技术公布日：2022/2/6

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于卡尔曼滤波和最小二乘拟合的抗野值降噪方法与流程

一种基于ViT和StarGAN的驾驶员表情识别方法与流程

相关文献

最热文献