一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于对抗性域适应策略的跨用户人体行为识别方法与流程

2021-11-29 13:32:00 来源:中国专利 TAG:


1.本发明属于行为识别技术领域,具体涉及基于对抗性域适应策略的跨用户人体行为识别方法。


背景技术:

2.人体行为识别是近年来研究的热点问题,得益于物联网行业的迅速发展以及终端设备(如手机、智能手环、智能手表、摄像头等)的大量流行,人体行为识别在许多与我们生活息息相关的领域(如老年看护、医疗救助、运动健康监测等)都发挥了重要作用。
3.目前的人体行为识别主要通过两种方式,一种是基于视频或图像信息的人体行为识别,因为图像处理的技术已经比较成熟,而且图像信息比较直观,因此这种方式的识别准确率较高,但这种方式需要依赖于摄像头等可以拍摄和捕捉到人体图像信息的设备,因此局限性比较大,而且隐私和安全方面也存在问题与隐患,导致这种方式未能广泛的进行应用。另一种方式是基于可穿戴设备的人体行为识别,这种方式借助可穿戴设备中的各种传感器信号,对用户当前正在进行的活动进行判断,较好地解决了隐私与安全问题,而且同时具有较高的活动识别精度,因此成为了更受欢迎和更具备应用前景的一种方式。
4.目前有许多关于基于传感器信号的人体行为识别的研究,但生理信号不同于视频信息,更容易受到个体间差异的影响,也就是说,当处理新用户的信号数据时,模型的效果会出现比较严重的下降。尽管这一问题可以通过训练大量的用户数据来获得泛化能力更强的模型来解决,但是数据的收集和标注是相当繁琐耗时的,因此,解决人体行为识别任务中的跨用户识别问题是一项富有意义和挑战性的任务。
5.目前关于跨用户人体行为识别的研究并不多,现有的解决方案也基本是基于域适应策略。域适应的目的是将神经网络学习到的知识从源域迁移到目标域,因此通用域适应方法常被用来解决跨用户问题。一些研究者使用最大均值差异(maximum mean discrepancy,mmd)方法,这是一种基于距离的通用域适应方法,旨在对齐源域和目标域的特征分布,但由于距离的衡量标准完全由人为确定,很难找到合适的标准;另一些研究者使用基于对抗的域适应方法,sa

gan(subject adaptor gan)、dann(domain

adversarial neural network)等基于对抗的方法被用在跨用户人体行为识别的研究当中。然而,由于信号更容易受到个体差异的影响,当个体间的差异较大时,这些通用域适应方法的效果并不能令人满意。通用域适应方法的一个基本假设是源域和目标域相同类别的特征在子空间中与不同类别的特征相比更为接近,但在基于传感器信号的跨用户域适应场景下,个体间生理和行为习惯上的巨大差异会使特征混淆问题比一般的域适应任务更为严重,这可能不满足基本假设。
6.具体来说,特征混淆问题在跨用户人体行为识别场景下有两个表现,一个是决策边界处的混淆(confusion at decision boundaries,cdb),另一个是重叠处的混淆(confusion at overlapping,col)。前者是指目标域的特征恰好落在分类器的决策边界附近,导致分类效果不理想的情况,而后者则是源域和目标域不同类别的特征重叠在一起造
成分类混淆的情况。正是这两种特征混淆问题的存在,导致了基于传感器信号的跨用户人体行为识别任务的巨大困难。


技术实现要素:

7.本发明的发明目的在于:针对上述存在的问题,提供了一种针对基于传感器信号的跨用户人体行为识别任务的对抗性域适应方法,本发明从图像的角度处理信号数据,从图像空间特征和时间序列两个维度进行特征提取的策略,通过对抗性的网络训练步骤与最小化类间混淆损失减轻了特征混淆问题带来的影响,提高了基于传感器信号的跨用户人体行为识别分类精度。
8.本发明的基于对抗性域适应策略的跨用户人体行为识别方法,包括下列步骤:
9.步骤1:基于可穿戴传感器设备获取源域用户在不同行为下的三轴加速度计数据和三轴陀螺仪数据,得到源域数据x
s
,并设置对应的行为标签y
s
;以及基于可穿戴传感器设备获取目标域用户的三轴加速度计数据和三轴陀螺仪数据,得到原始信号目标域数据x
t

10.步骤2:对源域数据x
s
和目标域数据x
t
进行切割分段,并基于图像化处理将信号数据转换成单通道活动图像数据;
11.其中,在进行信号的图像化转换过程中,丢弃了传统的快速傅里叶变换步骤,直接对信号通道进行堆叠处理,快速将其转换为单通道活动图像数据。
12.步骤3:将单通道活动图像数据输入特征提取网络e(平行深度神经网络为)中,从图像空间和时间序列两个维度对信号特征进行提取,获取图像空间特征fea
cnn
和时间序列特征fea
lstm

13.对图像空间特征的提取,采用卷积神经网络(convolutional neural networks,cnn)来进行,其输出为提取到的图像空间特征fea
cnn

14.对时间序列特征的提取,采用长短期记忆网络(long short

term memory,lstm)来进行,其输出为提取到的时间序列特征fea
lstm

15.在一种可能的实现方式中,提取图像空间特征fea
cnn
的卷积神经网络的结构包括依次连接的卷积层1、池化层1、卷积层2、池化层2、卷积层3、池化层3和全连接层,在全连接层会进行特征的展平处理,其输出作为提取到的图像空间特征fea
cnn

16.在一种可能的实现方式中,提取时间序列特征fea
lstm
的长短期记忆网络的参数设置为:隐藏单元数目为64,层数为3,在之后接一个全连接层,进行特征的展平处理,其输出作为提取到的时间序列特征fea
lstm

17.步骤4:对图像空间特征fea
cnn
和时间序列特征fea
lstm
进行展平处理,再进行特征拼接得到联合特征,即该联合特征为最终提取到的特征输入分类器中;
18.本发明中,对源域用户和目标域用户的数据特征提取不作区分,均遵循相同的网络流向,y
s
仅用于训练阶段对分类器和特征提取网络的调节(网络参数调节);
19.在一种可能的实现方式中,分类器的结构为:一个归一化层、一个激活层和一个全连接层,激活函数采用relu函数。对应于上述具体的特征提取的网络结构,接收的数据输入维度为192,包括128维的图像空间特征和64维的时间序列特征,输出的维度为人体行为识别任务所设置的人体行为类别数。分类器属于深度网络的一部分,其输入是拼接后得到的联合特征,输出是各人体行为(如走路、跑步、上下楼等)的预测概率,基于所有类别的预测
概率可以得到一个概率预测向量p,在识别输出时,将最大预测概率所对应的行为类别作为最终的识别结果。
20.步骤5:在训练过程中,为了解决决策边界处混淆和重叠混淆问题,基于最大化分类器差异(maximum classifier discrepancy,mcd)策略,训练两个相同结构不同初始化的分类器c1和c2,采用对抗性的方式对特征提取网络e和分类器c1、c2进行训练以减少特征在决策边界处的混淆;
21.在训练过程中引入最小化类间混淆(minimum class confusion,mcc)损失,减少特征重叠混淆带来的影响;
22.其中,对抗性训练特征提取网络e和分类器c1、c2的步骤如下:
23.第一步,使用源域数据x
s
和行为标签y
s
训练特征提取网络e和分类器c1、c2,该步骤的损失为交叉熵损失l
ce

24.第二步,固定特征提取网络e,使用源域数据x
s
和行为标签y
s
和目标域数据x
t
训练分类器c1、c2,以最大化两个分类器间的差异,所述差异定义为其中,m为标签的类别数目,p
1m
(y|x
t
)p
1m
和p
2m
(y|x
t
)表示两个分类器的预测输出,在保障分类准确率的前提下,该步骤的损失定义为:l
step2
=l
ce

l
dis

25.第三步,固定分类器c1、c2,使用源域数据x
s
、行为标签y
s
和目标域数据x
t
训练特征提取网络e,在这一步中,引入mcc损失,其公式为:提取网络e,在这一步中,引入mcc损失,其公式为:表示混淆矩阵,可由目标域的类间混淆矩阵计算得出,该步骤的损失定义为:其中,α和β为可调参数,表示对应的系数。
26.三个训练步骤中,第一个步骤采用的是传统的监督训练方式,利用源域数据得到一个较为可靠的人体行为识别网络,第二个步骤和第三个步骤形成了一个最大最小博弈,这种对抗的训练方式使提取到的特征在可以进行可靠分类的情况下尽量远离决策边界,减小了决策边界处混淆的影响;而最小化类间混淆损失可以优化提取到的特征分布,减少不同类别的特征重叠,减小了重叠处混淆的影响。
27.步骤6:基于分类器c1和c2的输出结果进行综合判决,确定目标域用户的人体行为类别,以实现对目标域用户的行为活动进行识别。
28.进一步的,步骤6中,所述综合判决为:将同一类别的预测概率相加,得到融合预测概率,将最大融合概率所对应的人体行为类别作为目标域用户的最终预测结果。
29.综上所述,由于采用了上述技术方案,本发明的有益效果是:
30.本发明采用深度神经网络的方式来解决跨用户人体行为识别任务,免去了传统的人工提取特征的步骤,时间效率更高;同时,本发明采用对抗性域适应策略,在训练过程中削弱了特征边界处混淆和重叠处混淆的影响,克服了其他方法在个体差异较大时出现迁移效果反而下降的问题,使模型对个体间差异问题有更高的稳定性。
附图说明
31.图1是本发明实施例中,本发明的基于对抗性域适应策略的跨用户人体行为识别方法的识别流程图;
32.图2是本发明实施例中,本发明的基于对抗性域适应策略的跨用户人体行为识别方法的框架图;
33.图3是本发明实施例中,采用的神经网络结构示意图。
具体实施方式
34.为使本发明的目的、技术方案和优点更加清楚,下面结合实施方式和附图,对本发明作进一步地详细描述。
35.参见图1和图2,本发明实施例提供的基于对抗性域适应策略的跨用户人体行为识别方法包括信号预处理、网络模型的训练以及对活动标签的预测三大部分,其中网络模型的训练又分为源域人体行为识别知识的学习和将知识向目标域进行迁移两步。
36.人体行为识别采用的信号一般是加速度信号和陀螺仪信号,这些传感器会被固定在腰部、手臂、小腿等位置来检测人体关键部位的运动情况,从而作为对站立、行走、跑步、上下楼、骑车等行为进行判断的依据。本发明实施例对信号的类型没有限制,因此常用的加速度和陀螺仪信号以及其他相关的多模态信号均可作为网络的输入。
37.在对信号进行预处理的步骤中,首先对信号进行了带通滤波和中值滤波,以去除信号中混杂的噪声成分,接着对信号数据进行了降采样,缩小数据规模,提升网络的训练速度。进行以上两步处理后,对信号数据进行分割切片,每一个分片的时长为5秒,相邻两个切片之间有2秒的重叠部分。选择这样的切片时长是为了保证分片中可以包含充足的动作信息,且单个分片的样本点数量不至于过大。数据预处理的最后一步也是最关键的一步即图像化处理,将各通道的信号数据转化为一个单通道的活动图像数据。具体做法是将各通道的信号分片按列堆叠,略去傅里叶变换等操作以简化图像化的流程。最终得到的单通道图像数据将作为神经网络的输入。
38.源域人体行为识别知识的学习属于普通的监督学习,这一部分已经被学界进行了深入的研究,无论是传统的支持向量机、随机森林、k邻近算法还是深度神经网络都有大量的文献参考。在使用深度神经网络的研究中,研究人员得出卷积神经网络(cnn)和长短期记忆网络(lstm)的性能更好的结论。为了充分利用活动图像中所包含的数据信息,本发明实施例中,采用一个平行深度网络来提取深度特征,特征的提取将从两个维度进行,即图像空间维度和时间序列维度,因为将信号转化成活动图像后,各通道信号间的潜在关系可以从图像中提取出来,而人体行为是一个在时间上连续的过程,前一时刻的信息对当前时刻行为的识别可能具有帮助。图像空间维度特征fea
cnn
的提取采用cnn,因为cnn在图像处理上具有天然优势,更容易捕获到图像中所包含的关键特征;时间序列维度特征fea
lstm
的提取采用lstm,因为lstm在捕捉具有前后时序关系的序列特征方面有优势。这两个维度的特征在展平后进行拼接合并,作为源域分类器的输入,以训练网络进行人体行为识别。因为图像空间中会包含更多的可利用信息,时间序列特征作为分类时的参考比值不宜过大,所以本发明实施例中,图像空间特征fea
cnn
的维度高于时间序列特征fea
lstm
的维度,两者优选的维度比值为2:1。
39.跨用户人体行为识别任务最大的技术难点在于向目标域进行知识迁移这一阶段,由于个体年龄、性别、行为习惯等方面的差异导致源域和目标域的信号数据差异较大,进而模型的分类精度会出现严重下降,通用的域适应方法并不能很好地应对个体间差异较大的情况。在进行具体分析后,将原因归为特征混淆问题,其表现包括决策边界处混淆和重叠处混淆,前者是指目标域的特征恰好落在分类器的决策边界附近,导致分类效果不理想的情况,而后者则是源域和目标域不同类别的特征重叠在一起造成分类混淆的情况。
40.相应地,采用最大化分类器差异策略对抗地训练网络,以优化提取到的特征的分布,减少决策边界处混淆的影响。具体的训练步骤分为以下三步:
41.第一步实现源域知识的学习,即使用源域数据x
s
和y
s
训练特征提取网络e和分类器c1、c2,该步骤的损失为交叉熵损失l
ce
,其公式为其中m表示类别的数量,y
ic
为符号函数,样本真实类别等于c时取1,否则值取0,p
ic
是观测样本i属于类别c的分类器预测概率。
42.第二步,固定特征提取网络e,使用源域数据x
s
、y
s
和目标域数据x
t
训练分类器c1、c2以最大化两个分类器间的差异,其差异定义为其中m为标签的类别数目,p
1m
和p
2m
表示两个分类器的预测输出,在保障分类准确率的前提下,该步骤的损失定义为:l
step2
=l
ce

l
dis

43.第三步,固定分类器c1、c2,使用源域数据x
s
、y
s
和目标域数据x
t
训练特征提取网络e,在这一步中,引入mcc损失以减轻特征重叠处混淆带来的影响,其公式为:e,在这一步中,引入mcc损失以减轻特征重叠处混淆带来的影响,其公式为:表示目标域的类间混淆矩阵,从而该损失函数定义式为:其中α和β为可调参数。
44.参见图2,在具体训练过程中,循环上述三个步骤至网络损失收敛,每一轮迭代中,前两个步骤结束后第三步作为单独的内层循环进行重复以保证特征提取网络提取到特征的稳定性。
45.参见图3,在一种可能的实现方式中,特征提取网络e包括一个cnn和一个lstm,cnn结构为:卷积层1、池化层1、卷积层2、池化层2、卷积层3、池化层3和全连接层,在全连接层会进行特征的展平处理,其输出作为提取到的图像空间特征fea
cnn
;lstm的具体参数设置为:隐藏单元数目为64,层数为3,在之后接一个全连接层,进行特征的展平处理,其输出作为提取到的时间序列特征fea
lstm

46.最后是对目标域样本的预测,在上述步骤后,网络已经完成对目标域知识的迁移,输入目标域样本数据x
ti
,其中,下标i表示目标域样本数据编号,两个分类器c1和c2会分别给出预测概率向量p
1c
和p
2c
,将p
1c
和p
2c
相加,取预测概率最高的类别作为模型对目标域样本数据x
ti
的最终预测结果。通过这种方式,综合考虑两个分类器的概率结果,充分利用双分类器策略的优势,进一步提高了模型对目标域数据识别的准确率和可靠性。
47.以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别
叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献