技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种视点与环境交互的递进式自蒸馏情绪状态估计方法 > 正文

一种视点与环境交互的递进式自蒸馏情绪状态估计方法

国知局
2024-12-06 12:15:21

本发明属于情绪状态估计领域，具体涉及一种视点与环境交互的递进式自蒸馏情绪状态估计方法。

背景技术：

1、情绪状态估计是心理学研究、智能人机交互、情绪计算、广告效果分析和用户体验优化等多个领域中的一个关键问题。在心理学研究中，情绪状态估计能够帮助研究者更好地理解个体的情绪反应和心理状态；在智能人机交互中，准确的情绪状态估计能够使得机器能够更好地理解和响应人类的情绪，从而提高人机交互的自然性和有效性；在情绪计算中，情绪状态估计是实现机器情绪识别和情绪生成的基础；在广告效果分析中，情绪状态估计能够帮助广告商了解观众对广告的情绪反应，从而优化广告内容和投放策略；在用户体验优化中，情绪状态估计能够帮助产品设计者了解用户的情绪反馈，从而改进产品设计，提升用户体验。

2、传统的情绪状态估计方法大多依赖于生理信号和面部表情等显式特征。生理信号如心率、皮肤电反应、脑电波等能够反映个体的生理状态，从而间接推测其情绪状态。然而，这些生理信号的获取往往需要专业的设备和严格的实验环境，易受外界环境的干扰，并且数据获取过程复杂、成本高。另外，面部表情作为另一类显式特征，虽然能够较直观地反映个体的情绪状态，但也存在一定的局限性。例如，个体的面部表情可能会受到社会文化、个人习惯等因素的影响，导致情绪识别的准确性受到限制。此外，某些情绪状态(如内向型情绪)在面部表情上表现并不明显，进一步增加了识别的难度。

3、近年来，基于眼动追踪数据的情绪状态估计逐渐受到关注。眼动数据通过记录个体在观看不同图像时的视点位置、停留时间等信息，能够反映个体的注意力分布和视点移动模式。眼动数据具有较高的时间和空间分辨率，能够提供细粒度的情绪状态信息。例如，当个体对某一图像产生兴趣或情绪波动时，其视点可能会在该图像的特定区域停留较长时间，或者频繁地在多个感兴趣区域之间移动。然而，基于眼动数据的情绪状态估计方法也存在一些不足之处。仅使用眼动数据进行情绪状态估计可能会忽略环境对个体情绪的影响，例如图像的具体内容、图像在屏幕上的位置等因素。此外，眼动数据在某些情况下可能无法准确反映个体的真实情绪状态，例如在观看者故意控制自己眼动行为的情况下。因此，需要一种更加高效、准确的情绪状态估计方法，以应对情绪状态估计的挑战和需求。

技术实现思路

1、本发明所为了解决背景技术中存在的技术问题，目的在于提供了一种视点与环境交互的递进式自蒸馏情绪状态估计方法，通过采集和分析人在观看屏幕上不同种类图像时的眼球视点数据，结合图像位置进行情绪状态的精准判定。相较于现有方法，本发明方法可以更全面地捕捉个体的情绪状态。例如，通过分析个体在观看特定图像时的视点分布和停留时间，可以推测其对该图像的情绪反应。同时，结合图像的内容和位置，可以进一步提升情绪状态估计的准确性和鲁棒性。此外，基于视点与环境交互的方法还能够应用于更多场景，如不同类型的图像数据、不同的显示设备和使用环境，从而具有更高的适应性和广泛的应用前景。

2、为了解决技术问题，本发明的技术方案是：

3、一种视点与环境交互的递进式自蒸馏情绪状态估计方法，所述方法包括：

4、s1：通过高精度的眼动追踪设备采集观看者在观看屏幕上不同种类图像时的眼球视点数据，得到训练集和测试集；

5、s2：利用视点与图像的交互关系，将训练集中图像分割为多个视点停留区域，根据视点停留顺序进行分割和排序，得到视点区域序列；

6、s3：利用预设的视点情绪评估模型对训练集视点数据样本进行难度评估，根据评估结果对样本进行排序和分级，为递进式学习策略提供基础；

7、s4：构建深度神经网络模型，该模型结合自蒸馏机制，在训练过程中不断优化自身预测结果，从而提高情绪状态估计的准确性和可靠性；

8、s5：通过递进式学习策略由易到难逐渐学习样本，在每个递进学习阶段，模型均利用自蒸馏机制，通过前一阶段的高置信度预测来指导当前阶段的学习；

9、s6：重复以上步骤s3和s4，逐步优化模型的性能和泛化能力；

10、s7：使用测试集评估模型的性能和准确性，其中所述测试集包括人眼观看屏幕上不同种类图像时的眼球视点数据和视点对应的图像以及对应的真实情绪类别。

11、本发明的评估方法本发明通过引入递进式自蒸馏学习机制，分析视点和环境之间的交互特征，试图在不断自我迭代和优化中挖掘更深层次的情绪规律，旨在弥补传统算法的不足，以更好地适应多样化和主观化的情绪状态估计任务。

12、本发明方法引入了自蒸馏机制，使得模型能够在没有大量标注数据的情况下，通过自我学习提高性能。模型利用前一阶段的高置信度预测来指导当前阶段的学习，增强了模型对新颖样本的处理能力，使其评估结果更为准确和鲁棒。通过递进式学习策略，模型可以从易到难逐步学习样本，从而更加有效地掌握不同级别的情绪特征和模式。

13、本发明的检测方法还设计了一个深度神经网络架构，同时关注图像的全局特征和局部关系特征。这样的设计可以更好地捕捉视点停留区域的整体结构和语义信息，提高了情绪状态估计的准确性和全面性。

14、进一步，所述步骤s2包括：

15、s201：根据视点数据，将每张图像按照视点停留位置进行分割，形成多个视点区域，定义视点停留时间阈值，停留时间超过阈值的视点位置被认为是一个视点区域；

16、s202：对每个视点区域按照时间顺序进行排序，形成视点区域序列。

17、进一步，所述视点停留区域分割包括将图像按照视点数据进行分割，每张图像被分割为多个视点停留区域，假设每个图像的分辨率为w×h，则视点停留区域r的定义如下：

18、r＝{(xi,yi)|ti＜τ}

19、其中，τ为视点停留时间的阈值，只有停留时间超过阈值的视点位置才被认为是一个视点区域；

20、所述视点停留区域的排序包括对每个视点区域按照时间顺序进行排序，形成视点区域序列；设视点数据按时间顺序排序为{(t1,x1,y1),(t2,x2,y2),…,(tn,xn,yn)}，则视点区域序列s为：

21、s＝{(xi1,yi1),(xi2,yi2),...,(xik,yik)}

22、其中，i1,i2,...,ik为按时间顺序排序的视点索引。

23、进一步，所述步骤s3包括：

24、s301：使用现有训练好的图像情绪评估模型对训练集中的视点数据进行初步情绪分类，所述初步的深度学习模型为现有的预训练好的视点情绪评估模型msbls；

25、s302：根据初步分类结果，评估每个样本的难度，将样本进行排序和分级，以便后续的递进学习阶段。

26、进一步，所述步骤s4包括：

27、s401：设计一个特征提取器，为深度神经网络架构，包括多个卷积层、激活层和池化层，以便有效提取视点区域的全局特征，所述特征提取器基于去除全连接层的卷积神经网络resnet50或vgg16构建；

28、s402：设计一个多尺度图卷积神经网络，获得最深层级别下视点区域全局特征的多尺度关系特征；同时设计一个长短期记忆网络，对提取的特征进行时序学习，捕捉视点区域之间的动态关系；

29、s403：设计一个情绪评估器，包括级联的两个全连接层，用于输出情绪类别；

30、s404：在模型的深度网络架构中引入自蒸馏机制，允许模型的后续模块能够参考前一模块的训练结果，并将这些结果作为额外的指导信号，促进模型学习更加抽象和复杂的情绪特征；通过三个蒸馏损失函数，即特征蒸馏损失、关系蒸馏损失和响应损失在特征、关系和响应三个层面上分别对教师网络进行在线蒸馏，将教师网络知识转移到学生网络中。

31、进一步，所述自蒸馏机制通过以下步骤在模型中得以实现：

32、s4041：所述特征蒸馏损失通过以下方式构建：在教师网络和学生网络的特征提取器的最后层图像全局特征之间实施特征蒸馏，以促使学生网络能够模仿教师网络中相应层的特征激活模式；这一过程通过最小化学生网络和教师网络之间的特征激活差异来完成，使用l2范数或者余弦相似度作为损失函数，从而在特征层面实现知识的传递；

33、s4042：所述关系蒸馏损失通过以下方式构建：针对教师网络和学生网络的多尺度图结构特征，计算它们内部各特征之间的关系，使用特定的度量方法，如余弦相似度或是欧氏距离等，来定量评估和比较这些关系；关系蒸馏损失函数旨在最小化学生网络学到的多尺度图关系与教师网络中多尺度图关系之间的差异，使得学生网络能够学习到更加丰富的结构性知识；

34、s4043：所述响应损失通过以下方式构建：直接对比教师网络和学生网络的输出，对最后一层全连接层输出的情绪类别进行蒸馏，响应损失评估两个网络在最终预测任务上的表现差异，采用软标签交叉熵损失来实现，使学生网络能够在输出层级上学习到教师网络的预测行为。

35、进一步，所述步骤s5包括：

36、s501：按照样本的难度分级，将训练过程分为多个阶段，通过递进的学习阶段，从易到难逐渐学习样本；具体的，首先学习较简单的视点数据样本，然后逐渐引入更复杂的样本，通过这种方式，模型能够逐步掌握不同级别的情绪特征和模式；

37、s502：在每个递进学习阶段，模型利用自蒸馏机制来指导当前阶段的学习；具体的，模型利用前一阶段的高置信度预测作为标签，来引导当前阶段的学习，确保模型在学习新的样本时保持一定的稳定性和准确性，以迭代提升模型的学习能力。

38、进一步，所述步骤s7包括：

39、s701：在每个训练阶段结束后，使用与训练样本分布不同的验证集来测试模型的性能，评估指标包括准确度和f1分数；

40、s702：根据性能评估的结果，调整模型的超参数，包括学习率、正则化系数，优化模型结构，以提高模型的情绪评估性能。

41、一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述中任一项所述的一种视点与环境交互的递进式自蒸馏情绪状态估计方法。

42、一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现上述中任一项所述的一种视点与环境交互的递进式自蒸馏情绪状态估计方法。

43、与现有技术相比，本发明的优点在于：

44、提高情绪状态估计的准确性：发明通过将眼动追踪数据与图像内容和位置等环境因素相结合，能够更全面地捕捉个体的情绪状态。通过高精度的眼动追踪设备采集观看者的视点数据，并结合图像的分割和排序，使得情绪状态估计不仅依赖于单一的眼动数据，而是综合考虑了视点与图像的交互关系，从而显著提高了情绪状态估计的准确性；

45、增强模型的鲁棒性：传统方法容易受到环境干扰，而本发明通过设计递进式学习策略和自蒸馏机制，使得模型能够逐步学习并优化自身预测结果。在每个递进学习阶段，利用前一阶段的高置信度预测结果指导当前阶段的学习，确保模型在面对复杂样本时仍能保持稳定的预测性能，从而增强了模型在不同环境和样本上的鲁棒性；

46、实现多场景应用能力：本发明的方法适用于多种类型的图像数据和显示设备，具有较高的适应性。通过视点区域的分割和排序，以及多尺度图卷积神经网络和长短期记忆网络的结合，模型能够有效提取和学习视点区域的全局特征和动态关系，适应不同场景下的情绪状态估计需求。因此，本发明在心理学研究、智能人机交互、情绪计算、广告效果分析和用户体验优化等多个领域具有广泛的应用前景；

47、提供可靠的情绪状态分析结果：本发明采用递进式学习策略，从易到难逐渐学习样本，通过每个学习阶段的自蒸馏机制，逐步优化模型的性能和泛化能力。在训练过程中，通过多次循环上述学习和优化步骤，模型能够充分掌握不同级别的情绪特征和模式。最终，在独立的验证集或测试集上进行评估，验证模型的性能和准确性，确保情绪状态分析结果的可靠性和高精度。

48、综上所述，本发明通过综合利用眼动数据和环境交互信息，设计递进式学习策略和自蒸馏机制，显著提升了情绪状态估计的准确性、鲁棒性、适应性和可靠性，具备广泛的应用前景。