技术新讯 > 计算推算,计数设备的制造及其应用技术 > 用于图像识别的特征增强方法、装置、设备及存储介质 > 正文

用于图像识别的特征增强方法、装置、设备及存储介质

国知局
2024-07-31 23:17:31

本技术涉及图像识别，特别是涉及一种用于图像识别的特征增强方法、装置、设备及存储介质。

背景技术：

1、随着人工智能技术的发展，深度学习模型在图像分类领域具有广泛的应用。然而对于更加符合真实世界场景的单源域泛化问题，如何减少对图像级增强策略与数量的依赖以及学习更加稳定的跨域不变因果特征依然是一项更具挑战性和未被充分探索的任务。深度学习模型的设计基于一个强分布假设，即训练样本和测试样本来自独立同分布的数据集。然而，由于在真实场景中，源(训练)领域和目标(测试)领域之间存在不可避免的领域转移，当模型直接应用于不可见的场景时，往往会导致显著的泛化性能下降。单源域泛化旨在提高仅在单源域训练的模型在其他未见目标域上的泛化性能，其实际应用价值越来越受到人们的关注。

2、现有的单源域泛化工作通过数据增强和学习域不变表示来提高模型的泛化性能。数据增强的目标是通过各种图像级增强技术生成多样化的样本，以扩展源域的覆盖范围，用于提升模型的跨域性能。然而，对于未知领域的良好扩展取决于图像级增强方法的精心设计。尽管最近的研究取得了更好的性能，但这些模型的泛化能力与图像级增强的方式和数量密切相关。这些策略大多基于对整个图像的扰动，这可能导致在跨域不变特征学习过程中改变图像本身的语义信息。此外，域不变特征可能会在数据和标签之间建立虚假的联系，因为模型没有明确区分领域之间的因果和非因果特征。训练数据中的非因果判别特征取代了固有的语义特征作为预测任务的决策变量，导致单源域泛化性能较差。

技术实现思路

1、有鉴于此，本技术提供一种用于图像识别的特征增强方法、装置、设备及存储介质，以解决现有图像识别算法的单源域泛化性能较差的问题。

2、为解决上述技术问题，本技术采用的一个技术方案是：提供一种应用于图像识别模型的特征增强方法，其特征在于，其包括：构建三元组输入图像，三元组输入图像包括对应同一真实标签的第一图像和第二图像，以及基于预设图像级增强策略对第一图像进行扩增生成的第三图像；将三元组输入图像输入至特征提取器，提取得到因果特征和非因果特征；将因果特征和非因果特征输入编码器进行编码，得到表征第一图像和第二图像间的特征转换信息的第一类元知识和表征第一图像和第三图像间的特征转换信息的第二类元知识；基于第一类元知识和第二类元知识生成特征级隐式增强策略；将第一图像对应的因果特征和非因果特征、以及特征级隐式增强策略输入增强器中，生成增强因果特征和增强非因果特征；利用分类器对因果特征、非因果特征、增强因果特征、增强非因果特征分别进行特征类别识别，得到分类结果，并结合分类结果和预设损失函数反向更新特征提取器、编码器、增强器和分类器。

3、作为本技术的进一步改进，将三元组输入图像输入至特征提取器，提取得到因果特征和非因果特征，包括：将三元组输入图像输入至特征提取器，提取得到初始隐特征；将初始隐特征显式分解为因果特征组和非因果特征组，因果特征组包括依次与第一图像、第二图像、第三图像对应的第一因果特征、第二因果特征、第三因果特征，非因果特征组包括依次与第一图像、第二图像、第三图像对应的第一非因果特征、第二非因果特征、第三非因果特征。

4、作为本技术的进一步改进，将因果特征和非因果特征输入编码器进行编码，得到表征第一图像和第二图像间的特征转换信息的第一类元知识和表征第一图像和第三图像间的特征转换信息的第二类元知识，包括：将第一因果特征和第二因果特征拼接后输入至第一编码器，得到第一元知识，且将第一非因果特征和第二非因果特征拼接后输入至第一编码器，得到第二元知识，第一元知识和第二元知识属于第一类元知识，且将第一因果特征和第三因果特征拼接后输入至第二编码器，得到第三元知识，且将第一非因果特征和第三非因果特征拼接后输入至第二编码器，得到第四元知识，第三元知识和第四元知识属于第二类元知识。

5、作为本技术的进一步改进，基于第一类元知识和第二类元知识生成特征级隐式增强策略，包括：基于第一元知识按预设方式生成第一特征级隐式增强策略，且基于第二元知识按预设方式生成第二特征级隐式增强策略，且基于第三元知识按预设方式生成第三特征级隐式增强策略，且基于第四元知识按预设方式生成第四特征级隐式增强策略；预设方式表示为：zt,ag＝μt,ag+∈∑t,ag；zt,ap＝μt,ap+∈∑t,ap；其中，eag和eap对应于两种特征级增强元知识的编码器，和ftg表示第一图像、第二图像、第三图像对应的初始编码特征，t∈{c,b}，表示拼接操作，zt,ag和zt,ap均表示特征级隐式增强策略，t∈{c,b}，c表示因果特征，b表示非因果特征，μt,ag，表示第一类元知识，μt,ap，表示第二类元知识，∈～n(0,1)表示随机采样系数，∑＝diag(σ)表示尺度参数。

6、作为本技术的进一步改进，将第一图像对应的因果特征和非因果特征、以及特征级隐式增强策略输入增强器中，生成增强因果特征和增强非因果特征，包括：将第一因果特征与第一特征级隐式增强策略进行拼接后输入至增强器，得到第一增强因果特征，且将第一非因果特征与第二特征级隐式增强策略进行拼接后输入至增强器，得到第一增强非因果特征，且将第一因果特征与第三特征级隐式增强策略进行拼接后输入至增强器，得到第二增强因果特征，且将第一非因果特征与第四特征级隐式增强策略进行拼接后输入至增强器，得到第二增强非因果特征。

7、作为本技术的进一步改进，利用分类器对因果特征、非因果特征、增强因果特征、增强非因果特征分别进行特征类别识别，得到分类结果，并结合分类结果和预设损失函数反向更新特征提取器、编码器、增强器和分类器，包括：分别为第一因果特征、第二因果特征、第三因果特征、第一增强因果特征、第二增强因果特征打上因果特征标签，且分别为第一非因果特征、第二非因果特征、第三非因果特征、第一增强非因果特征、第二增强非因果特征打上非因果特征标签；将第一因果特征、第二因果特征、第三因果特征、第一增强因果特征、第二增强因果特征、第一非因果特征、第二非因果特征、第三非因果特征、第一增强非因果特征、第二增强非因果特征混淆后依次随机输入至分类器，得到每个特征对应的分类结果；根据分类结果、每个特征对应的标签和预设损失函数反向更新特征提取器、编码器、增强器和分类器。

8、作为本技术的进一步改进，预设损失函数包括表示因果特征与非因果特征间解耦性的第一损失函数、表示因果特征与非因果特征件独立性的第二损失函数、表示在保证因果特征增强一致性的条件下增强非因果特征的多样性的第三损失函数和表示促进特征分类正确且保证特征分类概率分布一致性的第四损失函数；

9、第一损失函数表示为：

10、

11、

12、

13、其中，表示第一损失函数，表示因果特征与非因果特征间解耦性的损失，表示增强因果特征和增强非因果特征间解耦性的损失，a,p,g分别表示第一图像、第二图像、第三图像，f表示特征提取器，h表示分类器，表示三元组输入图像的类别标签，表示因果特征，表示非因果特征，kl()表示kullback-leibler散度，用于将非因果特征经过分类器输出的分布与均匀分布yuniform对齐，表示增强因果特征，表示增强非因果特征。

14、第二损失函数表示为：

15、

16、

17、

18、

19、

20、其中，表示第二损失函数，表示因果特征与非因果特征间独立性的损失，表示增强因果特征和增强非因果特征间独立性的损失，cv∈{a,p,g}用于衡量因果特征和非因果特征之间的相关性，cw∈{p,g}用于衡量增强因果特征和增强非因果特征之间的相关性。

21、第三损失函数表示为：

22、

23、其中，δ>0是一个小的边界变量，表示第三损失函数，a表示增强器，d()表示计算初始特征和增强特征间的距离；

24、第四损失函数表示为：

25、

26、

27、

28、ω＝{f,eav,eag,a,m,h}；

29、其中，表示第四损失函数，ω为中间参数，表示因果特征和增强因果特征的集合，表示非因果特征和增强非因果特征的集合，ω表示特征提取器f、第一编码器eav、第二编码器eag、增强器a、线性层m、分类器h的集合。

30、为解决上述技术问题，本技术采用的又一个技术方案是：提供一种应用于图像识别模型的特征增强装置，其包括：构建模块，用于构建三元组输入图像，三元组输入图像包括对应同一真实标签的第一图像和第二图像，以及基于预设图像级增强策略对第一图像进行扩增生成的第三图像；提取模块，用于将三元组输入图像输入至特征提取器，提取得到因果特征和非因果特征；编码模块，用于将因果特征和非因果特征输入编码器进行编码，得到表征第一图像和第二图像间的特征转换信息的第一类元知识和表征第一图像和第三图像间的特征转换信息的第二类元知识；策略生成模块，用于基于第一类元知识和第二类元知识生成特征级隐式增强策略；增强特征生成模块，用于将第一图像对应的因果特征和非因果特征、以及特征级隐式增强策略输入增强器中，生成增强因果特征和增强非因果特征；分类模块，用于利用分类器对因果特征、非因果特征、增强因果特征、增强非因果特征分别进行特征类别识别，得到分类结果，并结合分类结果和预设损失函数反向更新特征提取器、编码器、增强器和分类器。

31、为解决上述技术问题，本技术采用的再一个技术方案是：提供一种计算机设备，所述计算机设备包括处理器、与所述处理器耦接的存储器，所述存储器中存储有程序指令，所述程序指令被所述处理器执行时，使得所述处理器执行如上述任一项的用于图像识别的特征增强方法的步骤。

32、为解决上述技术问题，本技术采用的再一个技术方案是：提供一种存储介质，存储有能够实现上述任一项的用于图像识别的特征增强方法的程序指令。

33、本技术的有益效果是：本技术的用于图像识别的特征增强方法通过利用第一图像作为源数据，基于预设图像级增强策略根据第一图像生成第三图像作为图像级增强数据，利用源数据和图像级增强数据，在特征层面上，学习两种特征级增强元知识，生成更多样化的特征级隐式增强策略，减少对预设图像级增强策略的的依赖，扩展源域分布，实现更稳定的跨域不变因果特征学习，从而提升模型跨域的泛化能力，并且还通过将因果特征、非因果特征、增强因果特征、增强非因果特征混合后进行分类，以利用因果干预学习更加稳定的域不变因果特征，进一步提高了单源域泛化性能。