技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种用于长尾数据集的神经架构搜索方法 > 正文

一种用于长尾数据集的神经架构搜索方法

国知局
2024-12-06 12:58:24

本发明涉及长尾学习，具体涉及一种用于长尾数据集的神经架构搜索方法。

背景技术：

1、随着人工智能领域的蓬勃发展以及医疗信息化的不断推进，基于人工智能的医疗技术已成为当下最为火热的研究方向之一，引入深度学习进行医疗辅助诊断有着巨大的发展前景。众所周知，一个深度学习模型的性能很大程度上取决于其网络架构的设计。然而由于医疗场景下的样本数目众多且类型多变，设计一个统一的神经网络架构以求在多种不同任务下均表现优异显然并不现实。而为每个任务单独设计网络架构存在以下缺点：（1）设计架构需要专业知识，医务人员往往很难完成该工作，需要借助外部力量，从而有可能导致极具隐私性的医疗数据泄露。（2）人工设计网络架构费时费力，效率低下。

2、在当前的技术背景下，神经架构搜索（neural architecture search，nas）算法为解决上述问题提供了一个潜在方法，它能够在预定义好的架构空间中自动搜索，针对特定任务进行架构设计。然而，在现实医疗环境下，不同类别疾病的样本数目有着明显差异，由此产生长尾问题，这对传统的神经架构搜索方法提出了巨大的挑战。进行相关实验后发现，使用现有的nas算法在长尾医疗数据集上搜索架构，实验结果表明搜索到的架构在长尾医疗数据集上的表现无法达到基线标准（以专家设计的通用网络架构为基线）。

3、因此，本发明提出了一种用于长尾数据集的神经架构搜索方法，该方法能在不平衡数据集上搜索得到一个更适合于长尾医疗数据集的网络架构，其表现优于通用架构在长尾数据上的表现，为长尾问题的解决提供了一个互补的角度。

技术实现思路

1、针对现有神经架构搜索方法在长尾医疗数据集上表现差的问题，本发明提出了一种用于长尾数据集的神经架构搜索方法，与传统的神经架构搜索方法不同，本发明定义新的适合长尾数据的搜索空间，并且在新的搜索空间上实施新的搜索策略；基于这些改进，本发明能搜索到那些在长尾医疗数据下表现优异的架构，为长尾医疗数据环境下进行架构搜索提供了一种可靠的解决方法。

2、为解决上述技术问题，本发明采用如下技术方案：

3、一种用于长尾数据集的神经架构搜索方法，分别从搜索空间和搜索策略两个方面对可微分架构搜索方法进行改进，以得到适用于长尾医疗数据集的神经网络，对可微分架构搜索方法的改进包括：

4、a，构建新搜索空间：将可微分架构搜索方法中的搜索空间的扩张卷积和可分离卷积移除，新增长尾聚合卷积和长尾层次卷积，得到新搜索空间；其中，长尾聚合卷积是通过聚合不同区域的特征来增强神经网络对长尾医疗数据集中不同疾病数据类别的识别能力；具体地，长尾聚合卷积依次包括第一卷积核、relu激活函数、n1个卷积路径、批归一化操作和第二卷积核；relu激活函数输出的特征向量均分为n1组，分别通过n1个卷积路径，得到第一卷积后特征向量，对进行批归一化操作后输入到第二卷积核；输入至长尾聚合卷积的特征向量与第二卷积核输出的特征向量进行向量拼接，作为长尾聚合卷积的输出；长尾医疗数据集中不同类别的疾病数据数目有着明显差异，例如长尾医疗数据集中至少存在类别s1和类别s2的疾病数据，类别s1的疾病数据和类别s2的疾病数据在数量上相差10倍以上；

5、长尾层级卷积依次包括第三卷积核、n2个卷积路径、批归一化操作、relu激活函数和第四卷积核；将经过第三卷积核后得到的特征向量分为n2组，分别通过n2个卷积路径，得到n2个第二卷积后特征向量，对进行批归一化操作后再依次输入到relu激活函数和第四卷积核；输入至长尾层级卷积的特征向量与第四卷积核输出的特征向量进行向量拼接，作为长尾层级卷积的输出；

6、b，搜索策略改进，包括在可微分架构搜索方法中引入尾部感知损失、在可微分架构搜索方法中增加对架构权重的正则化强度；

7、引入尾部感知损失，具体包括：在优化架构权重时，使用如下采样策略抽取疾病数据：一部分疾病数据采用均匀分布方式抽取，另一部分疾病数据采用逆长尾分布方式抽取；增加对架构权重的正则化强度，具体包括：使用正则化更新架构权重；

8、对架构权重更新的总损失函数为：；其中，为正则化强度，表示架构权重的l2范数；通过改进的可微分架构搜索方法对特定的长尾医疗数据集进行架构搜索，得到适用于特定长尾医疗数据集的神经网络。

9、进一步地，所述relu激活函数输出的特征向量均分为n1组，分别通过n1个卷积路径，得到第一卷积后特征向量，具体包括：

10、；

11、；

12、为输入到长尾聚合卷积第个卷积路径的特征分量，，表示长尾聚合卷积第个卷积路径的卷积核，表示特征向量的拼接操作，表示第一卷积后特征向量的第i个分量。

13、进一步地，所述将经过第三卷积核后得到的特征向量分为n2组，分别通过n2个卷积路径，得到n2个第二卷积后特征向量，具体包括：

14、；

15、其中，为输入到长尾层级卷积第j个卷积路径的特征分量，为长尾层级卷积第j个卷积路径的卷积核，表示长尾层级卷积第j个卷积路径输出的特征向量。

16、进一步地，所述尾部感知损失为：

17、；

18、其中，和分别是采用逆长尾分布方式抽取的疾病数据和采用均匀分布方式抽取的疾病数据；是一个超参数；表示神经网络参数。

19、与现有技术相比，本发明的有益技术效果是：

20、本发明能够有效地在长尾医疗数据集上运行，为神经架构搜索技术在不平衡数据集上的应用提供了一种解决思路。此外，本发明还为长尾学习提供一个鲜被讨论的切入点，即从网络架构方面入手改善深度模型在不平衡数据集上的表现。

技术特征：

1.一种用于长尾数据集的神经架构搜索方法，分别从搜索空间和搜索策略两个方面对可微分架构搜索方法进行改进，以得到适用于长尾医疗数据集的神经网络，其特征在于，对可微分架构搜索方法的改进包括：

2.根据权利要求1所述的用于长尾数据集的神经架构搜索方法，其特征在于，所述relu激活函数输出的特征向量均分为n1组，分别通过n1个卷积路径，得到第一卷积后特征向量，具体包括：

3.根据权利要求1所述的用于长尾数据集的神经架构搜索方法，其特征在于，所述将经过第三卷积核后得到的特征向量分为n2组，分别通过n2个卷积路径，得到n2个第二卷积后特征向量，具体包括：

4.根据权利要求1所述的用于长尾数据集的神经架构搜索方法，其特征在于，所述尾部感知损失为：

技术总结本发明涉及长尾学习技术领域，公开了一种用于长尾数据集的神经架构搜索方法，分别从搜索空间和搜索策略两个方面对可微分架构搜索方法进行改进，以得到适用于长尾医疗数据集上的神经网络，对可微分架构搜索方法的改进包括，构建新搜索空间：将可微分架构搜索方法中的搜索空间的扩张卷积和可分离卷积，依次替换为长尾聚合卷积和长尾层次卷积，得到新搜索空间；搜索策略改进，包括在可微分架构搜索方法中引入尾部感知损失、在可微分架构搜索方法中增加对架构权重的正则化强度。本发明定义新的适合长尾数据的搜索空间，并且在新的搜索空间上实施新的搜索策略，为长尾数据环境下进行架构搜索提供了一种可靠的解决方法。技术研发人员：龚伟,潘宇涵,周浩泉,王雪松,惠维,李博睿,林丽,刘生昊,邓贤君受保护的技术使用者：中国科学技术大学技术研发日：技术公布日：2024/12/2