技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于目标引导性表示学习的单分子电输运信号深度聚类方法 > 正文

一种基于目标引导性表示学习的单分子电输运信号深度聚类方法

国知局
2024-09-05 14:33:11

本发明涉及单分子电输运数据分析领域，具体是一种基于目标引导性表示学习的单分子电输运信号深度聚类方法。

背景技术：

1、单分子电子学试图在单个分子层次揭示分子的行为与性质，以解决物理、化学、生命科学等学科关键问题，进而推动单分子器件、量子信息材料以及单分子传感与检测等先进技术的发展，是对人类表征与检测技术极限的挑战，已成为各国研究竞争的制高点之一。单分子裂结技术如扫描遂穿裂结技术或机械可控裂结技术是测量单分子电输运性质的常用实验手段，其单次测量所得到电输运信号反映了单分子体系一次连续演化的动态过程，由于实验的高吞吐量，整体实验数据具有体量大、维度高且随机性强的关键特点，如何在无先验知识的情况下，挖掘测量过程中发生的单分子事件，提取被测分子体系包含的有用信息，一直以来都是该领域的热点问题。

2、聚类算法作为一种无监督机器学习算法，是发现数据中隐藏结构或模式的有效手段，然而，由于单分子电导信号的高维特性，如何克服维度诅咒并且准确区分不同电学信号之间的差异性，是单分子电导信号聚类面临的一个重要挑战。2016年lemmer等人(m.lemmeret al.,nat.commun.,2016,7,12922)提出了一种基于向量的多参数分类方法(multiparameter vector-based classification process，mpvc)来选择电导信号特征并实现对单分子电输运数据中不同电学信号的分类，但采取人工特征选择方法。2018年hamill等人(hamill et al.,phys.rev.lett,2018,120,016601)引入主成分分析法(principal component analysis，pca)对电导信号降维特征提取并实现两类单分子电输运数据的分类，该方法实现电导信号特征的自动选择。2021年lin等人(lin et al.,phys.chem.c,2021,125,11473)使用谱聚类的方法分类电导信号，并对比了多种聚类评估指标来量化判断聚类效果，然而该方法仍需要研究人员具备单分子与机器学习领域的专业知识。2020年huang等人(huang et al.,phys.chem.,2020,22,1674)引入了基于自编码器的深度聚类方法dak，dak使用自编码器输出的潜在空间向量输入k-means聚类，实现了从电导信号特征提取到聚类任务的全流程自动化。但dak方法在真实单分子电输运数据上的聚类表现欠佳，其关键在于未能有效处理以下两个关键挑战：第一，自编码器提取的特征是数据重构任务的相关特征，并非聚类任务的相关特征，即，该特征并不是聚类友好的，如何训练自编码器有效提取到聚类任务的相关特征，是该深度聚类方法的第1个挑战；第二，值得注意的是，自编码器的结构对于表示学习结果至关重要，而以往自编码器的结构选择通常通过研究者根据主观经验设置，其结果是无法保证模型能学习到数据的最佳特征，因此，如何构建特征提取部分自编码器的最优结构，是该深度聚类方法要解决的第2个挑战。

技术实现思路

1、本发明提出一种基于目标引导性表示学习的单分子电输运信号深度聚类方法，该方法是通过神经架构搜索(neural architecture search，nas)自动选择最适合表征输入数据集特征的网络结构，并将此结构用于采取联合训练策略的深度聚类网络(deepclustering network，dcn)，提高模型效率和准确性。此方法实现了单分子电输运数据端到端的聚类，所采用的技术方案包含以下步骤：

2、1)构建深度聚类框架。设计一个由自编码器和k均值聚类组合而成的深度聚类框架，其中自编码器的编码器和解码器均采用多层感知器；

3、2)搜索最优自编码器结构。设置一个自编码器结构搜索空间，然后将待聚类的单分子电输运信号输入自编码器进行重建训练，使用基于序列化模型的神经架构搜索方法找到重建误差最小的编码器与解码器最优结构，作为后续联合训练的自编码器结构；

4、3)构建深度聚类联合损失函数。将自编码器的重建损失与k均值聚类损失联合构成dcn的联合损失函数；

5、4)迭代训练。使用2)中得到的结构初始化自编码器结构，将待聚类的单分子电输运信号输入dcn网络，随后进行联合训练直至联合损失收敛；

6、5)聚类结果评估。使用轮廓系数(silhouette coefficient，sc)及戴维森堡丁指数(davies-bouldin index，dbi)指数作为该聚类方法的评价指标，选取sc最大或dbi指数最小的聚类结果作为数据的分类结果。

7、本发明构建一个由自编码器和k均值聚类组合而成的深度聚类框架，采用神经架构搜索找到深度聚类的自编码器最优结构，随后对dcn网络中自编码器的结构进行设置，并构建深度聚类联合损失函数进行迭代训练，直至联合损失函数收敛，同时使用聚类的评价指标轮廓系数及dbi指数作为聚类方法的内部评价指标，可以实现较为准确地识别数据中的模式与分类。本方法应用在电导信号分类。可以实现分类自动化与聚类友好，扩展了深度学习在分子电导信号表征以及分类中的应用。

技术特征：

1.一种基于目标引导性表示学习的单分子电输运信号深度聚类方法，其特征在于，在自编码器结合传统聚类这一深度聚类框架的下，通过神经架构搜索(neural architecturesearch，nas)自动选择最适合用于单分子电输运信号表示学习的深度神经网络结构，在深度聚类过程中采取联合训练策略，即将表示学习损失联合到聚类损失中，利用聚类目标引导表示学习，从而过滤掉噪声特征，学习到聚类友好的相关特征，提高聚类效率和准确性。具体包括以下步骤：

2.如权利要求1所述的一种基于目标引导性表示学习的单分子电输运信号深度聚类方法，其特征在于步骤1)中，成功构建一个由自编码器和k均值聚类组合而成的深度聚类框架。

3.如权利要求1所述的一种基于目标引导性表示学习的单分子电输运信号深度聚类方法，其特征在于步骤2)中，采用基于序列化模型的神经架构搜索方法找到自编码器的最优架构。

4.如权利要求1所述的一种基于目标引导性表示学习的单分子电输运信号深度聚类方法，其特征在于步骤3)中，使用自编码器的重建损失与k均值聚类损失联合构成的深度聚类网络的联合损失函数。

5.如权利要求1所述的一种基于目标引导性表示学习的单分子电输运信号深度聚类方法，其特征在于步骤5)，选取聚类评估指标中sc最大且dbi指数最小的聚类结果作为数据的分类结果。

技术总结本发明是一种基于目标引导性表示学习的单分子电输运信号深度聚类方法，涉及单分子电输运数据分析领域。设计一个由自编码器和K均值聚类组合而成的深度聚类框架，其中自编码器的编码器与解码器均为多层感知器；使用基于序列化模型的神经架构搜索方法找到重建误差最小的编码器与解码器最优结构，作为后续联合训练的自编码器结构；将自编码器的重建损失与K均值聚类损失联合构成深度聚类网络的联合损失函数；将待聚类的单分子电输运信号输入深度聚类网络，进行联合训练直至联合损失收敛；使用轮廓系数及Davies‑Bouldin指数作为该聚类方法的评价指标。本发明应用在单分子电输运信号聚类，为单分子电子学基础研究及应用研究提供了有效的数据方法支撑。技术研发人员：潘志超,赵易恒,黄恒智,庞深文受保护的技术使用者：桂林电子科技大学技术研发日：技术公布日：2024/9/2