基于等级多模态自注意力图神经网络的DTI预测方法
- 国知局
- 2024-07-12 10:37:29
本发明涉及药物研究,具体来说,涉及基于等级多模态自注意力图神经网络的dti预测方法。
背景技术:
1、药物-靶点相互作用(drug-target interactions,dtis)预测是药物研发过程中的关键步骤,传统的筛选实验需要耗费大量的人力物力,导致药物研发成本高昂,随着化合物库和靶点库的日益增长,利用计算方法预测dti已成为一种切实可行的方法,可以有效地提高药物研发效率,降低研发成本。基于计算方法预测dti主要分为两类:基于机器学习的dti预测和基于深度学习的dti预测;基于机器学习的dti预测方法利用随机森林、支持向量机和逻辑回归等算法在已知的药物-靶点相互作用数据集进行训练,学习药物和靶点之间的关联规律。
2、基于深度学习的dti预测方法将dti预测建模成二分类任务,此类方法采用深度学习模型自动学习药物和靶点的特征表示,并捕捉它们之间的复杂关系,随着深度学习技术的快速发展,已有大量的模型被提出用于dti预测。例如,将分子特征和反应特征作为模型输入,引入特征核函数,通过计算特征空间中的相似度来进行dti预测,以及提出deepdta模型,deepdta模型仅使用药物smiles和蛋白质序列作为输入,采用两个cnn模块分别提取药物和蛋白质的特征用于药物-靶点亲和力预测,取得了显著效果。
3、虽然基于序列的dti预测方法取得了很大进展,但基于序列的表示方式无法提供分子的化学结构信息,导致模型无法捕捉分子结构间的相似性,影响了dti预测模型的准确率。相对于基于序列的表示方式,图表示方式能够捕捉药物分子的结构和拓扑信息,在dti预测任务上表现出显著的优势,因此基于图神经网络的dti预测方法逐渐兴起。例如,使用图神经网络(graph neural network,gnn)学习药物分子的特征,然后采用cnn从蛋白质序列中提取蛋白质特征,将两者拼接得到药物-蛋白质对送入分类网络进行预测,有效提高了dti预测的准确率。
4、在dti预测方法中,各种数据表示方式都有其局限性,这在一定程度上限制了基于单一数据表示方式的深度学习模型的学习能力,来自不同模态的数据往往包含着各自独特的信息线索,综合这些模态的数据可以提供更全面、更丰富的信息,帮助模型更好地理解和刻画数据的特征和关系,进一步提升模型的学习能力和泛化能力。因此,近年来,已有一些研究工作采用多模态数据来改善dti预测模型的性能,但基于多模态的dti预测方法在多模态数据融合方面还存在不足,大部分模型在对模态间的交互进行建模时忽视了模态内的交互,无法同时对模态内和模态间的交互进行建模。
5、针对相关技术中的问题,目前尚未提出有效的解决方案。
技术实现思路
1、针对相关技术中的问题,本发明提出基于等级多模态自注意力图神经网络的dti预测方法,以克服现有相关技术所存在的上述技术问题。
2、为此,本发明采用的具体技术方案如下:
3、基于等级多模态自注意力图神经网络的dti预测方法,该基于等级多模态自注意力图神经网络的dti预测方法包括以下步骤:
4、s1、利用卷积模块提取蛋白质序列特征及蛋白质2-mer序列特征;
5、s2、利用卷积模块并结合图神经网络提取药物smiles特征及药物分子图特征;
6、s3、对蛋白质序列特征、蛋白质2-mer序列特征、药物smiles特征及药物分子图特征进行多模态特征融合;
7、s4、基于多模态特征融合结果得到药物靶点对特征向量,并将药物靶点对特征向量作为分类器的输入进行dti预测。
8、优选地,利用卷积模块提取蛋白质序列特征及蛋白质2-mer序列特征包括以下步骤:
9、s11、对原始蛋白质序列进行编码,并将编码后的原始蛋白质序列转换为标记序列;
10、s12、将标记序列映射至嵌入空间中,并利用卷积层从标记序列中提取蛋白质序列特征;
11、s13、将原始蛋白质序列分割为序列片段,并将各个序列片段转化为2-mer编码序列;
12、s14、将2-mer编码序列映射至嵌入空间中,并利用卷积层从2-mer编码序列中提取蛋白质2-mer序列特征。
13、优选地,利用卷积模块并结合图神经网络提取药物smiles特征及药物分子图特征包括以下步骤:
14、s21、对药物smiles字符进行编码及填充处理,得到药物分子矢量,同时将药物分子矢量作为图神经网络的输入;
15、s22、将药物分子矢量映射至嵌入空间中,并利用卷积模块从药物分子矢量中提取药物smiles特征;
16、s23、将药物smiles转化为药物分子图,并从药物分子图中获取节点的初始特征及边的初始特征;
17、其中,节点的初始特征包括原子序数、化学键数量、形式电荷、手性、与原子相连接的氢原子数量、杂化、是否参与构成芳香环及原子质量;
18、边的初始特征包括键类型、共轭性、键位置及几何异构性;
19、s24、基于节点的初始特征及边的初始特征,利用有向消息传递网络提取药物分子图特征。
20、优选地,基于节点的初始特征及边的初始特征,利用有向消息传递网络提取药物分子图特征包括以下步骤:
21、s241、将节点的初始特征作为节点的初始隐状态,并将与节点的初始特征相关联的边bvw的初始特征转化为边bvw的初始隐状态;
22、s242、利用平均函数将节点的初始特征、邻居节点的初始特征及第t层中边bkv的隐状态进行聚合,得到边bvw在第t+1层中的传递消息;
23、s243、将边bvw在第t+1层时的传递消息及第t层中边bvw的隐状态作为全连接神经网络的输入,得到第t+1层中边bvw的隐状态;
24、s244、将与节点相连的所有边的隐状态进行求和,得到节点的传递消息,同时将节点的初始特征及节点的传递消息进行特征拼接并传输至线性层得到节点的最终隐状态;
25、s245、拼接所有节点的最终隐状态,得到药物分子图特征。
26、优选地,对蛋白质序列特征、蛋白质2-mer序列特征、药物smiles特征及药物分子图特征进行多模态特征融合包括以下步骤:
27、s31、将蛋白质序列特征及蛋白质2-mer序列特征进行特征拼接得到蛋白质组合特征,并基于蛋白质组合特征计算一级蛋白质融合特征;
28、s32、将药物smiles特征及药物分子图特征进行特征拼接得到药物组合特征,并基于药物组合特征计算一级药物融合特征;
29、s33、将一级药物融合特征及一级蛋白质融合特征进行特征拼接得到药物靶点对特征,并基于药物靶点对特征计算最终融合特征;
30、s34、对最终融合特征分别进行拆分及加权融合处理,得到最终的模态特征。
31、优选地,将蛋白质序列特征及蛋白质2-mer序列特征进行特征拼接得到蛋白质组合特征,并基于蛋白质组合特征计算一级蛋白质融合特征包括以下步骤:
32、s311、对蛋白质序列特征及蛋白质2-mer序列特征进行特征拼接,得到蛋白质组合特征;
33、s312、对蛋白质组合特征进行线性变换得到蛋白质查询矩阵、蛋白质键矩阵及蛋白质值矩阵;
34、s313、基于蛋白质查询矩阵及蛋白质键矩阵,计算得到蛋白质注意力矩阵;
35、s314、将蛋白质注意力矩阵与蛋白质值矩阵相乘得到一级蛋白质融合特征。
36、优选地,将药物smiles特征及药物分子图特征进行特征拼接得到药物组合特征,并基于药物组合特征计算一级药物融合特征包括以下步骤:
37、s321、对药物smiles特征及药物分子图特征进行特征拼接,得到药物组合特征;
38、s322、对药物组合特征进行线性变换得到药物查询矩阵、药物键矩阵及药物值矩阵;
39、s323、基于药物查询矩阵及药物键矩阵,计算得到药物注意力矩阵;
40、s324、将药物注意力矩阵及药物值矩阵相乘得到一级药物融合特征。
41、优选地,一级药物融合特征的计算公式为:
42、
43、式中,表示一级药物融合特征;qsmiles、ksmiles和vsmiles分别表示药物smiles查询矩阵、药物smiles键矩阵和药物smiles值矩阵;qgraph、kgraph和vgraph分别表示药物分子图查询矩阵、药物分子图键矩阵和药物分子图值矩阵;adrug表示药物注意力矩阵;vdrug表示药物值矩阵。
44、优选地,将一级药物融合特征及一级蛋白质融合特征进行特征拼接得到药物靶点对特征,并基于药物靶点对特征计算最终融合特征包括以下步骤:
45、s331、将一级药物融合特征及一级蛋白质融合特征进行特征拼接,得到药物靶点对特征;
46、s332、对药物靶点对特征进行线性变化得到药物靶点对查询矩阵、药物靶点对键矩阵及药物靶点对值矩阵;
47、s333、基于药物靶点对查询矩阵及药物靶点对键矩阵,计算得到药物靶点对注意力矩阵;
48、s324、将药物靶点对注意力矩阵与药物靶点对值矩阵相乘得到最终融合特征。
49、优选地,基于多模态特征融合结果得到药物靶点对特征向量,并将药物靶点对特征向量作为分类器的输入进行dti预测包括以下步骤:
50、s41、将全连接层结合relu激活函数及正则化层构建分类器;
51、s42、将最终的模态特征进行特征拼接,得到药物靶点对特征向量,并将药物靶点对特征向量加载至分类器中进行dti预测。
52、本发明的有益效果为:
53、1、本发明提供的基于等级多模态自注意力图神经网络的dti预测方法,采用药物smiles,药物分子图,蛋白质序列和蛋白质2-mer序列作为hmsa-dti的输入,并通过等级多模态注意力机制捕获模态间和模态内的交互,实现药物多模态特征和蛋白质多模态特征的深度融合,同时在三个基准数据集drugbank,human和c.elegans上采用10折交叉验证方式进行评估,并与其它先进的dti预测模型进行比较,进而验证hmsa-dti预测模型在多个指标上具有显著优势及较强的竞争力。
54、2、本发明提供的基于等级多模态自注意力图神经网络的dti预测方法,综合了smiles、药物分子图、蛋白质序列和2-mer序列等多模态数据以帮助模型更好地理解和刻画药物和蛋白质的特征和相互作用关系,并采用d-mpnn的节点级特征代替图级特征,并能够同时对模态内和模态间的交互进行建模,以提高融合特征的可区分性和鲁棒性。
本文地址:https://www.jishuxx.com/zhuanli/20240614/88118.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
上一篇
一种术后恢复用导尿装置
下一篇
返回列表