多模态特征融合方法和装置、计算机设备与流程
- 国知局
- 2024-07-12 10:40:44
本技术涉及深度学习,尤其涉及一种多模态特征融合方法和装置、计算机设备。
背景技术:
1、序列数据和图结构数据广泛存在于各个领域,包括生物信息、社交网络分析、推荐系统等,然而传统数据表征往往只侧重于序列数据或者图结构数据,无法全面捕捉数据的复杂关系。例如,在蛋白质工程、药物设计等领域,蛋白质数据一般以序列数据或者图结构数据表征,而常见的深度学习算法通常将单一模态的数据用于学习特征表征,导致数据特征表征不全面。因此,如何提高数据特征的全面性和丰富性,成为了亟待解决的技术问题。
技术实现思路
1、本技术实施例的主要目的在于提出一种多模态特征融合方法和装置、计算机设备及存储介质,旨在提高数据特征的全面性和丰富性。
2、为实现上述目的,本技术实施例的第一方面提出了一种多模态特征融合方法,所述方法包括:
3、获取多个蛋白质样本数据集;其中,所述蛋白质样本数据集包括样本蛋白质序列数据和样本蛋白质图结构数据;
4、根据所述样本蛋白质序列数据和所述样本蛋白质图结构数据训练预设的特征融合模型;
5、获取目标蛋白质序列数据和目标蛋白质图结构数据;
6、通过训练后的所述特征融合模型对所述目标蛋白质序列数据和所述目标蛋白质图结构数据进行特征融合处理,得到目标融合特征;
7、对所述目标融合特征进行可视化处理,得到融合特征分布视图。
8、在一些实施例,所述根据所述样本蛋白质序列数据和所述样本蛋白质图结构数据训练预设的原始特征融合模型,得到目标特征融合模型,包括:
9、对所述样本蛋白质序列数据进行掩码处理,得到掩码蛋白质序列数据;
10、获取所述样本蛋白质序列数据的样本信息,得到第一样本信息;
11、获取所述样本蛋白质图结构数据的样本信息,得到第二样本信息;
12、根据所述掩码蛋白质序列数据、所述样本蛋白质序列数据和所述样本蛋白质图结构数据对所述特征融合模型进行参数调整;
13、根据所述第一样本信息、所述第二样本信息、所述样本蛋白质序列数据和所述样本蛋白质图结构数据对所述特征融合模型进行参数调整。
14、在一些实施例,所述特征融合模型包括:原始特征提取模块和原始特征融合模块,所述根据所述掩码蛋白质序列数据、所述样本蛋白质序列数据和所述样本蛋白质图结构数据对所述特征融合模型进行参数调整,包括:
15、通过所述特征提取模块对所述掩码蛋白质序列数据进行特征提取,得到掩码蛋白质序列特征;
16、通过所述特征融合模块对所述掩码蛋白质序列特征和所述样本蛋白质图结构特征进行特征融合,得到掩码蛋白质融合特征;
17、对所述掩码蛋白质融合特征进行重建处理,得到重建蛋白质序列数据;
18、根据所述重建蛋白质序列数据和所述样本蛋白质序列数据对所述特征融合模型进行参数调整。
19、在一些实施例,所述根据所述第一样本信息、所述第二样本信息、所述样本蛋白质序列数据和所述样本蛋白质图结构数据对所述特征融合模型进行参数调整,包括:
20、通过所述特征提取模块对所述样本蛋白质序列数据进行特征提取,得到样本蛋白质序列特征;
21、通过所述特征提取模块对所述样本蛋白质图结构数据进行特征提取,得到样本蛋白质图结构特征;
22、根据所述第一样本信息、第二样本信息、所述样本蛋白质序列特征和所述样本蛋白质图结构特征对所述特征提取模块进行参数调整;
23、根据参数调整后的所述特征提取模块更新所述特征融合模型。
24、在一些实施例,所述根据所述第一样本信息、所述第二样本信息、所述样本蛋白质序列特征和所述样本蛋白质图结构特征对所述特征提取模块进行参数调整,包括:
25、对所述样本蛋白质序列特征和所述样本蛋白质图结构特征进行特征相似性度量,得到特征相似度量数据;
26、根据所述第一样本信息、所述第二样本信息和所述特征相似度量数据对所述特征提取模块进行参数调整。
27、在一些实施例,所述获取多个蛋白质样本数据集,包括:
28、获取原始蛋白质序列数据和原始蛋白质结构数据;
29、对所述原始蛋白质序列数据和所述原始蛋白质结构数据进行对齐处理,得到蛋白质对齐数据对;其中,所述蛋白质对齐数据对包括:蛋白质对齐序列数据和蛋白质对齐结构数据;
30、从所述蛋白质对齐序列数据和蛋白质对齐结构数据中提取出蛋白质残基序列;
31、根据所述蛋白质残基序列对所述蛋白质对齐序列数据进行编码处理,得到样本蛋白质序列数据;
32、从所述蛋白质对齐结构数据进行图结构转换,得到样本蛋白质图结构数据;
33、将所述样本蛋白质序列数据和所述样本蛋白质图结构数据拼接成所述蛋白质样本数据集。
34、在一些实施例,所述根据所述蛋白质残基序列对所述蛋白质对齐序列数据进行编码处理,得到样本蛋白质序列数据,包括:
35、根据所述蛋白质残基序列对所述述蛋白质对齐序列数据进行过滤处理,得到候选蛋白质序列数据;
36、根据预设的编码操作对所述候选蛋白质序列数据进行编码处理,得到所述样本蛋白质序列数据。
37、在一些实施例,所述编码操作包括以下任意一种:整数编码操作、独热编码操作和词嵌入操作;所述根据预设的编码操作对所述候选蛋白质序列数据进行编码处理,得到所述样本蛋白质序列数据,包括以下任意一种:
38、根据预设的氨基酸标识序列对所述候选蛋白质序列数据执行整数编码操作,得到所述样本蛋白质序列数据;
39、获取所述候选蛋白质序列数据中的氨基酸类别,根据所述氨基酸类别对所述候选蛋白质序列数据执行所述独热编码操作,得到所述样本蛋白质序列数据;
40、根据预设的蛋白质语言模型对所述候选蛋白质序列数据执行词嵌入操作,得到所述样本蛋白质序列数据。
41、为实现上述目的,本技术实施例的第二方面提出了一种多模态特征融合装置,所述装置包括:
42、样本获取模块,用于获取多个蛋白质样本数据集;其中,所述蛋白质样本数据集包括样本蛋白质序列数据和样本蛋白质图结构数据;
43、训练模块,用于根据所述样本蛋白质序列数据和所述样本蛋白质图结构数据训练预设的特征融合模型;
44、目标获取模块,用于获取目标蛋白质序列数据和目标蛋白质图结构数据;
45、融合模块,用于通过训练后的所述特征融合模型对所述目标蛋白质序列数据和目标蛋白质结构数据进行特征融合处理,得到目标融合特征;
46、可视化模块,用于对所述目标融合特征进行可视化处理,得到融合特征分布视图。
47、为实现上述目的,本技术实施例的第三方面提出了一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的方法。
48、本技术提出的多模态特征融合方法和装置、计算机设备,其通过获取样本蛋白质序列数据和样本蛋白质图结构数据,并根据样本蛋白质序列数据和样本蛋白质图结构数据训练特征融合模型,然后将训练后的特征融合模型对目标蛋白质序列数据和目标蛋白质图结构数据做特征融合处理得到目标融合特征,再将目标融合特征可视化成融合特征分布图。因此,将序列数据和图结构数据结合起来,进行机器学习特征的提取,将更加全面地捕捉数据的丰富信息,得到不同模态组合成的数据特征,进而使下游做数据分析和推荐更加准确。
本文地址:https://www.jishuxx.com/zhuanli/20240614/88476.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。