一种基于机器学习的化合物迁移性筛查方法
- 国知局
- 2024-11-06 14:42:48
本发明涉及化合物性质筛查领域,尤其涉及一种基于机器学习的化合物迁移性筛查方法。
背景技术:
1、pbt物质(persistent,bioaccumulate and toxic substances),也就是具有“持久性,生物累积性和毒性的物质”,在这方面基石性的工作包括斯德哥尔摩公约,欧盟的reach法规,都意在减少pbt物质的排放以及降低其对生态环境以及人体健康的危害。然而,pbt的管控对于保证饮用水质量作用甚微,这些物质大多极性较低,水溶性较弱,所以容易在水循环过程中被其他环境介质吸附,也容易在水处理过程中被移除。与之相对的,某些持久性,且具有高水溶性,高极性的物质,难被沉积物或活性炭等吸附去除,故可以穿透水处理过程和天然屏障,逐水迁移,最终在地下水和饮用水中累积,影响水源地水质,并通过“饮水”这一暴露途径危害人体健康。因此,筛查环境中化合物的迁移性(mobility)对于保护饮用水安全来说至关重要。随着化合物的生产和使用,每年都有海量的化学物质进入到自然环境中,潜在有害物质的数量飞速增长。然而,其中大多数化合物缺乏实验数据,无法直接对其迁移性进行评估。此外,实验测定化学品的环境迁移性具有效率低、成本高、耗时长等问题,面对当前海量的化学品,实验测定无法实现高通量筛查。
2、公开号为cn202311429894.1的中国专利文献公开了一种基于强化图神经网络预测化合物pbt/pmt属性的方法,该方法以大量化合物所构成的数据集为基础,采用强化后的图神经网络算法为建模方式,建立了预测模型。然而,该预测模型在迁移性筛查标准中采用“一刀切”的方法,未考虑离子型化合物和中性化合物的差异。
技术实现思路
1、针对上述问题,本发明提出一种基于机器学习的化合物迁移性筛查方法,在标签标注过程中考虑中性化合物和离子型化合物的区别,此外在结合机器学习算法和数据平衡算法,实现化合物迁移性的高精度预测。
2、为解决上述技术问题,本发明的技术方案如下:
3、一种基于机器学习的化合物迁移性筛查方法,包括以下步骤:
4、从公共领域获取化合物的数据,根据迁移性划分条件为化合物打上标签,构建数据库;
5、计算所述数据库中全部化合物的分子描述符;
6、将所述数据集随机划分为训练集和测试集;
7、采用多种机器学习算法与数据不平衡算法两两组合,形成不同的算法组合,将所述训练集进行交叉验证划分,划分为第一训练子集和第一验证子集,在所述第一训练子集上对不同的所述算法组合进行训练,并在所述第一验证子集上进行测试,选择最优的算法组合作为最终算法骨架;
8、基于解释机器学习模型在所述训练集上对所述分子描述符的重要性进行排序,按照预设规则选择所述分子描述符组成不同的描述符数据集,采用所述最终算法骨架对所述描述符数据集进行测试,得到最优特征组合;
9、基于所述最终算法骨架和所述最优特征组合进行超参数调优,得到最优超参数;
10、在所述训练集中使用所述最优特征组合,根据所述最终算法骨架和最优超参数构建和训练预测模型,根据所述预测模型预测化合物是否具有迁移性。
11、在一些实施方式中,所述超参数的调节过程包括:采用网格搜索和交叉验证法在所述训练集上对超参数进行调节,其中,所述超参数为所述数据不平衡算法中的基分类器的个数,所述训练集划分为第二训练子集和第二验证子集,以平衡准确率为目标通过调节所述第二验证子集,获取所述最优超参数。
12、在一些实施方式中,还包括模型评价标准:采用平衡准确率和几何平均评估所述数据不平衡算法的预测效果。
13、在一些实施方式中,还包括模型应用域计算:
14、以所述训练集中所有化合物的分子描述符的平均值作为质心,计算所述训练集中单个化合物与所述质心之间的欧几里得距离,并以最长的欧几里得距离作为所述预测模型的应用域的阈值,当目标化合物与质心之间的欧几里得距离小于所述阈值时,认为目标化合物在所述预测模型的应用域之内。
15、在一些实施方式中,目标化合物与质心之间欧氏距离的计算方法为:
16、
17、式中,di代表第i个化合物与质心之间的欧氏距离,xk,i代表第i个化合物的第k个分子描述符,xk,centroid代表质心的第k个分子描述符。
18、在一些实施方式中,所述标签包括迁移性化合物、高迁移性化合物,以及非迁移性化合物。
19、在一些实施方式中,所述少数类样本为迁移性化合物、高迁移性化合物和非迁移性化合物中数量最少的样本,所述多数类样本为迁移性化合物、高迁移性化合物和非迁移性化合物中数量最多的样本。
20、在一些实施方式中,所述计算所述数据库中全部化合物的分子描述符的过程中,剔除具有缺失值的分子描述符,以及为常数值的描述符。
21、在一些实施方式中,所述最终算法骨架包括easy ensemble算法和xgboost算法。
22、本发明的有益效果为:考虑中性化合物和离子型化合物迁移性标准的差异,通过筛选不同机器学习算法与数据不平衡算法的最优组合,构建了可以准确预测化合物迁移性的多分类模型,提高分类速度和分类准确度。
技术特征:1.一种基于机器学习的化合物迁移性筛查方法,其特征在于,包括以下步骤:
2.如权利要求1所述的基于机器学习的化合物迁移性筛查方法,其特征在于,所述超参数的调节过程包括:采用网格搜索和交叉验证法在所述训练集上对超参数进行调节,其中,所述超参数为所述数据不平衡算法中的基分类器的个数,所述训练集划分为第二训练子集和第二验证子集,以平衡准确率为目标通过调节所述第二验证子集,获取所述最优超参数。
3.如权利要求1所述的基于机器学习的化合物迁移性筛查方法,其特征在于,还包括模型评价标准:采用平衡准确率和几何平均评估所述数据不平衡算法的预测效果。
4.如权利要求1所述的基于机器学习的化合物迁移性筛查方法,其特征在于,还包括模型应用域计算:
5.如权利要求1所述的基于机器学习的化合物迁移性筛查方法,其特征在于,目标化合物与质心之间欧氏距离的计算方法为:
6.如权利要求1所述的基于机器学习的化合物迁移性筛查方法,其特征在于,所述标签包括迁移性化合物、高迁移性化合物,以及非迁移性化合物。
7.如权利要求6所述的基于机器学习的化合物迁移性筛查方法,其特征在于,所述少数类样本为迁移性化合物、高迁移性化合物和非迁移性化合物中数量最少的样本,所述多数类样本为迁移性化合物、高迁移性化合物和非迁移性化合物中数量最多的样本。
8.如权利要求1所述的基于机器学习的化合物迁移性筛查方法,其特征在于,所述计算所述数据库中全部化合物的分子描述符的过程中,剔除具有缺失值的分子描述符,以及为常数值的描述符。
9.如权利要求1所述的基于机器学习的化合物迁移性筛查方法,其特征在于,所述最终算法骨架包括easy ensemble算法和xgboost算法。
技术总结本发明公开一种基于机器学习的化合物迁移性筛查方法,采用多种机器学习算法与数据不平衡算法两两组合,形成不同的算法组合,将训练集进行交叉验证划分,划分为第一训练子集和第一验证子集,在第一训练子集上对不同的算法组合进行训练,并在第一验证子集上进行测试,选择最优的算法组合作为最终算法骨架。本发明的有益效果是:考虑中性化合物和离子型化合物迁移性标准的差异,通过筛选不同机器学习算法与数据不平衡算法的最优组合,构建了可以准确预测化合物迁移性的多分类模型,提高分类速度和分类准确度。技术研发人员:韩民,金彪,于志强受保护的技术使用者:中国科学院广州地球化学研究所技术研发日:技术公布日:2024/11/4本文地址:https://www.jishuxx.com/zhuanli/20241106/323689.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表