一种基于基团贡献法和图形识别的离子液体物性预测方法
- 国知局
- 2024-07-12 10:31:06
本发明涉及离子液体物性预测,尤其涉及一种基于基团贡献法和图形识别对离子液体进行基团识别拆分并结合机器学习方法进行离子液体物性预测的方法。
背景技术:
1、离子液体(ils)作为一种由阳离子(大多数为有机)和阴离子(有机或无机)构成的有机盐类物质,其熔点一般低于100摄氏度,因此在室温下常呈现液体状态。由于其特殊的理化特性,离子液体具有极好的化学稳定性和热力学稳定性,其可忽略的蒸汽压、低反应活度、难燃等特性使其成为工业界的理想溶剂,在分离工程、能源存储、催化剂、电化学和润滑等领域极具应用发展潜力。
2、离子液体独特的理化特性很大程度上由其阴、阳离子的结构和相互作用力所决定,通过不同的阴、阳离子组合,离子液体的种类可能高达1018种。理论上针对给定的任一化学或化工过程,都可能存在特定的一种或多种离子液体与其高度匹配。但目前离子液体应用的困难在于理化性质数据的缺乏,短时间内通过实验手段合成海量种类的离子液体并全面测量其理化性质是一件费时、耗力且代价昂贵的工作。
3、针对以上存在问题,潜在的解决方法是通过理论手段对离子液体的物性进行预测,以便可以快速、高效、低成本地为实验合成具体特定功能的离子液体提供方向性指导。定量结构-性质关系(qspr)作为一种使用结构特征描述符来对物质的理化性质进行建模预测的方法广泛应用于科研及工程领域。基团贡献法(gcm)作为qspr的一种特例,通过赋值给选定的基础基团对整体的贡献值而后进行加和预测物质物性的方法,其具有计算量小、应用灵活等优点。
4、机器学习(ml)通过构建算法和序列引导计算机完成特定的任务,可以完成对于大量数据的排序和分析。机器学习使计算机能够按照指定的目标进行自动逐步的学习,使其能够执行用户无法手动完成的复杂任务。作为一种强有力的数据分析处理方法,机器学习广泛应用于各类科学研究及工业生产。在离子液体物性预测领域,通过使用选定基础基团,然后收集相应的离子液体物性数据构建数据集,借助ml对数据建模分析并给基础基团分配贡献值,最后完成离子液体物性预测模型的建立。
5、目前现有技术对离子液体物性预测主要存在以下几方面的缺点:(1)尚未存在一套具有高普适性的基础基团接受物性贡献值分配以用于离子液体物性预测;(2)现有技术无法满足对于离子液体结构式按照给定的基础基团进行快速拆分并统计其含有的基础基团的种类和数目;(3)物性实验数据收集量较小的数据集包含较少离子液体种类的物性,因此难以真正展现各基础基团与待预测物性的内在关系。
技术实现思路
1、本发明的目的在于解决现有技术中的上述问题,提供一种基于基团贡献法和图形识别的离子液体物性预测方法。本发明提供了一套基于基团贡献法选定的具有高普适性的阴、阳离子基础基团用以接受贡献值分配,并提供了一种图形识别算法以便能够对离子液体结构式进行快速识别拆分以统计出所包含的前述中选定的基础基团种类和数目,利用收集离子液体的物性数据集匹配前述的基础基团种类和数目,使用机器学习算法建立离子液体熔点物性的预测模型。
2、为达到上述目的,本发明采用如下技术方案:
3、1)收集离子液体的结构式图片数据及物性实验数据;
4、2)基于基团贡献法选出一套具有高普适性的离子液体基础基团作为图形识别归纳目标源,其包含多种阳离子基础基团和多种阴离子基础基团;
5、3)使用图形识别算法基于离子液体结构式图片数据集进行训练以获取对阴、阳离子识别拆分的能力,并进一步获得识别拆分各类阴、阳离子以统计其包含的基础基团种类及数目的能力;
6、4)使用物性实验数据集匹配阴、阳离子的基础基团种类及数目构建目标数据集,使用机器学习算法建立离子液体物性模型并测试。
7、优选地,步骤1)中:所述离子液体的结构式图片是指离子液体键线式图片,每张图片通过键线式清晰展示构成离子液体的阴离子和阳离子的结构及所带电荷;所述的离子液体结构式图片数据来源于离子液体数据库ilthermo v2.0。
8、优选地,步骤2)具体为:通过对步骤1)所收集到的5000余种离子液体结构式图片进行归纳分析,从中选择50余种阳离子基础基团和50余种阴离子基础基团,阳离子基础基团包含了咪唑类、吡唑类、三唑类、吡咯烷类、吡啶类、金属离子等;而阴离子基础基团则涵盖了卤素阴离子、硼基阴离子、咪唑阴离子、磷酸类阴离子等。
9、优选地,步骤3)所使用的离子液体结构式图片数据集按照阴、阳离子进行数据标注并划分为训练集和测试集,在训练集上使用图形识别算法进行训练,并在测试集上完成训练模型的测试。训练目的为:获取对离子液体结构图中阴、阳离子识别拆分的能力。
10、优选地,步骤3)中构建的阴、阳离子结构式图片数据集先采用化学结构编辑软件构建阴、阳离子立体结构式,而后对构建的离子结构采用相应格式进行保存转换。
11、优选地,对步骤3)所使用的离子液体阴、阳离子结构式图片数据集按照选定的基础基团进行数据标注并划分为训练集和测试集,在训练集上使用图形识别算法进行训练,并在测试集上完成训练模型的测试。训练目的为:获得识别拆分各类阴、阳离子以统计其包含的基础基团种类及数目的能力。
12、优选地,步骤4)中模型训练为:将离子液体所含基础基团种类和数目信息与待预测的物性实验值一一匹配获得数据集,将数据集划分为训练集和测试集;将训练集的离子液体数据导入到机器学习模型中对其训练并构建预测模型;机器学习模型算法包含但不限于:最小二乘回归、huber回归、随机森林、xgboost和ann回归等模型算法。
13、优选地,步骤4)中还包括对于模型的测试,根据决定系数、均方误差、平均绝对误差等评估参数,对随机森林、xgboost、ann回归等预测模型的超参数空间进行优化,使决定系数的数值尽可能接近于1,同时均方误差、平均绝对误差的数值尽可能接近于0。
14、相对于现有技术,本发明技术方案取得的有益效果是:
15、1、本发明是一种快速、高效、低成本的离子液体物性预测方法,直接将离子液体结构式分解为基础基团,而无须针对离子液体进行高通量的量化计算;
16、2、本发明通过使用图形识别算法可实现对于给定的离子液体结构式到基础基团的快速拆分,大大降低了人力成本;
17、3、本发明基于机器学习算法创建预测模型可以很好地挖掘发现基础基团和待预测物性之间的内在关系,能够建立起具有更高精确度的预测模型;
18、4、通过上述三点整合,本发明事实上已经形成了一套可以用于预测离子液体各类物性的方法,只需要对离子液体待预测物性进行数据收集、清洗,即可快速、高效、低成本地构建预测模型,实现对于期望合成的功能性离子液体提供方向性指导。
技术特征:1.一种基于基团贡献法和图形识别的离子液体物性预测方法,其特征在于包括以下步骤:
2.如权利要求1所述的一种基于基团贡献法和图形识别的离子液体物性预测方法,其特征在于:步骤2)选择至少50种阳离子基础基团和至少50种阴离子基团作为基础基团,阳离子基础基团包含咪唑类、吡唑类、三唑类、吡咯烷类、吡啶类、金属离子;阴离子基础基团包含卤素阴离子、硼基阴离子、咪唑阴离子、磷酸类阴离子。
3.如权利要求1所述的一种基于基团贡献法和图形识别的离子液体物性预测方法,其特征在于:步骤3)所使用的离子液体结构式图片数据集按照阴、阳离子进行数据标注并划分为训练集和测试集,在训练集上使用图形识别算法进行训练,并在测试集上完成训练模型的测试;训练目的为获取对离子液体结构图中阴、阳离子识别拆分的能力。
4.如权利要求1所述的一种基于基团贡献法和图形识别的离子液体物性预测方法,其特征在于:对步骤3)所使用的离子液体的阴、阳离子结构式图片数据集按照选定的基础基团进行数据标注并划分为训练集和测试集,在训练集上使用图形识别算法进行训练,并在测试集上完成训练模型的测试;训练目的为获得识别拆分各类阴、阳离子以统计其包含的基础基团种类及数目的能力。
技术总结一种基于基团贡献法和图形识别的离子液体物性预测方法,1)收集离子液体的结构式图片数据及物性实验数据;2)基于基团贡献法选出具有高普适性的离子液体基础基团作为图形识别归纳的目标源;3)使用图形识别算法进行训练以获取阴、阳离子的识别拆分能力,进一步获得识别拆分各类阴、阳离子并统计出其包含的选定的基础基团种类及数目的能力;4)使用离子液体物性实验数据及其对应的阴、阳离子的基础基团种类及数目构建目标数据集,使用机器学习算法对离子液体的物性建立模型并测试。只需要对待预测的离子液体物性进行数据收集、清洗,结合本发明即可快速、高效、低成本地构建预测模型,实现对于期望合成的功能性离子液体提供方向性指导。技术研发人员:李军,陈鹏,王宏涛,王焱良,苏铁柱,彭丽,谭文军,苏玉忠,洪燕珍受保护的技术使用者:厦门大学技术研发日:技术公布日:2024/6/13本文地址:https://www.jishuxx.com/zhuanli/20240614/87435.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。