基于机器学习的复配酶活预测方法及系统
- 国知局
- 2024-07-12 10:18:03
本发明属于人工智能与酶工程领域,特别涉及一种基于机器学习的复配酶活预测方法、系统、终端设备及计算机可读存储介质。
背景技术:
1、生物酶是现代生物技术的“芯片”,具有催化效率高、反应条件温和、专一性强等特点,广泛应用于轻工、医药、食品、环境、饲料、能源等领域,每年创造的工业附加值达数千亿元。生物制造可以降低工业过程的能耗、物耗,减少废物排放,大幅度降低生产成本,提升产业竞争力。可从根本上改变化工、医药、能源、轻工等传统制造业高度依赖化石原料和“高污染、高排放”的不可持续加工模式,减少工业经济对生态环境的影响,推动物质财富的绿色增长和经济社会可持续发展。虽然生物酶的应用有许多潜在优势,但也面临一些挑战和困难,例如酶制剂的高成本的生产和纯化过程,在储存和运输中的安全性等。其中限制生物酶的广泛应用的主要因素是生物酶在特定环境条件下酶活性的不稳定性。
2、生物酶在应用过程中会受到温度、ph值和化学物质等的影响,使酶难以在不同工艺条件下发挥最大的催化活性;其次不同酶种类之间可能会产生抑制作用,甚至会造成某种酶失去活性。因此,探究多酶协同与作用环境的相互作用机理对于提高酶的稳定性,降低成本,促进生物酶的进一步应用具有重要意义。
3、由于多种因素均不同程度影响酶活,使用传统的实验方法对其分析既费力又费时,因此迫切需要一种有效的方法来分析生物酶的作用机制。随着人工智能的发展,数据驱动的模型构建可以通过训练来确定输入和输出变量之间的关系,从而实现预测的目的。然而,这一过程中可能会遇到一些问题和挑战,比如选择哪些输入变量(特征)用于预测生物酶活性,以及如何避免模型过拟合或欠拟合以确保模型的精度和泛化力。
技术实现思路
1、针对目前造纸酶种类多、影响因素多,以及酶活难预测和难表观的问题,本发明提供了一种基于机器学习的复配酶活预测方法、系统、终端设备及计算机可读存储介质,通过机器学习构建单酶代理模型,利用较少的实验数据构建大量样本的多酶数据集;利用对应的机器学习模型预测复配酶活,根据复配酶应用条件和对应的酶活,利用遗传算法进行寻优,得到最佳的复配酶应用条件及相应评分。本发明具有检测成本低、效率高的优点,并为生物酶的深度应用提供理论依据。
2、本发明的第一个目的在于提供一种基于机器学习的复配酶活预测方法。
3、本发明的第二个目的在于提供一种基于机器学习的复配酶活预测系统。
4、本发明的第三个目的在于提供一种计算机设备。
5、本发明的第四个目的在于提供一种计算机可读存储介质。
6、本发明的第一个目的可以通过采取如下技术方案达到:
7、一种基于机器学习的复配酶活预测方法,所述方法包括:
8、获取不同种类的单酶数据集;所述单酶数据集中的样本包括酶种类、反应条件及对应的酶活;
9、对单酶数据集进行处理,利用处理后单酶数据集对多种回归算法分别对应的机器学习模型进行训练和评估,得到单酶代理模型;
10、根据单酶代理模型扩充单一酶的数据集,根据扩充的单一酶的数据集构建多酶数据集;
11、利用处理后多酶数据集对多种回归算法分别对应的机器学习模型进行训练和评估,得到多酶代理模型;
12、根据待预测复配酶的反应条件,利用多酶代理模型预测复配酶的酶活;根据复配酶的反应条件和酶活,采用遗传算法获取复配酶的最佳反应条件以及相应的评分。
13、进一步的,所述根据单酶代理模型扩充单一酶的数据集,根据扩充的单一酶的数据集构建多酶数据集,包括:
14、将单一酶的反应条件输入单酶代理模型,输出单一酶的酶活;将酶活和反应条件构成的样本加入对应酶的数据集,得到扩充的单酶数据集;
15、不同种类酶的扩充的单酶数据集中的样本通过特征组合的方式进行叠加,叠加后的样本构成多酶数据集。
16、进一步的,所述利用处理后单酶数据集对多种回归算法分别对应的机器学习模型进行训练和评估,得到单酶代理模型,包括:
17、将处理后单酶数据集分为训练集和测试集,并将训练集随机分成多份子集;
18、每一次训练挑选其中一份子集作为测试子集,其余作为新的训练子集用于机器学习模型的训练;这样每个子集都有一次机会作为测试子集;
19、利用训练子集对机器学习模型进行训练后得到优化的模型,用优化的模型在相应的测试集上进行测试,并计算模型的评估指标;
20、将计算的多组评估指标的平均值作为模型精度的估计,并作为当前10折交叉验证下模型的最终结果;
21、遍历人为规定模型参数范围中的所有候选参数,选取模型精度最高对应的参数;
22、基于选取的参数,根据优化的模型的评估指标确定单酶代理模型。
23、进一步的,所述利用处理后多酶数据集对多种回归算法分别对应的机器学习模型进行训练和评估,得到多酶代理模型,包括:
24、利用处理后多酶数据集对多种回归算法分别对应的机器学习模型进行训练,并使用10折交叉验证结合网格搜索的方法对机器学习模型参数进行调优,根据调优后的模型的评估指标确定多酶代理模型。
25、进一步的,评估指标为r2得分高,且mse和rmse得分低。
26、进一步的,多种回归算法包括岭回归、支持向量机回归、极度梯度提升、贝叶斯回归、径向基函数神经网络、高斯回归和随机森林。
27、进一步的,所述反应条件包括但不限于作用ph、作用温度、停留时间、助剂种类以及浓度。
28、进一步的,所述处理,包括:
29、对数据集中的酶种类和助剂种类进行编码转换,以及对数据集中的酶活进行数据归一化处理;其中,所述数据集为单酶数据集或多酶数据集。
30、本发明的第二个目的可以通过采取如下技术方案达到:
31、一种基于机器学习的复配酶活预测系统,所述系统包括:
32、获取模块,用于获取不同种类的单酶数据集;所述单酶数据集中的样本包括酶种类、反应条件及对应的酶活;
33、第一训练模块,用于对单酶数据集进行处理,利用处理后单酶数据集对多种回归算法分别对应的机器学习模型进行训练和评估,得到单酶代理模型;
34、构建模块,用于根据单酶代理模型扩充单一酶的数据集,根据扩充的单一酶的数据集构建多酶数据集;
35、第二训练模块,用于利用处理后多酶数据集对对多种回归算法分别对应的机器学习模型进行训练和评估,得到多酶代理模型;
36、预测及选取模块,用于根据待预测复配酶的反应条件,利用多酶代理模型预测复配酶的酶活;根据复配酶的反应条件和酶活,采用遗传算法获取复配酶的最佳反应条件以及相应的评分。
37、本发明的第三个目的可以通过采取如下技术方案达到:
38、一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现上述的基于机器学习的复配酶活预测方法。
39、本发明的第四个目的可以通过采取如下技术方案达到:
40、一种计算机可读存储介质,存储有程序,所述程序被处理器执行时,实现上述的基于机器学习的复配酶活预测方法。
41、本发明相对于现有技术具有如下的有益效果:
42、1、本发明预测复配酶活的操作简单、耗时短,大大降低了实验时间和成本,有助于进一步探索多酶作用与作用环境间的互作机理,促进了酶在轻工等行业的应用;
43、2、本发明通过叠加特征的方式,实现双酶活性甚至多酶活性的数据预测,从而进一步扩大了机器学习在多酶复配制剂的应用;
44、3、本发明采用遗传算法,尤其是对不同应用条件赋分的情况,能够高效推荐不同复配酶的最佳应用条件,为复配酶在不同工序中的应用提供有效指导,具有成本低、效率高、结果精准等优点;
45、4、本发明将机器学习模型和遗传算法相结合,利用机器学习模型对多种酶活进行预测,然后利用遗传算法良好的全局寻优性,可直接输出不同复配酶的推荐应用条件,并给出不同条件下的相应打分。与现有实验技术相比,显著的减少实验次数,极大地提高实验的准确性和可靠性,提供个性化多样化的复配方案,满足特定场景下的需求,并且能发现传统方法难以识别的新型酶组合方式,这些组合可能具有更高的效率或更适合特定应用。
本文地址:https://www.jishuxx.com/zhuanli/20240615/86076.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表