技术新讯 > 医药医疗技术的改进,医疗器械制造及应用技术 > 化学反应的产率预测方法及装置与流程  >  正文

化学反应的产率预测方法及装置与流程

  • 国知局
  • 2024-12-06 12:30:23

本发明涉及化学,尤其涉及一种化学反应的产率预测方法及装置。

背景技术:

1、针对化学反应的产率优化策略大多依赖于研究人员的经验和知识积累,并依赖于反复的人工试验与错误纠正,这无疑是一个既耗时又耗力的过程。

2、而随着人工智能技术的发展,基于人工智能算法预测产率的方案应运而生,人工智能算法的投入,有效简化了化学反应产率优化的过程,提高了化学反应产率优化效率。

3、然而,目前基于人工智能算法预测化学反应产率的预测精度较低,这限制了人工智能算法在针对化学反应的产率优化上的应用。

技术实现思路

1、本发明提供一种化学反应的产率预测方法及装置,用以解决相关技术中化学反应的产率预测精度低的缺陷。

2、本发明提供一种化学反应的产率预测模型训练方法,包括:

3、从第一数据库中选取化学反应的同类化学反应的底物,所述第一数据库与化学反应应用关联;

4、从各同类化学反应的底物中,选取存在于第二数据库中的底物,作为候选底物,所述第二数据库存储可用于高通量实验的底物的数据;

5、基于所述候选底物,确定样本产物,并基于所述样本产物、以及所述样本产物所对应的样本化学反应的样本底物、样本反应条件组合和实测产率,生成反应样本;

6、基于所述反应样本,训练所述化学反应的产率预测模型。

7、根据本发明提供的一种化学反应的产率预测模型训练方法,所述基于所述候选底物,确定样本产物,包括:

8、基于所述候选底物,确定多个候选产物;

9、从所述多个候选产物中任意选取一个候选产物作为所述样本产物,并将所述样本产物从所述多个候选产物中删除;

10、计算所述多个候选产物中的各候选产物与所有样本产物之间的结构距离的最小值,将所述最小值最大的候选产物作为所述样本产物,并将所述样本产物从所述多个候选产物中删除,返回计算剩余的所述多个候选产物中各候选产物与所有样本产物之间的结构距离的最小值,直至选取结束,所述结构距离为待选取的候选产物的结构特征与所述样本产物的结构特征之间的距离。

11、根据本发明提供的一种化学反应的产率预测模型训练方法,所述基于所述候选底物,确定样本产物,还包括:

12、基于所有样本产物的结构特征的特征分布信息,与所述同类化学反应的产物的结构特征的特征分布信息,确定所述样本产物相较于所述同类化学反应的产物的空间覆盖度;

13、在所述空间覆盖度大于等于覆盖度阈值的情况下,确定所述选取结束。

14、根据本发明提供的一种化学反应的产率预测模型训练方法,所述基于所述候选底物,确定样本产物,还包括:

15、在所述空间覆盖度小于所述覆盖度阈值的情况下,返回从所述多个候选产物中任意选取一个候选产物作为所述样本产物,或继续选取新的所述样本产物。

16、根据本发明提供的一种化学反应的产率预测模型训练方法,所述基于所有样本产物的结构特征的特征分布信息,与所述同类化学反应的产物的结构特征的特征分布信息,确定所述样本产物相较于所述同类化学反应的产物的空间覆盖度,之前还包括:

17、对所述样本产物的结构特征进行降维,以及对所述同类化学反应的产物的结构特征进行降维,以使降维后的所述样本产物的结构特征与降维后的所述同类化学反应的产物的结构特征映射在同一特征空间中。

18、根据本发明提供的一种化学反应的产率预测模型训练方法,所述实测产率是对所述样本化学反应进行高通量实验得到。

19、根据本发明提供的一种化学反应的产率预测模型训练方法,所述基于所述样本产物、以及所述样本产物所对应的样本化学反应的样本底物、样本反应条件组合和实测产率,生成反应样本,包括:

20、基于所述样本反应条件组合和参与所述样本底物中的样本第一底物,确定所述样本化学反应的样本中间体;

21、基于所述样本产物、所述样本底物中的样本第二底物和所述实测产率,生成所述反应样本,所述样本第二底物是所述样本底物中除所述样本第一底物之外的底物。

22、根据本发明提供的一种化学反应的产率预测模型训练方法,所述基于所述反应样本,训练所述化学反应的产率预测模型,包括:

23、基于多个对应相同的样本反应条件组合的反应样本,训练所述样本反应条件组合对应的所述化学反应的产率预测模型。

24、根据本发明提供的一种化学反应的产率预测模型训练方法,所述基于所述反应样本,训练所述化学反应的产率预测模型,包括:

25、基于多个样本反应条件组合分别对应的反应样本,训练所述化学反应的产率预测模型。

26、本发明还提供一种化学反应的产率预测方法,包括:

27、基于化学反应的反应条件组合和参与所述化学反应的第一底物,确定所述化学反应的中间体;

28、将所述中间体、参与所述化学反应的第二底物,以及所述化学反应的产物输入至产率预测模型,得到所述产率预测模型输出的所述化学反应的预测产率,所述第二底物是除所述第一底物之外的、参与所述化学反应的底物;

29、所述产率预测模型是基于多个反应样本训练得到,所述反应样本包括参与样本化学反应的样本第二底物,以及所述样本化学反应的样本中间体、样本产物和实测产率。

30、根据本发明提供的一种化学反应的产率预测方法,所述将所述中间体、参与所述化学反应的第二底物,以及所述化学反应的产物输入至产率预测模型,得到所述产率预测模型输出的所述化学反应的预测产率,包括:

31、将所述中间体、参与所述化学反应的第二底物,以及所述化学反应的产物输入至所述反应条件组合对应的产率预测模型,得到所述反应条件组合对应的产率预测模型输出的所述化学反应的预测产率;

32、所述多个反应样本对应的反应条件组合与所述化学反应的反应条件组合一致。

33、根据本发明提供的一种化学反应的产率预测方法,所述多个反应样本对应多类反应条件组合,且所述化学反应的反应条件组合属于所述多类反应条件组合中的一类。

34、根据本发明提供的一种化学反应的产率预测方法,所述将所述中间体、参与所述化学反应的第二底物,以及所述化学反应的产物输入至产率预测模型,得到所述产率预测模型输出的所述化学反应的预测产率,包括:

35、在所述产率预测模型为浅层机器学习模型的情况下,将所述中间体的向量表示、所述第二底物的向量表示以及所述产物的向量表示输入至所述产率预测模型,得到所述产率预测模型输出的所述化学反应的预测产率。

36、根据本发明提供的一种化学反应的产率预测方法,所述将所述中间体、参与所述化学反应的第二底物,以及所述化学反应的产物输入至产率预测模型,得到所述产率预测模型输出的所述化学反应的预测产率,包括:

37、在所述产率预测模型为深度机器学习模型的情况下,将反应式以线性分子结构字符串的形式输入至产率预测模型,得到所述产率预测模型输出的所述化学反应的预测产率;

38、所述反应式包括所述中间体、所述第二底物和所述产物。

39、根据本发明提供的一种化学反应的产率预测方法,所述样本产物的获取包括:

40、从第一数据库中选取所述化学反应的同类化学反应的底物,所述第一数据库与化学反应应用关联;

41、从各同类化学反应的底物中,选取存在于第二数据库中的底物,作为候选底物,所述第二数据库存储可用于高通量实验的底物的数据;

42、基于所述候选底物,确定所述样本产物。

43、根据本发明提供的一种化学反应的产率预测方法,所述基于所述候选底物,确定所述样本产物,包括:

44、基于所述候选底物,确定多个候选产物;

45、从所述多个候选产物中任意选取一个候选产物作为所述样本产物,并将所述样本产物从所述多个候选产物中删除;

46、计算所述多个候选产物中的各候选产物与所有样本产物之间的结构距离的最小值,将所述最小值最大的候选产物作为所述样本产物,并将所述样本产物从所述多个候选产物中删除,返回计算剩余的所述多个候选产物中各候选产物与所有样本产物之间的结构距离的最小值,直至选取结束,所述结构距离为待选取的候选产物的结构特征与所述样本产物的结构特征之间的距离。

47、根据本发明提供的一种化学反应的产率预测方法,所述基于所述候选底物,确定所述样本产物,还包括:

48、基于所有样本产物的结构特征的特征分布信息,与所述同类化学反应的产物的结构特征的特征分布信息,确定所述样本产物相较于所述同类化学反应的产物的空间覆盖度;

49、在所述空间覆盖度大于等于覆盖度阈值的情况下,确定所述选取结束。

50、根据本发明提供的一种化学反应的产率预测方法,所述基于所述候选底物,确定所述样本产物,还包括:

51、在所述空间覆盖度小于所述覆盖度阈值的情况下,返回从所述多个候选产物中任意选取一个候选产物作为所述样本产物,或继续选取新的所述样本产物。

52、根据本发明提供的一种化学反应的产率预测方法,所述基于所有样本产物的结构特征的特征分布信息,与所述同类化学反应的产物的结构特征的特征分布信息,确定所述样本产物相较于所述同类化学反应的产物的空间覆盖度,之前还包括:

53、对所述样本产物的结构特征进行降维,以及对所述同类化学反应的产物的结构特征进行降维,以使降维后的所述样本产物的结构特征与降维后的所述同类化学反应的产物的结构特征映射在同一特征空间中。

54、根据本发明提供的一种化学反应的产率预测方法,所述实测产率是对所述样本化学反应进行高通量实验得到的。

55、本发明还提供一种化学反应的产率预测模型训练装置,包括:

56、第一选取单元,用于从第一数据库中选取化学反应的同类化学反应的底物,所述第一数据库与化学反应应用关联;

57、第二选取单元,用于从各同类化学反应的底物中,选取存在于第二数据库中的底物,作为候选底物,所述第二数据库存储可用于高通量实验的底物的数据;

58、样本生成单元,用于基于所述候选底物,确定样本产物,并基于所述样本产物、以及所述样本产物所对应的样本化学反应的样本底物、样本反应条件组合和实测产率,生成反应样本;

59、模型训练单元,用于基于所述反应样本,训练所述化学反应的产率预测模型。

60、本发明还提供一种化学反应的产率预测装置,包括:

61、中间体确定单元,用于基于化学反应的反应条件组合和参与所述化学反应的第一底物,确定所述化学反应的中间体;

62、产率预测单元,用于将所述中间体、参与所述化学反应的第二底物,以及所述化学反应的产物输入至产率预测模型,得到所述产率预测模型输出的所述化学反应的预测产率,所述第二底物是除所述第一底物之外的、参与所述化学反应的底物;

63、所述产率预测模型是基于多个反应样本训练得到,所述反应样本包括参与样本化学反应的样本第二底物,以及所述样本化学反应的样本中间体、样本产物和实测产率。

64、本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述化学反应的产率预测模型训练方法或者化学反应的产率预测方法。

65、本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述化学反应的产率预测模型训练方法或者化学反应的产率预测方法。

66、本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述化学反应的产率预测模型训练方法或者化学反应的产率预测方法。

67、本发明提供的化学反应的产率预测方法及装置,应用中间体替换第一底物和反应条件组合作为产率预测模型的输入,使得产率预测模型能够学习到化学反应过程中间的知识,并且由于无需输入种类繁多且复杂的反应条件组合,产率预测模型的复杂度大减,针对化学反应的产率预测精度得以提升。

68、另外,结合与化学反应应用关联的第一数据库、以及存储可用于高通量实验的底物的数据的第二数据库,筛选并存于第一数据库和第二数据库的候选底物,由此使得筛选所得的候选底物既满足应用价值、也具备易获取、便于进行高通量实验的特性,基于此确定样本产物以进行高通量实验,即可得到分布均匀、全面的反应样本,由此保证产率预测模型的泛化能力,进而提高产率预测模型的预测精度。

本文地址:https://www.jishuxx.com/zhuanli/20241204/341791.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。