一种基于强化学习的DQN算法预测药物相互作用的方法
- 国知局
- 2024-10-21 14:37:41
本发明涉及药物预测,尤其是一种基于强化学习的dqn算法预测药物相互作用的方法。
背景技术:
1、有效利用药物对人类健康发展至关重要,而采用多药疗法即多种药物联合治疗是常见的治疗方法,药物之间的相互作用对治疗结果至关重要,合理的药物发配可以提高疗效,而不合理的药物搭配可能会导致疗效下降甚至危害健康,药物相互作用分为两种类型:协同作用和拮抗作用,协同作用指两种药物同时使用时的效果大于单一药物使用效果的加和,即两种药物在一起使用会产生更强的治疗效果,相互增强彼此的疗效,拮抗作用指两药同时使用效果小于单一药物使用效果的加和,即两种药物在一起使用会相互抵消或减弱彼此的药效,导致治疗效果变弱或失效,深入了解药物相互作用可提高药物利用效率,采用具有协同作用的药物组合可促进治疗效果。
2、目前,国内对于药物相互作用的研究已经非常普遍,也取得了许多成果,其中周刚等人(基于外部知识的药物相互作用关系抽取方法[j].四川大学学报,2021,58(6):062003.)通过基于外部知识的方法提高预测模型的抽取效果、同时缓解了不同关系类别之间抽取结果差异过大的问题,从而缓解了现在医学数据库中药物相互作用数量较小的问题,同时,国内还有多个课题组分别对药物相互作用进行了预测,采用了不同的预测方法,均得到了比较准确的预测结果,同时也有课题组针对预测结果提出了药物相互作用的机制,这些成果对我国的药物研发具有重要意义,在国际上,carlos f.lopez等人采用了musyc构架的方法,定量了药物相互作用,如今,对于药物相互作用的定量描述方法主要有highest-single agent(hsa)模型,bliss模型,loewe additivity模型等方法;
3、药物相互作用可以采用试错法进行研究,通过细胞实验、动物实验等方法探究药物之间的相互作用,然而这一方法具有许多弊端,首先,其周期长成本高,其次,某些动物实验也会产生伦理上、法律上的问题,如今,随着计算机技术和数学的发展,机器学习等智能方法成为了预测药物相互作用的重要手段,运用机器学习的方法进行药物相互作用的预测,周期短,成本低,同时也避免了细胞实验、动物实验带来的一系列伦理上、法律上的问题,成为了研究药物相互作用的热门领域;
4、强化学习是一种基于环境反馈的奖励而采取行动、做出决策的智能方法,是不确定性条件下进行序列决策的一种流行范式,demis hassabis通过强化学习的方法训练alphago击败了人类围棋手柯洁、李世石等人,展示了强化学习进行决策的巨大能力,强化学习主要是通过训练智能体的行为,通过一定的奖惩机制,获得智能体的价值网络,即用于计算奖励的期望的网络,或者策略网络,即用于输出智能体在特定的环境下的行为的网络,来实现智能体进行决策的过程,迄今为止,强化学习应用于药物相互作用预测的研究相对较少,然而强化学习在药物相互作用预测中却有自己独特的优势,其由于自身训练特点而在通常情况下具有较高的泛化性,同时,判断药物分子之间是否具有协同作用在本质上是一个决策问题,而强化学习则是专门为决策而生,经过足够的准确的数据训练之后,强化学习模型理论上能够解决任何决策问题,因此研究一种基于强化学习的dqn算法预测药物相互作用的方法是很有必要的。
技术实现思路
1、本发明的目的是通过智能方法对药物相互作用进行预测,在已有数据库的基础上,强化学习算法结合神经网络的方法-dqn算法对模型进行训练,预测两种乃至三种药物之间的相互作用,通过预测的结果指导多药治疗过程。
2、为实现上述目的,本发明提供如下技术方案:
3、一种基于强化学习的dqn算法预测药物相互作用的方法,包括以下步骤,
4、步骤1,构建数据集及预处理:
5、1-1,所述数据集包括两种药物分子组合a和b;
6、1-2,对所述药物分子组合a和b进行归一化、主成分分析降维处理;
7、1-3,对所述药物分子组合a和b进行相关性分析,初步判断两者之间是否具有协同作用;
8、步骤2,构建所述基于强化学习的dqn算法表示框架:
9、2-1,采用dqn算法对所述原始数据集a和b进行训练;
10、2-2,根据训练次数对预测正确率的影响,确定最终训练次数;
11、2-3,在步骤2-2确定训练次数之后,确定ε-贪婪方法中的ε值;
12、步骤3,构建步骤2以外的非强化学习模型框架,并与强化学习的dqn算法框架模型进行比较分析:
13、3-1,构建rbf神经网络框架模型;
14、3-2,构建bp神经网络框架模型;
15、3-3,构建k均值聚类框架模型;
16、3-4,对步骤2和步骤3的四个框架模型进行分析;
17、步骤4,构建基于数据增强生成的强化学习模型,预测药物之间的协同作用;
18、4-1,采用gisbert schneider(generative molecular design in low dataregimes[j].nature machine intelligence,2020,2(3):171-180.)等人在2020年提出数据增强方法,通过小批量数据生成了大量的具有不同结构和性质的分子,从而获取某一字符准确的分布对模型进行训练;
19、4-2,实现数据增强:采用独热法对smiles序列进行编码,采集每一个分子不同的smiles序列10个,作为训练集。采用四层神经网络,第一隐含层神经元个数为1024,第二隐含层神经元个数为256。训练过程中,模型学习每一个字符对于前边所有字符的条件概率分布,最小化产生的分子的字符的分布与真实的分子的字符的分布交叉熵,训练过程中,当生成终止字符或者达到最大长度时停止。采用温度采样的方法进行训练,对softmax函数施加温度参数t,按照以下公式计算每一个位置某一个字符的存在概率,最终生成了92个smiles序列,并提取到54个增强分子;
20、
21、其中,ni,为归一化之后的数据,ni为归一化之前的数据,nmin为最小值,nmax为最大值。
22、步骤4-3,针对步骤3-2中生成的54个增强分子组合,进行协同作用预测;
23、在上述技术方案中,所述步骤1-1中,所选药物分子组合a和b,通过hsa模型计算两种药物的药效公式:
24、gab=max(ga,gb) (2)
25、其中ga为药物a的药效,gb为药物b的药效,gab为预测的a药物、b药物混合使用时的药效。
26、在上述技术方案中,所述步骤1-2中,将药物分子组合a和b转化为smiles序列,进而将smiles序列进行独热编码,接下来对a和b进行归一化:
27、
28、其中,ni,为归一化之后的数据,ni为归一化之前的数据,nmin为归一化之前数据中的最小值,nmax为归一化之前数据中的最大值。
29、其次,由于数据中的特征即特征向量的维度过大,本发明采用主成分分析进行提取主成分进而对特征向量进行降维。
30、最终,采用主成分分析的方法将1×16000的特征向量降维成1×48的特征向量,降至此空间保留了99%以上的信息量。
31、在上述技术方案中,所述步骤2中的强化学习是智能体在环境作用下进行不断试错,依靠环境给予奖励进行学习的过程,强化学习的学习方法可以分为价值学习和策略学习,价值学习包括q-learning算法、dqn算法、sarsa算法等;策略学习包括reinforce算法等。本发明采用强化学习的dqn算法表示框架。
32、在上述技术方案中,所述步骤2-2中,通过步骤2-1中采用化合物smiles序列作为唯一输入,经过多次训练之后,将训练时间和准确率综合考虑,最终选择训练次数为200,以保证准确率较高的同时尽可能减小训练时间。
33、在上述技术方案中,所述步骤2-3中,确定了选择训练次数为200的情况下,研究了ε的取值对于训练结果的影响,结果如表1所示,不同的ε的取值下模型的训练时间和预测的准确率不同。不同的ε的取值对于训练结果具有一定的影响,然而没有呈现很强的相关性:ε的取值与模型的准确率的spearman相关系数为0.0122,与模型的训练时间的spearman相关系数为0.2242。因此,选取准确率最高的模型对应的ε取值作为最终的取值。
34、表1ε的取值对于训练结果的影响
35、
36、
37、在本发明的实施例中,强化学习dqn算法最终确定的参数选择为ε=0.9,模型的预测hsa协同作用正确率为93.95%。
38、在上述技术方案中,所述步骤3-4中,对强化学习方法(dqn算法)和非强化学习方法(rbf神经网络、bp神经网络、k均值聚类)的预测正确性进行比对,选定强化学习方法为最优框架模型。
39、在上述技术方案中,所述步骤4-2中采用smiles序列最常采用的编码方式-独热法进行编码,将字符串软化成一个稀疏矩阵,实现数据增强。最终生成了92个smiles序列,提取有特征性的54个分子进行协同作用预测。
40、在上述技术方案中,所述步骤4-3中将54个分子进行排列组合,生成具有54×54=2916个数据的预测集,将生成集与强化学习算法结合神经网络模型串联,采用训练好的dqn算法结合神经网络的模型对于新产生的2916种组合进行预测。预测结果为54×54的结果矩阵,将具备协同作用的q值与不具备协同作用的q值做差来代表药物组合中两种药物分子具有协同作用的概率,继而将数据进行归一化,最终发现药物分子组合中具有协同作用的组合数目相对较少,同时具备的规律性较弱。
41、与现有技术相比,本发明的有益效果是:
42、1.本发明采用强化学习算法结合神经网络的方法-dqn算法对模型进行训练,进而预测抗艾滋病药物组合中两种药物分子是否具有协同作用,同时与其他非强化学习方法进行比对,进而分析并改善dqn算法的功能,能够指导设计治疗艾滋病的药物组合。
43、2.本发明的基于强化学习的dqn算法预测药物相互作用的方法的hsa协同作用正确性可达93.95%,说明基于强化学习预测方法具有较高的预测准确率。
44、3、本发明采用药物分子的smiles编码作为唯一输入,通过强化学习的dqn算法对模型进行训练,预测了药物分子之间是否具有协同作用,同时与其他非强化学习方法进行比较,包括bp神经网络、rbf神经网络、k均值聚类三种方法的预测正确性,通过实验结果验证了强化学习的dqn算法的预测准确性最高,为今后多药治疗过程提供指导意义。
本文地址:https://www.jishuxx.com/zhuanli/20241021/318761.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表