技术新讯 > 医药医疗技术的改进,医疗器械制造及应用技术 > 一种基于评论文本信息增强的药物不良反应预测方法  >  正文

一种基于评论文本信息增强的药物不良反应预测方法

  • 国知局
  • 2024-12-26 14:55:04

本发明涉及生物信息学,尤其是涉及一种基于患者评论文本信息增强的药物不良反应预测方法。

背景技术:

1、目前,药物不良反应(adverse drug reactions,adrs)已经成为医学界和民众关注的热点,用药安全问题日益得到全社会的重视。由于药物开发时试验人群的数量及试验周期等限制,会造成具有潜在药物不良反应的新药流入市场的可能。因此,如何判断和预测药物的不良反应具有重大的理论价值和实用价值。

2、(1)药物不良反应研究数据源

3、当前基于数据分析的药物不良反映研究,其研究数据的来源主要有三种类型:药物知识库、社交网络评论文本和监测数据库。

4、基于药物知识库的研究,主要依赖于对药物不良反应相关知识,药物化学结构信息、药物-药物相互作用信息、药物靶标信息、蛋白质-蛋白质相互作用信息、药物副作用信息、药物-疾病关联信息、基因表达谱等,涵盖了与药物相关的化学、表型、基因组和细胞网络等知识,如今有pubchem、drugbank、ctd、ttd、sider等数据库整合了大量的药物相关的结构化数据,为发现药物不良反应提供了丰富的数据基础。如使用sider、adrecs中的药物副作用频率数据集对基于药物-副作用协同传播模型进行训练,并取得了较好的效果。

5、基于社交网络评论文本的研究则是利用互联网上公开的大量无约束评论、博客、微博等社交媒体数据,识别出与药物使用有关的评论信息,如用药原因、用药方式、不良反应描述等,并基于自然语言处理技术和机器学习算法对这些评论信息进行抽取、分类和分析,来进行药物不良反应的知识发现。如:赵明珍等利用信息熵的原理识别疾病和药物不良反应实体,提出基于skip-gram模型的生物试题关联度计算方法,以寻求潜在药物不良反应的关联蛋白质。

6、基于监测数据库的研究其中faers因其数据丰富、公开透明、术语与格式统一的特点常作为药物不良反应信号挖掘的数据来源,如杨莉、夏茹楠等通过对faers数据库进行挖掘,分别得到伊沙佐米、阿昔替尼的不良反应信号。

7、(2)药物不良反应预测方法

8、利用数据挖掘和机器学习等计算方法分析海量的生物医学数据,实现对药物不良反应的精准预测已成为了该领域的热门研究方法。但是,数据挖掘的方法常用于发现已出现的不良反应,无法预测潜在的不良反应。机器学习的方法进行药物不良反应预测,在特定数据集上表现良好。例如,学得杜瑶将患病前后和用药前后基因的表达量变化情况作为解释变量,利用随机森林算法对药物副作用进行预测,相较于传统的k近邻算法有了显著提升。但是,传统的机器学习模型的性能在很大程度上依赖于训练数据的质量和数量,其泛化能力可能不足。

9、为此,有学者使用联合深度学习与药物蛋白质链路预测的方法构建多消息传递神经网络预测药物不良反应,也有学者提出一种高阶相似网络的协同传播模型对药物不良反应的发生频率,吴菊华等开发了一种知识图谱嵌入的卷积神经网络adr预测模型,通过整合药物靶点、适应症、酶和载体蛋白等药物特征信息,进行adr预测,该模型将所有类型adr进行统一预测,减少过往研究需要为每种adr单独开发预测模型的冗余工作量,提高预测效率和和精度。以上方法均是使用公共数据库的数据进行的预测,而忽略了实际用药中新出现的药物不良反应,以及实际用药时的患者差异,这些数据可以丰富预测时的信息,提高药物不良反应预测的准确性,及时发现新出现的风险,可以帮助临床上为患者提供更安全、更个性化的治疗方案。

10、(3)药物不良反应预测结果分析

11、以往的药物不良反应预测验证仅限于利用药物不良反应数据库中的药物不良反应关联验证预测结果的合理性,或者依据文献报告对构建好的模型进行个案分析,表明模型具有良好的预测性能,并未对预测出的药物不良反应产生机制进行后续的研究,本研究构建药物靶点-不良反应靶点ppi网络,以及富集分析的方法,对预测结果在生物学水平上进行解释与验证分析,完善现有研究的整个预测、验证流程,使预测结果更为科学可靠。

12、综上,目前已存在针对各种相关数据库进行的药物不良反应研究,但是潜在药物不良反应预测通常使用的是药物化合物信息,忽略了用药过程中的个体差异,而且现有研究大多是对已表现、已上报的药物不良反应进行识别,并未将识别后的信息加入到预测工作中,实现的仅仅是已知的药物不良反应发现,有可能忽视实际用药经验和罕见的不良反应信息,大多数技术只是对药物可能引发的药物不良反应进行了预测,而只有了解药物引发不良反应的原因才能够避免药物不良反应的发生。本文通过整合多个数据源,以增加补充更多药物-不良反应之间的关联关系信息,实现更准确的预测效果,预测未出现的药物不良反应可能,为药物的临床应用提供参考。在药物不良反应预测结果验证方面,本文专注讨论药物作用靶点之间的相互作用以及这些作用引起的不良反应机制,即药物是如何影响药物靶点基因的表达,进而影响其互作用蛋白,导致相关通路的改变,最终引发药物的不良反应。

技术实现思路

1、本发明的目的是提供一种基于评论文本信息增强的药物不良反应预测方法,综合利用药物评论网站、临床试验数据以及药物数据源,综合利用用户实际经验和反馈等多样化的数据,添加患者特征,丰富药物及不良反应之间的关系,提供了更加全面的药物安全性评估,另外gcn模型相较于其他模型,训练与预测更为快速,可以减轻计算难度。

2、为实现上述目的,本发明提供了一种基于评论文本信息增强的药物不良反应预测方法,包括以下步骤:

3、步骤1,药物不良反应词典的构建:

4、以galeano’s数据集为基准数据集,以meddra本体中的药物不良反应首选术语及其同义词为词表来源,并采用直接编码的方式对不良反应术语进行编码,构建药物不良反应词典;

5、步骤2,基于评论文本的药物不良反应信息的提取:

6、通过python爬虫程序从药物评论网站中采集药物不良反应评论文本数据;

7、使用java程序,以及构建好的药物不良反应词典对基于评论文本的药物不良反应信息数据实现分词、去停用词处理及实体抽取处理,得到基于评论文本的药物不良反应关联;

8、步骤3,药物不良反应信息的整合:

9、在faers中筛选基准数据集中的药物,去除其中无效或不完整的记录后,获取这些药物在报告表单中的不良反应数据;将相同药物的不同不良反应进行整合,得到基于faers数据库的药物-不良反应关联信息;

10、将提取到的基于评论文本的药物不良反应关联、基于faers数据库的药物不良反应关联、相关用药信息,与基准数据集的数据进行合并,得到融合评论、faers数据库信息的药物-不良反应关联矩阵;

11、步骤4,公共数据库药物特征信息的整合:

12、在drugbank中获取数据集中药物smiles化学分子式、作用靶点等信息,在ttd数据库中获取药物的适应症信息,在adrecs数据库中获取数据集中不良反应的层次结构信息(其中包括不良反应的上下层级关系、结构号),作为后续计算药物、不良反应相似度的依据,最终得到药物-分子结构、药物-靶标、药物-适应症、不良反应层级关系、药物-不良反应五种关联关系以及患者特征信息;

13、步骤5,相似度的计算:

14、①综合药物相似度:

15、首先将smiles字符串转换为分子指纹,对于两个药物分子的指纹,计算它们的交集和并集,使用tanimoto系数计算药物-分子结构的相似度,得到药物分子结构相似度矩阵;

16、然后分别计算药物共同作用的靶标或治疗的适应症的交集、并集,根据jaccard系数分别计算药物-靶标相似度、药物-适应症相似度,得到药物靶标、适应症相似度矩阵;

17、用药患者的特征也作为药物相似度计算依据之一,处理性别、年龄、患病情况、用药时长等数据的缺失值和异常值,将性别作为数值型变量使用,对用药时长、年龄进行分区方式转换为分类变量,患病情况(病种)根据疾病类型进行分类,对以上特征类型使用独热编码,并对患病情况使用word2vec进行特征构造,将上述所有特征(包括one-hot编码的特征和word2vec生成的特征)拼接起来,形成一个患者的特征向量,多个患者的特征形成一个特征矩阵,特征矩阵经过降维技术转换为一个一维向量,代表一种药物的患者特征;根据余弦相似度计算药物基于患者特征的相似度,得到药物基于患者特征的相似度矩阵;

18、最后通过加权相似度融合算法,得到综合的药物相似度矩阵;

19、②不良反应相似度:

20、不良反应之间的相似度根据有向无环图dag计算,对于每一个不良反应构建一个基于不良反应层级结构的有向无环图dag,其中包含与不良反应相关的语义描述符,a,其dag可表示为dag(a)={ta,ea},其中ta是a包括其自身的祖先节点的集合,ea是dag中所有边的集合;

21、描述符t在dag(a)中对“a”的贡献通过公式计算,然后,对dag(a)中所有描述符的贡献求和,即可得到“a”的语义值,基于语义值计算不良反应si和sj之间的语义相似度如下得到不良反应相似矩阵;

22、步骤6,异构图的构建:

23、基于综合药物相似度矩阵、不良反应相似度矩阵和药物-不良反应关联矩阵,构建异构图g;

24、步骤7,图卷积网络模型的搭建:

25、将构建好的异构图引入到gcn编码器中,分别提取药物和疾病嵌入,将测试数据集中的关联设置为0,编码器可表示为:

26、

27、其中,len为编码层的总数,是度矩阵,是矩阵a添加自连接后的自环邻接矩阵,hl是第l层的节点特征矩阵,h(l+1)是第l+1层的节点特征矩阵,(wen)l是第l层的学习权重矩阵,使用relu作为激活函数;

28、对得到的节点表示使用内积解码器进行解码,得到药物和不良反应的最终嵌入:

29、

30、其中ed∈rm×d为药物的最终嵌入,ea∈rn×d为不良反应的最终嵌入,al是一个初始化为1/(l+1)的权重;

31、将sigmoid作为激活函数引入到gcn解码器中,使用内积解码器得到预测关联矩阵:

32、a′=sigmoid(ed·w·ea)

33、其中a′ij是药物di和不良反应aj的关联预测得分,w∈rd×d是可训练的参数矩阵;

34、模型优化部分使用加权交叉熵损失测量原始矩阵与重构关联矩阵之间的损失loss,并使用adam算法对损失loss进行优化;

35、步骤8,模型训练与评估:

36、选择十折交叉验证来训练、评估模型性能,使用准确率、f1分数、精确率、召回率及roc曲线和auc值等指标对图卷积网络(gcn)模型的性能进行评估;

37、十折交叉验证将整个数据集随机分成十个子集,将其中一个数据集作为测试集,其余九个数据集合并作为训练集,使用训练集训练模型,使用测试集评估模型的性能,重复以上步骤直到每个子集都被用作一次测试集,在所有十折中,计算模型性能指标的平均值并作为最终结果;

38、步骤9,药物的不良反应案例预测:

39、以治疗癫痫病的药物为案例,在训练好的模型中预测药物可能产生的不良反应,选择预测值大于0.7的药物-不良反应关联对作为最后的预测结果,提示用药可能产生的不良反应风险;

40、步骤10,药物不良反应发生机制的分析:

41、针对案例分析中准确度排名前十的药物-不良反应关联,在drugbank中获取药物靶点信息,string获取药物靶点相关基因,从genecards中获取不良反应相关基因,对药物靶点-靶点相关基因-不良反应相关基因进行交集处理,得到交集基因,使用cytoscape构建ppi互作网络图,对交集基因开展go和kegg分析,对靶基因中的生物学过程和潜在的影响通路进行进一步的分析;揭示药物造成不良反应的机制,验证预测结果的合理性。

42、进一步地,步骤2中以药物评论网站中所有的药物评论文本为采集对象,采集到的信息包括评论文本以及评论者的性别、年龄、患病情况、用药时长等。

43、进一步地,步骤5的①中,计算公式如下:

44、tanimoto系数:

45、

46、其中a、b分别为药物a、b的分子指纹;

47、jaccard系数:

48、

49、其中a、b分别为药物a、b的靶点(适应症)集合;

50、余弦相似度:

51、

52、其中a、b分别为药物a、b的患者特征向量。

53、进一步地,步骤5的②中,计算公式如下:

54、向无环图dag:

55、

56、其中θ是连接节点t与其子节点t的边的语义贡献因子。

57、进一步地,步骤6中异构图g表示为:

58、

59、其中sd、sa分别为药物综合相似性矩阵及不良反应相似度矩阵,~sd、~sa分别为药物及不良反应相似性矩阵经过拉普拉斯变换后的矩阵,a为药物与不良反应之间的关联矩阵。

60、进一步地,步骤7中编码器层数为2,为了充分利用药物和不良反应节点的嵌入,自适应地动态调整不同gcn层的重要性权重,在节点特征表示过程中加入注意力机制。

61、进一步地,步骤8中评价指标计算公式如下所示:

62、使用准确率:

63、

64、其中,tp为模型正确预测为正类的样本数量;tn为模型正确预测为负类的样本数量;fp为模型错误预测为正类的样本数量;fn为模型错误预测为负类的样本数量。

65、精确率:

66、

67、其中,tp为模型正确预测为正类的样本数量;fp为模型错误预测为正类的样本数量。

68、召回率:

69、

70、其中,tp为模型正确预测为正类的样本数量;fn为模型错误预测为负类的样本数量。

71、f1分数:

72、

73、其中,precision为精确率,recall为召回率。

74、roc曲线:

75、对于不同的阈值,计算模型的tpr和fpr,在笛卡尔坐标系中,以fpr为横轴,tpr为纵轴,绘制点,连接所有计算得到的点,形成roc曲线;

76、

77、其中,tp为模型正确预测为正类的样本数量;tn为模型正确预测为负类的样本数量;fp为模型错误预测为正类的样本数量;fn为模型错误预测为负类的样本数量。

78、auc值为roc曲线下的面积。

79、本发明所述的一种基于评论文本信息增强的药物不良反应预测方法的优点和积极效果是:

80、1、综合利用药物评论网站、临床试验数据以及药物数据源,综合利用用户实际经验和反馈等多样化的数据,添加患者特征,丰富药物及不良反应之间的关系,提供了更加全面的药物安全性评估,另外gcn模型相较于其他模型,训练与预测更为快速,可以减轻计算难度。

81、下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。

本文地址:https://www.jishuxx.com/zhuanli/20241226/343848.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。