siRNA递送多肽的预测模型及其构建方法、siRNA递送多肽的预测方法及可读存储介质
- 国知局
- 2024-07-12 10:16:04
本技术涉及预测技术,特别涉及sirna递送多肽的预测模型及其构建方法、sirna递送多肽的预测方法及可读存储介质。
背景技术:
1、rna干扰(rna interference,rnai)是近年来生命科学邻域最为重大的发现之一。它是指小分子双链rna可以特异性地降解同源mrna,从而一直或关闭特定基因表达的现象。所以,只要知道了某种疾病的致病基因,就可以设计出针对该基因mrna的小分子干扰rna(smallinterfering rna,sirna),抑制或封闭该致病基因的表达,从而达到治疗疾病的目的。肿瘤是多个基因相互作用的基因网络调控的结果,传统技术诱发的单一癌基因的阻断不可能完全抑制或逆转肿瘤的生长,而rnai可以利用同一基因家族的多个基因具有一段同源性很高的保守序列这一特性,设计针对这一区段序列的sirna分子,只注射一种sirna即可以产生多个基因同时沉默的效果,也可以同时注射多种sirna而将多个序列不相关的基因同时剔除。因此,与传统基因治疗方法相比,sirna是更为理想和有效的治疗手段。但是,sirna不能单独应用,它必须与运载工具也就是载体搭配才能运转到机体组织和细胞内发挥作用。因而,sirna的应用领域就是其载体的应用领域。
2、多肽是由20种天然氨基酸组成,具有特殊物理、化学性质,能调节体内系统和体细胞间生理功能,可快速被机体主动吸收并参与循环代谢的活性物质,已成为一类具有广阔应用前景的新型生物医用材料。多肽由于其序列和功能多样性而受到越来越多的关注,其不同组合方式使多肽具有不同的构象、电性、极性、疏水性和亲水性。通过设计多肽分子序列,便可使其具有各种功能,包括核酸凝聚、膜穿透、溶酶体逃逸和靶向性等,所有这些功能对于基因转染都是必不可少的。因此,多肽作为基因载体有极大的潜力。
3、但是,现有技术中并不存在能够快速高效的筛选出可高效递送sirna的多肽的相关技术。
4、人工智能是计算机技术范畴的一种,人工智能技术的主要功能是通过智能化技术来形成一种新的可以以人类智能相类似的方式帮助人类解决更难的工作,提高人们的生活质量和工作效率。人工智能技术的核心是机器学习模型与算法,是基于海量数据的持续学习能力和在未知空间的智能探索能力,其本质是基于一种数学规则或统计假设,对机器进行编程从而学习数据集中的模式与规律。通常来说,机器学习的目标是给定数据集中发现特征之间的联系从而建立起预测模型。自21世纪初以来,深度学习得到了迅速发展,神经网络在深度学习构建中发挥着重要作用,通过使用反向传播算法,可以指示机器如何更改其内部参数,从而发现大数据集中的复杂结构,深度学习由于其在生物医学领域具有较高准确率和自动提取特征的优势,已被广泛应用。
技术实现思路
1、本技术的目的是要提供一种sirna递送多肽的预测模型及其构建方法、sirna递送多肽的预测方法及可读存储介质,旨在能够快速高效的筛选出可以高效递送sirna的多肽。
2、本技术解决上述技术问题采用的技术方案中,第一方面提供了一种sirna递送多肽的预测模型构建方法,包括以下步骤:
3、步骤1、获取随机多肽文库;
4、步骤2、对所述随机多肽文库中的每一条多肽进行抗菌肽分类预测及穿膜肽分类预测,得到各多肽的抗菌肽分类预测结果及穿膜肽分类预测结果;
5、步骤3、根据所述各多肽的抗菌肽分类预测结果及穿膜肽分类预测结果,选择出各多肽中抗菌肽分类预测结果及穿膜肽分类预测结果均大于预设阈值的对应多肽,建立sirna药物递送多肽库;
6、步骤4、将sirna药物递送多肽库中的各多肽制作为模型训练样本;
7、步骤5、使用模型训练样本训练sirna递送多肽的预测模型。
8、具体的,为提高该sirna递送多肽的预测模型的预测准确性,则步骤4中,所述将sirna药物递送多肽库中的各多肽制作为模型训练样本之前,还制作出sirna药物递送多肽库中的各多肽,并通过湿试验验证各多肽的sirna药物递送效率,并与各多肽相关联,所述模型训练样本中包含各多肽对应的sirna药物递送效率。
9、进一步的,为细化模型训练样本,则步骤4中,所述将sirna药物递送多肽库中的各多肽制作为模型训练样本时,基于多肽的氨基酸序列信息计算各多肽的676个描述符,所述模型训练样本中包含各多肽对应的676个描述符。
10、具体的,为细化上述676个描述符,则所述多肽的676个描述符包括多肽基础理化性质(basic character)对应的9个特征、氨基酸组成(amino acid composition)对应的20个特征、二肽组成(dipeptide composition)对应的400个特征、自相关(autocorrelation)对应的40个特征、组成-过渡-分布(composition,transition,and distribution)对应的147个特征和序列特征(sequence order features)对应的60个特征,每个所述特征对应一个描述符。
11、再进一步的,为细化训练sirna递送多肽的预测模型,则步骤5中,是将所述模型训练样本输入随机森林(rf)模型,进行sirna递送多肽的预测模型的开发。
12、具体的,为说明如何获取随机多肽文库,则步骤1中,所述获取随机多肽文库的方法为:通过代码生成一定容量的随机多肽文库,所述随机多肽文库中包含预设长度范围的随机多肽序列。这里,所述一定容量优选为109,预设长度范围优选为10-20。
13、再进一步的,为给出一个预设阈值,则步骤3中,所述预设阈值为99.9%。
14、再进一步的,由于所建立的sirna药物递送多肽库中的多肽数量过多时,会使得后续训练sirna递送多肽的预测模型时效率不高,且通过湿试验验证各多肽的sirna药物递送效率时非常麻烦,因此所建立的sirna药物递送多肽库中的多肽数量要在一个合理的范围内,即需要缩减多肽数量,而又因为需要缩减多肽数量,则为了保证后续训练出的sirna递送多肽的预测模型的准确性,因此需要选择更加符合要求的多肽来建立sirna药物递送多肽库,则步骤3中,所述选择出各多肽中抗菌肽分类预测结果及穿膜肽分类预测结果均大于预设阈值的对应多肽后,还将这些多肽各自的抗菌肽分类预测结果及穿膜肽分类预测结果相加后,根据相加结果由大至小进行排序,选择排序靠前的一定数量的多肽,建立sirna药物递送多肽库。这里,一定数量可以为105。
15、具体的,为说明如何进行抗菌肽分类预测,则步骤2中,所述抗菌肽分类预测的方法为:通过抗菌肽分类预测模型进行的抗菌肽分类预测。
16、再进一步的,为提供一种抗菌肽分类预测模型,则所述抗菌肽分类预测模型的构建方法为:
17、获取已知抗菌肽序列信息,并将长度限制为预设个数范围的氨基酸,得到抗菌肽阳性序列;
18、获取第一预设数量的已知没有抗菌标签的第一阴性对照多肽序列,根据抗菌肽阳性序列信息与第一阴性对照多肽序列建立抗菌肽数据集;
19、将抗菌肽数据集中的各抗菌肽阳性序列及各第一阴性对照多肽序列以氨基酸为单位转换为token输入bert(bidirectionalencoder representations fromtransformer)模型进行深度学习,深度学习结束得到抗菌肽分类预测模型。
20、具体的,为提供一个获取已知抗菌肽序列信息的方法,则所述获取已知抗菌肽序列信息是指:从grampa数据库中获取抗菌肽序列信息,并去除其中重复序列和被修饰过的序列。为提供一种预设个数范围,则所述预设个数范围为5-30个。
21、再进一步的,为提供一种获取已知没有抗菌标签的第一阴性对照多肽序列的方法,则所述获取第一预设数量的已知没有抗菌标签的第一阴性对照多肽序列中,是从uniprot数据库(http://www.uniprot.org/)中筛选得到第一预设数量的没有抗菌标签的第一阴性对照多肽序列。其中,第一预设数量可以为6499条。
22、具体的,为说明如何进行穿膜肽分类预测,则步骤2中,所述穿膜肽分类预测的方法为:通过穿膜肽分类预测模型进行的穿膜肽分类预测。
23、再进一步的,为提供一种穿膜肽分类预测模型,则所述穿膜肽分类预测模型的构建方法为:
24、获取已知穿膜肽序列信息,并将长度限制为预设个数范围的氨基酸,得到穿膜肽阳性序列;
25、获取第二预设数量的已知没有穿膜标签的第二阴性对照多肽序列,根据穿膜肽阳性序列信息与第二阴性对照多肽序列建立穿膜肽数据集;
26、将穿膜肽数据集中的各穿膜肽阳性序列及各第二阴性对照多肽序列以氨基酸为单位转换为token输入bert(bidirectionalencoder representations fromtransformer)模型进行深度学习,深度学习结束得到穿膜肽分类预测模型。
27、具体的,为提供一个获取已知穿膜肽序列信息的方法,则所述获取已知穿膜肽序列信息是指:从cpp2.0数据库中获取穿膜肽序列信息,并去除其中重复序列和被修饰过的序列。为提供一种预设个数范围,则所述预设个数范围为5-30个。
28、再进一步的,为提供一种获取已知没有穿膜标签的第二阴性对照多肽序列的方法,则所述获取第二预设数量的已知没有穿膜标签的第二阴性对照多肽序列中,是从uniprot数据库(http://www.uniprot.org/)中筛选得到第二预设数量的没有穿膜标签的阴性对照多肽序列。其中,第二预设数量可以为3791条。
29、本技术解决上述技术问题采用的技术方案中,第二方面提供了一种sirna递送多肽的预测模型,所述sirna递送多肽的预测模型为根据如上述sirna递送多肽的预测模型构建方法得到的sirna递送多肽的预测模型。
30、本技术解决上述技术问题采用的技术方案中,第三方面提供了一种sirna递送多肽的预测方法,包括以下步骤:
31、将所需预测的多肽序列输入至上述sirna递送多肽的预测模型中进行预测,得到sirna递送多肽的预测结果。
32、本技术解决上述技术问题采用的技术方案中,第二方面提供了一种可读存储介质,所述可存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述sirna递送多肽的预测方法。
33、本技术的有益效果是,在本技术方案中,利用人工智能技术建立sirna递送多肽的预测模型,来对所合成或欲合成的多肽进行sirna递送多肽的预测,可以快速高效的筛选出能够高效递送sirna的多肽,提高效率的同时,可节省试验验证的次数。
本文地址:https://www.jishuxx.com/zhuanli/20240615/85791.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表