技术新讯 > 医药医疗技术的改进,医疗器械制造及应用技术 > 一种目标抗菌肽的生成方法  >  正文

一种目标抗菌肽的生成方法

  • 国知局
  • 2024-08-19 14:16:03

本发明涉及抗菌肽生成领域,尤其涉及一种目标抗菌肽的生成方法。

背景技术:

1、目前的抗菌肽数据库中包含天然抗菌肽和人工合成抗菌肽,天然抗菌肽指由生物产生用于抵抗外界入侵的代谢物,而人工合成抗菌肽则是利用现有的合成技术合成、与天然抗菌肽具有同样生化特性的蛋白质。相较于天然抗菌肽的发现和验证,人工合成抗菌肽效率更高。设计具有特定功能的氨基酸序列是蛋白质工程的核心之一。目前用于蛋白质工程的工具较少,并且大部分工具都依赖于定向进化,该方法通过测量起始或者野生型序列的随机变异对序列的影响,直到充分优化达到目标功能为止。应用机器学习的进步为抗菌肽设计提供了更广阔的思路,抗菌肽设计要求模型能够捕获指数级别或者无穷的组合状态空间。

2、自然语言处理中存在与抗菌肽设计相似的自然语言生成任务,模型的训练任务是根据之前的符号预测下一个符号。抗菌肽可以以序列化的氨基酸残基形式表示,这使得可以使用处理普通序列的方式处理抗菌肽,自然语言生成任务同样适用于抗菌肽设计。在抗菌肽设计场景下,自然界潜在的生成了一个复杂的抗菌肽分布,每一个氨基酸或者低聚物代表一个标识符,下一个词预测任务即基于已有的氨基酸序列预测一个氨基酸的任务。自然语言生成任务比抗菌肽设计具有更大的词汇表、更广的状态空间以及更复杂的符号分布,语言模型在自然语言生成任务中的优异表现使得其能够被应用到抗菌肽设计中。然而目前被应用到抗菌肽设计的网络模型主要是循环神经网络以及对抗神经网络,本发明将自然语言生成任务应用到抗菌肽设计中,利用蛋白质预训练语言模型用于抗菌肽设计。

技术实现思路

1、为了将自然语言生成任务应用到抗菌肽设计中,本发明提出了一种目标抗菌肽的生成方法,通过获取抗菌肽判别器与待判别抗菌肽生成器获取抗菌肽,包括:

2、通过公开的抗菌肽数据库构建正样本数据集datasetpos,利用datasetpos训练protgpt2模型得到待判别抗菌肽生成器,设置待判别抗菌肽生成器的模型参数k值,基于当前位置之前的氨基酸信息,在当前位置最有可能的前k值个低聚物中随机选择一个低聚物作为当前的低聚物,使用w中的所有氨基酸作为起始氨基酸生成多条待判别抗菌肽序列ampgenerated;

3、获取抗菌肽判别器,并通过抗菌肽判别器利用预设判别策略获取ampgenerated中的候选抗菌肽数据ampcandidate;

4、通过esm-1v依次将datasetpos和ampcandidate中的每一条氨基酸序列嵌入至多维的潜在特征空间中,得到各条氨基酸序列对应的多维数值特征,并对各多维数值特征进行主成分分析,选择区分度最高的预设个特征作为聚类即类别划分的特征,并通过k-means利用区分度最高的预设个特征对ampcandidate中的氨基酸序列进行类别划分,得到多个类别数据组;

5、在各类别数据组中选择氨基酸序列进行抗菌活性验证得到目标抗菌肽。

6、进一步地,所述对ampcandidate中的氨基酸序列进行类别划分,具体包括:

7、设定多个k-means中的k值,并基于各k值依次通过区分度最高的预设个特征与氨基酸序列间的欧式距离对ampcandidate中的氨基酸序列进行类别划分,得到各k值对应的轮廓系数与calinski-harabaz指数,通过轮廓系数与calinski-harabaz指数选择目标k值,获取目标k值对应的类别数据组。

8、进一步地,所述抗菌肽为:

9、包含n个字符的序列seq={w1,w2,...,wn},其中wi∈w={a,c,d,e,f,g,h,i,k,l,m,n,p,q,r,s,t,v,w,y},分别对应丙氨酸、半胱氨酸、天冬氨酸、谷氨酸、苯丙氨酸、甘氨酸、组氨酸、异亮氨酸、赖氨酸、亮氨酸、甲硫氨酸、天冬氨酸、脯氨酸、谷氨酰胺、精氨酸、丝氨酸、苏氨酸、缬氨酸、色氨酸和酪氨酸。

10、进一步地,所述抗菌肽判别器包括输入词嵌入层、目标模型主体与输出层;所述输入词嵌入层用于利用预设分词策略获取肽序列对应的固定维度向量;所述模型主体用于对固定维度向量进行特征提取并输出潜在空间特征向量;所述输出层用于对模型主体输出的潜在空间特征向量进行线性变换、归一化与激活函数的处理,并利用处理后的潜在空间特征向量预测输入的肽序列为抗菌肽的概率,所述潜在空间特征向量表示对输入的肽序列建模的潜在特征空间;所述抗菌肽判别器的获取具体包括:

11、通过正样本数据集datasetpos获取正样本测试集stest-pos与正样本训练集strain-pos,通过strain-pos获取第一正样本训练集、第二正样本训练集与第三正样本训练集;基于roberta-base模型利用strain-pos、第一正样本训练集、第二正样本训练集与第三正样本训练集获取正样本目标训练集;各正样本训练集之间的相似度不同;

12、通过uniprot蛋白质数据库获取负样本数据集datasetneg,通过datasetneg获取负样本测试集stest-neg与负样本训练集a、负样本训练集e、负样本训练集d、负样本训练集c、负样本训练集b;所述正样本数据集表示由抗菌肽构成的数据集,负样本数据集表示由非抗菌肽构成的数据集;基于roberta-base模型利用负样本训练集b、c、d、e获取负样本目标训练集;

13、获取多个预训练模型,并基于预设分词策略,在预选负样本训练集上对各预训练模型进行抗菌肽识别和效果预测得到各预训练模型对应的accuracy与f1-score,通过accuracy与f1-score确定最优模型主体;通过正样本目标训练集与负样本目标训练集训练最优模型主体得到目标模型主体。

14、进一步地,所述通过strain-pos获取第一正样本训练集、第二正样本训练集与第三正样本训练集,具体为:

15、通过cd-hit将冗余度阈值分别设置为0.5、0.7和0.9对strain-pos进行冗余筛除,得到相似度小于50%的第一正样本训练集strain-pos-id50、相似度小于70%的第二正样本训练集strain-pos-id70、相似度小于90%的第三正样本训练集strain-pos-id90;

16、所述通过datasetneg获取负样本测试集stest-neg与负样本训练集e、负样本训练集d、负样本训练集c、负样本训练集b,具体为:

17、从datasetneg中按照datasetpos的长度分布抽取了多条非抗菌肽序列作为非抗菌肽数据集a;

18、将非抗菌肽数据集a按照8:2的比例随机划分成负样本训练集a和负样本测试集stest-neg;

19、将stest-neg从datasetneg中剔除后按照随机方式抽取多条非抗菌肽序列作为负样本训练集e;

20、从负样本训练集e中按照0.5的概率抽取序列构建负样本训练集d;

21、从负样本训练集d中按照0.5的概率抽取序列构造负样本训练集c;

22、从负样本训练集c中按照0.34的概率抽取序列构造负样本训练集b。

23、进一步地,所述预设分词策略为字符分词与分词器;

24、所述抗菌肽判别器的获取还包括:

25、分别基于各预设分词策略,在预选负样本训练集上对各预训练模型进行抗菌肽识别和效果预测得到各预训练模型对应的accuracy与f1-score,通过accuracy与f1-score确定当前预设分词策略对应的最优模型主体,通过正样本目标训练集与负样本目标训练集训练最优模型主体得到当前预设分词策略对应的目标模型主体;通过各目标模型主体分别构建对应预设分词策略的抗菌肽判别器;

26、所述预设判别策略为:

27、设定采用字符分词的抗菌肽判别器和采用分词器的抗菌肽判别器均判断出当前待判别抗菌肽序列为抗菌肽时,则将该序列判定为候选抗菌肽;

28、设定采用字符分词的抗菌肽判别器和采用分词器的抗菌肽判别器其中任一个以超过预设阈值的置信度判别该序列为抗菌肽时,则将该序列判定为候选抗菌肽。

29、进一步地,所述输入词嵌入层具体用于根据预设分词策略将肽序列的每一个氨基酸视为一个独立的词,然后对每一个氨基酸进行嵌入得到一个固定维度的向量输入到模型主体中,所述向量中包括每个氨基酸的原始信息与位置关系。

30、进一步地,所述正样本目标训练集的具体获取方法为:

31、分别通过strain-pos、第一正样本训练集、第二正样本训练集与第三正样本训练集训练roberta-base模型,得到各训练集对应的accuracy与f1-score,通过accuracy与f1-score获取正样本目标训练集。

32、进一步地,所述负样本目标训练集的具体获取方法为:

33、分别通过负样本训练集b、c、d、e训练roberta-base模型,得到各训练集对应的accuracy与f1-score,通过accuracy与f1-score获取负样本目标训练集。

34、进一步地,所述预训练模型包括bert-base-cased、bert-large-cased、roberta-base、roberta-large、biobert-base-cased、protbert、esm2-t12-35m-ur50d与esm2-t30-150m-ur50d;所述公开的抗菌肽数据库包括:apd3、camp和lamp2。

35、与现有技术相比,本发明至少含有以下有益效果:

36、(1)本发明利用datasetpos训练protgpt2模型得到待判别抗菌肽生成器,并通过设置待判别抗菌肽生成器的模型参数k值生成多条待判别抗菌肽序列,通过抗菌肽判别器利用预设判别策略筛选出待判别抗菌肽序列中的候选抗菌肽数据,通过esm-1v获取datasetpos和ampcandidate中的每一条氨基酸序列对应的多维数值特征,并对各多维数值特征进行主成分分析,选择区分度最高的预设个特征作为聚类即类别划分的特征,通过k-means利用区分度最高的预设个特征对ampcandidate中的氨基酸序列进行类别划分,得到多个类别数据组,在各类别数据组中选择氨基酸序列进行抗菌活性验证得到目标抗菌肽,其利用蛋白质预训练语言模型protgpt2实现了抗菌肽的生成;

37、(2)由于待判别抗菌肽生成器在生成序列时引入了随机性,以期望产生结构、功能更多元的抗菌肽序列,随机性使得产生抗菌肽的概率有所下降,因此本发明对生成的待判别抗菌肽序列使用抗菌肽判别器进行筛选得到候选抗菌肽,极大的提高了目标抗菌肽的生成效率;

38、(3)本发明通过公开的抗菌肽数据库构建多个相似度不同的正样本训练集,并基于roberta-base模型利用通过各正样本训练集获取正样本目标训练集,通过uniprot蛋白质数据库获取多个负样本训练集,并基于roberta-base模型利用负样本训练集b、c、d、e获取负样本目标训练集;并基于预设分词策略,在预选负样本训练集上对各预训练模型进行抗菌肽识别和效果预测得到各预训练模型对应的accuracy与f1-score,通过accuracy与f1-score确定最优模型主体;通过正样本目标训练集与负样本目标训练集训练最优模型主体得到目标模型主体,通过最优分词策略、目标模型主体与输出层构建出抗菌肽判别器,通过抗菌肽判别器实现了对抗菌肽的准确与智能识别;

39、(4)为了验证筛除相似度数据对抗菌肽判别器的负面影响或者对抗菌肽判别器准确性的影响,本发明构建了三个数据集strain-pos-id50、strain-pos-id70和strain-pos-id90,分别表示仅保留相似度小于50%、相似度小于70%和相似度小于90%的抗菌肽用于构建正样本训练集,通过此三个数据集训练roberta-base模型,得到各训练集对应的accuracy与f1-score,通过accuracy与f1-score获取正样本目标训练集,通过正样本目标训练集训练抗菌肽判别器的模型主体,进而提高了抗菌肽判别器的识别准确性;

40、(5)为了验证正负样本比例对抗菌肽判别器的影响,本发明构建了相对strain-pos大小不同倍数的负样本训练集b、c和d,通过负样本训练集b、c、d、e训练roberta-base模型,得到各训练集对应的accuracy与f1-score,通过accuracy与f1-score获取负样本目标训练集,通过负样本目标训练集训练抗菌肽判别器的模型主体,进一步提高了抗菌肽判别器的识别准确性。

本文地址:https://www.jishuxx.com/zhuanli/20240819/274489.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。