技术新讯 > 医药医疗技术的改进,医疗器械制造及应用技术 > 一种基于模糊控制优化的病毒宿主预测方法、系统及介质  >  正文

一种基于模糊控制优化的病毒宿主预测方法、系统及介质

  • 国知局
  • 2024-07-12 10:40:39

本技术涉及宏病毒组数据处理领域,尤其涉及一种基于模糊控制优化的病毒宿主预测方法、系统及介质。

背景技术:

1、病毒是地球上最丰富和多样化的实体。其中真核病毒,尤其是真核rna病毒,更是感染了几乎所有真核生物的分类群,不仅会对人类健康与社会生产造成重大影响,也深度影响全球范围的生物地球化学循环。

2、随着下一代测序技术(ngs)的发展,有研究表明,几乎所有的病毒序列都已被测序,但都缺乏重要的宿主信息,这大大阻碍了人们对宏病毒组数据的进一步利用。目前的病毒宿主预测方法主要针对原核生物,其使用基于对比的方法,需要同时参考病毒和原核宿主的序列信息,处理的信息量大且效率较低;而针对真核生物,由于其序列庞大复杂,真核生物中内含子更是会给训练带来大量噪声,因此目前对于真核病毒宿主预测主要采用基于深度学习的无对比方法,但该方法预测范围非常有限且准确度较低。

技术实现思路

1、为解决上述技术问题,本发明的目的在于:提供一种预测范围大且准确度高的基于模糊控制优化的病毒宿主预测方法、系统及介质。

2、为实现上述目的,本技术实施例的一方面提出了一种基于模糊控制优化的病毒宿主预测方法,包括以下步骤:

3、获取病毒全基因组数据,统计所述病毒全基因组数据中各密码子的出现频率,根据所述出现频率得到密码子字典;

4、使用所述密码子字典替换预设的大语言模型中的文本文件,并根据所述病毒全基因组数据训练替换后的所述大语言模型,得到病毒宿主预测模型;

5、获取待预测病毒的病毒序列,将所述病毒序列输入所述病毒宿主预测模型,得到最优潜在宿主;

6、将所述最优潜在宿主输入预先设定好的模糊控制系统,得到所述最优潜在宿主对应的可靠程度,进而根据所述可靠程度确定所述待预测病毒的宿主并将其输出;

7、其中,所述待预测病毒为真核rna病毒。

8、在一些实施例中,所述获取病毒全基因组数据,统计所述病毒全基因组数据中各密码子的出现频率,根据所述出现频率得到密码子字典这一步骤,其具体包括:

9、通过ncbi下载所述病毒全基因组数据;

10、根据数据记录时间将所述病毒全基因组数据划分为第一病毒全基因组数据和第二病毒全基因组数据,进而统计所述第一病毒全基因组数据中各所述密码子的出现频率;

11、根据所述出现频率对各所述密码子进行编号,进而根据编号将所述密码子进行排序,得到所述密码子字典。

12、在一些实施例中,所述使用所述密码子字典替换预设的大语言模型中的文本文件,并根据所述病毒全基因组数据训练替换后的所述大语言模型,得到病毒宿主预测模型这一步骤,其具体包括:

13、提取所述病毒全基因组数据中的宿主信息,进而根据所述宿主信息筛选出感染真核宿主的rna病毒样本和其对应的真核宿主信息;

14、对所述真核宿主信息进行规范命名操作,并通过生物信息学工具库获取所述真核宿主信息对应的宿主谱系;

15、根据所述宿主谱系对所述rna病毒样本进行统计和分类,并去除序列长度低于预设第一序列长度的所述rna病毒样本,得到病毒序列样本,其中,所述病毒序列样本包括第一病毒序列样本和第二病毒序列样本;

16、根据预设第二序列长度对所述第一病毒序列样本进行随机重复下采样操作,得到第三病毒序列样本;

17、将所述第三病毒序列样本划分为训练集、验证集以及测试集,使用所述密码子字典替换所述大语言模型中的文本文件,进而根据所述训练集、所述验证集以及所述测试集对替换后的所述大语言模型进行训练,得到所述病毒宿主预测模型。

18、在一些实施例中,所述根据所述训练集、所述验证集以及所述测试集对替换后的所述大语言模型进行训练,得到所述病毒宿主预测模型这一步骤,其具体包括:

19、将替换后的所述大语言模型的分词长度修改为预设分词长度,得到第一大语言模型;

20、通过所述训练集对所述第一大语言模型进行迭代训练,通过所述验证集对所述第一大语言模型进行参数调整,通过所述测试集对所述第一大语言模型进行性能评估,得到所述病毒宿主预测模型。

21、在一些实施例中,所述病毒宿主预测模型包括输入层、albert层以及分类层,所述将所述病毒序列输入所述病毒宿主预测模型,得到最优潜在宿主这一步骤,其具体包括:

22、将所述病毒序列输入所述输入层进行格式转换,得到病毒向量;

23、将所述病毒向量输入所述albert层进行特征提取,得到病毒特征权重;

24、将所述病毒特征权重输入所述分类层进行多分类训练,得到多个所述潜在宿主,进而根据各所述潜在宿主确定所述最优潜在宿主。

25、在一些实施例中,所述病毒宿主预测方法还包括预先设定所述模糊控制系统的步骤,其具体包括:

26、根据所述第一病毒序列样本和所述第二病毒序列样本构建系统发育树,得到系统发育关系,其中,所述系统发育关系包括第一分支距离和第二分支距离;

27、将所述第一分支距离的均值和最小的所述第二分支距离作为输入变量,进而将所述输入变量进行模糊化处理,得到模糊集合;

28、将所述模糊集合进行去模糊化处理,得到所述可靠程度,进而将所述可靠程度作为输出变量;

29、确定模糊规则,根据所述模糊规则调整模糊函数,得到所述模糊控制系统。

30、在一些实施例中,所述可靠程度包括可靠、较可靠以及不可靠,所述根据所述可靠程度确定所述待预测病毒的宿主并将其输出这一步骤,其具体包括:

31、若所述可靠程度为较可靠或不可靠,将对应的所述潜在宿主丢弃;

32、若所述可靠程度为可靠,确定对应的所述潜在宿主为所述宿主并将其输出。

33、为实现上述目的,本技术实施例的另一方面提出了一种基于模糊控制优化的病毒宿主预测系统,包括:

34、密码子字典制作模块,用于获取病毒全基因组数据,统计所述病毒全基因组数据中各密码子的出现频率,根据所述出现频率得到密码子字典;

35、预测模型构建模块,用于使用所述密码子字典替换预设的大语言模型中的文本文件,并根据所述病毒全基因组数据训练替换后的所述大语言模型,得到病毒宿主预测模型;

36、潜在宿主获取模块,用于获取待预测病毒的病毒序列,将所述病毒序列输入所述病毒宿主预测模型,得到最优潜在宿主;

37、宿主确定模块,用于将所述最优潜在宿主输入预先设定好的模糊控制系统,得到所述最优潜在宿主对应的可靠程度,进而根据所述可靠程度确定所述待预测病毒的宿主并将其输出;

38、其中,所述待预测病毒为真核rna病毒。

39、为实现上述目的,本技术实施例的另一方面提出了一种电子设备,所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线,所述程序被所述处理器执行时实现如前面所述的基于模糊控制优化的病毒宿主预测方法。

40、为实现上述目的,本技术实施例的另一方面提出了一种存储介质,所述存储介质为计算机可读存储介质,用于计算机可读存储,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如前面所述的基于模糊控制优化的病毒宿主预测方法。

41、本发明的有益效果是:本发明的基于模糊控制优化的病毒宿主预测方法、系统及介质,通过获取病毒全基因组数据,统计病毒全基因组数据中各密码子的出现频率,根据出现频率得到密码子字典,进而使用该密码子字典替换大语言模型中的文本文件,根据病毒全基因组数据训练该大语言模型,得到病毒宿主预测模型,接着将待预测病毒的病毒序列输入训练好的病毒宿主预测模型,得到多个潜在宿主,选取潜在宿主中的最优潜在宿主,最后将最优潜在宿主输入预先设定好的模糊控制系统,根据系统发育关系和病毒全基因组数据的分布判断各潜在宿主的可靠程度,根据可靠程度确定宿主并将其输出。本发明一方面使用密码子字典替换大语言模型中的文本文件,对该大语言模型进行训练得到病毒宿主预测模型,通过该病毒宿主预测模型预测潜在宿主;另一方面通过设定好的模糊控制系统判断潜在宿主的可靠程度,能够精准的预测大范围的真核宿主,还能进一步通过系统发育树和模糊控制系统分析,部分探究和解释病毒和其对应宿主之间的联系。

本文地址:https://www.jishuxx.com/zhuanli/20240614/88468.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。