技术新讯 > 医药医疗技术的改进,医疗器械制造及应用技术 > 基于RNAErnie预训练模型的RNAN4-乙酰胞苷修饰位点预测方法及系统  >  正文

基于RNAErnie预训练模型的RNAN4-乙酰胞苷修饰位点预测方法及系统

  • 国知局
  • 2025-01-10 13:21:24

本发明涉及生物信息,特别是涉及一种基于rnaernie预训练模型的rnan4-乙酰胞苷修饰位点预测方法及系统。

背景技术:

1、迄今为止,在rna中已经发现了超过170种修饰的核苷。rna的转录后化学修饰,统称为“表转录组”,对基因表达和细胞过程具有实质性影响,在分子相互作用和分子间关系中起着重要作用。n4-乙酰胞苷(ac4c)是由酶nat10催化的常见类型,在胞苷碱基的第四位的氮上添加乙酰基。最初在真核生物和原核生物的trna和rrna中发现了ac4c,目前的研究还确定了ac4c存在于人类mrna中,它可以提高翻译效率,增强mrna稳定性,并调节基因表达。此外,越来越多的证据表明,ac4c与多种人类疾病有关,包括炎症、代谢紊乱、自身免疫性疾病和癌症等。总之,ac4c修饰作为rna的关键转录后修饰,在细胞功能和疾病过程中发挥重要作用。探讨rna-ac4c修饰位点的功能和机制对于阐明其生物学意义和推进相关疾病的治疗策略至关重要。

2、传统的rna-ac4c修饰位点探测包括生物实验方法、高通量测序技术、计算机辅助分析方法。其中,传统的生物实验方法,是检测rna中ac4c修饰的传统方法主要包括化学分析和免疫检测,在实验室中广泛使用,具有较高的灵敏度和特异性,适合对特定修饰进行定性和定量分析;高通量测序技术近年来被广泛用于ac4c修饰的全基因组水平检测,其中以merip-seq(mrna免疫共沉淀测序)为代表,该技术通过富集rna样本中的修饰位点,再进行测序分析,能够对全基因组范围内的ac4c修饰进行大规模探索和分析;计算机辅助分析方法,是生物信息学工具基于机器学习算法,通过分析rna序列、结构、进化保守性等特征,构建预测模型,帮助研究人员快速识别潜在的ac4c修饰位点。

3、然而,传统的rna-ac4c修饰位点探测中,生物实验方法大多数湿实验既昂贵又耗时,检测成本高昂,操作复杂,灵敏度和特异性较低;高通量测序技术往往依赖抗体富集,分辨率较低,且检测精度受限于抗体质量和背景噪声;计算机辅助分析方法严重依赖于传统的特征编码技术,需要复杂的特征工程步骤,缺乏对上下文语义关系的综合理解。因此,传统的rna-ac4c修饰位点探测方法往往存在成本高、信息挖掘不够充分,导致rna-ac4c修饰位点探测的准确率较低的问题。

技术实现思路

1、基于此,为了解决上述技术问题,提供一种基于rnaernie预训练模型的rnan4-乙酰胞苷修饰位点预测方法及系统,可以快速、低成本、且提高模型的rnan4-乙酰胞苷修饰位点修饰位点探测准确率。

2、一种基于rnaernie预训练模型的rnan4-乙酰胞苷修饰位点预测方法,所述方法包括:

3、采集rna序列数据集;所述rna序列数据集中包含有阳性和阴性样本;

4、将所述rna序列数据集中的每条rna序列分别输入至rnaernie预训练模型中进行多级掩码,捕捉上下文依赖关系并提取出全局特征;并将所述rnaernie预训练模型结合六种传统特征编码方法对各个所述rna序列进行特征编码,得到编码后的高维特征;

5、将所述编码后的高维特征输入至深度神经网络模型中进行特征降维,得到降维后的特征;

6、将所述降维后的特征输入至软投票集成模型中,通过所述软投票集成模型集成不同分类器的预测结果,得到rnan4-乙酰胞苷修饰位点预测结果;

7、其中,所述软投票集成模型由xgboost、mlp、catboost分类器构建而成。

8、在其中一个实施例中,所述方法还包括:

9、确定评估指标,并根据所述评估指标使用十折交叉验证方式对所述软投票集成模型进行性能评估,得到评估结果;

10、其中,所述评估指标包括灵敏性、特异性、准确性、马修斯相关系数、曲线下面积。

11、在其中一个实施例中,所述方法还包括:

12、展示用户交互界面,并通过所述用户交互界面获取待预测rna序列;

13、将所述待预测rna序列输入至所述软投票集成模型中,输出与所述待预测rna序列对应的rnan4-乙酰胞苷修饰位点预测结果;

14、在所述用户交互界面中展示与所述待预测rna序列对应的rnan4-乙酰胞苷修饰位点预测结果。

15、在其中一个实施例中,采集rna序列数据集之后,所述方法还包括:

16、确定数据集划分比例;

17、基于所述数据集划分比例,将所述rna序列数据集进行分层抽样处理,得到划分后的训练数据集、测试数据集。

18、在其中一个实施例中,所述rnaernie预训练模型建立在通过知识集成增强表示框架的基础上,且结合transformer层和多头自注意机制;其中:

19、将所述rna序列数据集中的每条rna序列分别输入至rnaernie预训练模型中,基于所述多头自注意机制,通过每个注意力头部计算各个所述rna序列对应的注意力分数;

20、将得到的各个所述注意力分数进行连接,对各个所述rna序列通过线性变换矩阵被映射到查询、键和值矩阵。

21、在其中一个实施例中,将所述rna序列数据集中的每条rna序列分别输入至rnaernie预训练模型中进行多级掩码,包括:

22、所述rnaernie预训练模型采用基序级掩蔽、子序列级掩蔽、基序级随机掩蔽策略,结合粗粒类型的rna作为词汇标记;

23、所述rnaernie预训练模型将所述词汇标记附加到各个所述rna序列的最后一段,增强rna序列表示。

24、在其中一个实施例中,将所述高维特征输入至深度神经网络模型中进行特征降维,得到降维后的特征,包括:

25、将所述编码后的高维特征输入至深度神经网络模型中,通过所述深度神经网络模型的多层非线性映射,将所述高维特征从高维空间映射到低维空间,得到降维后的特征。

26、在其中一个实施例中,通过所述软投票集成模型集成不同分类器的预测结果,得到rnan4-乙酰胞苷修饰位点预测结果,包括:

27、通过所述软投票集成模型确定所有分类器的预测概率;

28、对各个所述预测概率进行加权平均计算,得到加权平均概率的最大值;

29、将所述最大值作为rnan4-乙酰胞苷修饰位点预测结果。

30、一种基于rnaernie预训练模型的rnan4-乙酰胞苷修饰位点预测系统,所述系统包括:

31、数据集采集模块,用于采集rna序列数据集;所述rna序列数据集中包含有阳性和阴性样本;

32、特征编码模块,用于将所述rna序列数据集中的每条rna序列分别输入至rnaernie预训练模型中进行多级掩码,捕捉上下文依赖关系并提取出全局特征;并将所述rnaernie预训练模型结合六种传统特征编码方法对各个所述rna序列进行特征编码,得到编码后的高维特征;

33、特征降维模块,用于从所述编码后的高维特征输入至深度神经网络模型中进行特征降维,得到降维后的特征;

34、结果预测模块,用于将所述降维后的特征输入至软投票集成模型中,通过所述软投票集成模型集成不同分类器的预测结果,得到rnan4-乙酰胞苷修饰位点预测结果;

35、其中,所述软投票集成模型由xgboost、mlp、catboost分类器构建而成。

36、上述基于rnaernie预训练模型的rnan4-乙酰胞苷修饰位点预测方法及系统,通过rnaernie预训练模型进行多级掩码,能够精准捕捉上下文依赖关系并提取全局特征,捕捉到更全面的rna序列信息,结合六种传统特征编码方式可以捕捉到序列的细节和物理化学属性;利用深度神经网络自动进行特征降维,通过自动学习和筛选最具相关性的特征,减少了计算复杂度并保留了关键信息;将降维后的特征输入软投票集成模型,通过集成多个分类器得到最终预测结果,显著提升了预测的准确性和鲁棒性,可以快速、低成本、且提高模型的rnan4-乙酰胞苷修饰位点探测准确率。

本文地址:https://www.jishuxx.com/zhuanli/20250110/352610.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。