技术新讯 > 医药医疗技术的改进,医疗器械制造及应用技术 > 一种基于改进Transformer和SE-TextCNN的RNA亚细胞定位预测方法  >  正文

一种基于改进Transformer和SE-TextCNN的RNA亚细胞定位预测方法

  • 国知局
  • 2024-10-15 09:31:38

本发明涉及rna亚细胞定位,尤其涉及一种基于改进transformer和se-textcnn的rna亚细胞定位预测方法。

背景技术:

1、rna分子的亚细胞定位是指rna分子在细胞内的具体位置分布。rna分子作为基因表达的重要调控因子,在细胞内的定位对于基因表达的调控和细胞的正常功能至关重要。rna根据其功能和结构可分为不同种类的rna类型,其中mrna和lncrna是两种重要的rna。mrna在细胞质中的核糖体上被翻译成蛋白质,这些蛋白质是细胞结构和功能的关键组成部分,参与细胞的几乎所有生化过程。lncrna则在细胞核中聚集,与染色质互动,调节基因表达,参与细胞周期、分化、代谢和疾病发展。对mrna和lncrna等其他类型的rna亚细胞定位对细胞命运和性质具有决定性影响。目前,多种基于实验的定位方法已被应用于研究rna的亚细胞定位,但是这些基于实验的方法通常耗时较久且受实验条件影响干扰较大,定位准确性较差。

技术实现思路

1、针对现有技术中所存在的不足,本发明提供了一种基于改进transformer和se-textcnn的rna亚细胞定位预测方法,其解决了目前的基于实验的rna亚细胞定位方法通常耗时较久且受实验条件影响干扰较大,定位准确性较差的问题。

2、本发明的上述技术目的是通过以下技术方案得以实现的:

3、一种基于改进transformer和se-textcnn的rna亚细胞定位预测方法,包括以下部分:

4、建立lncrna和mrna数据集,对lncrna和mrna数据集进行预处理,筛选并清洗数据;

5、进行特征提取,并分别输入到神经网络的各个位置;特征包括one-hot编码、eiip编码、ncp编码、位置编码及rna-fm编码,可综合序列物理化学属性和rna-fm模型通过自监督学习得到深层次特征;

6、训练网络框架,采用二路并行策略分别对rna-fm输出的特征以及基础序列特征进行训练,依次经过lightning attention transformer模块、textcnn-senet模块和mlp模块输出预测结果。

7、进一步地,所述lncrna数据集包括lncatlas、cefra-seq和apex-seq,所述mrna数据集的数据源自cefra-seq和apex-seq;通过采取多种过滤策略,以从rna数据集中准确筛选出定位于细胞核或细胞质的rna。

8、进一步地,对lncrna和mrna数据集进行预处理时,设定lncrna统一长度为3000个核苷酸,mrna统一长度为6000个核苷酸。

9、进一步地,在特征提取阶段,采用预训练模型rna-fm对rna序列进行编码,以提取丰富的隐含信息;基础序列编码模块表示使用onehot、eiip和ncp三种编码方式来对rna序列进行编码。

10、进一步地,在textcnn-senet模块中,在textcnn模块的卷积层和最大池化层之间插入了senet模块,以自适应地调整特征通道的权重,从而进一步捕捉重要的特征信息。

11、进一步地,lightning attention transformer模块采用lightning attention-2来有效处理长序列数据,此架构针对于rna亚细胞定位的预测任务,通过编码器层的堆叠以捕捉序列的特性。

12、进一步地,所述se-textcnn为在textcnn中集成senet以增强模型的特征提取和表示能力。

13、本发明具有以下有益效果:

14、本发明提供了一种基于改进transformer架构的深度学习模型——latnet,本发明的方法对lncrna和mrna数据集进行预处理,运用多种过滤策略筛选并清洗数据,保证了输入数据的质量。并且采用了one-hot编码、eiip编码、ncp编码、位置编码及rna-fm五种编码,可综合序列物理化学属性和rna-fm模型通过自监督学习得到深层次特征。在训练网络框架上,设计了一种双路并行结构,一路采用基于rna-fm模型提取特征,另一路处理基础序列特征;并通过改进注意力机制的tramsformer和se-textcnn结构相结合,有效增强了对长序列的处理能力和对关键特征的识别,有效提高了rna亚细胞定位的预测精度。latnet在lncrna和mrna数据集上的表现超越了多个现有的预测方法,特别是在accuracy、mcc和f1-score等评价指标上取得了显著提升。此外,模型在snorna、snrna、circrna和cirna等其他类型的rna数据集上也展现了鲁棒的泛化性能。此外,本申请进一步分析了latnet模型的关键特征,揭示了对rna亚细胞定位具有重要影响的核苷酸组合。这一发现不仅为理解rna的功能和调控机制提供了新的视角,也为未来的生物学研究和应用提供了宝贵的信息。

技术特征:

1.一种基于改进transformer和se-textcnn的rna亚细胞定位预测方法,其特征在于:包括以下部分:

2.根据权利要求1所述的一种基于改进transformer和se-textcnn的rna亚细胞定位预测方法,其特征在于:所述lncrna数据集包括lncatlas、cefra-seq和apex-seq,所述mrna数据集的数据源自cefra-seq和apex-seq;通过采取多种过滤策略,以从rna数据集中准确筛选出定位于细胞核或细胞质的rna。

3.根据权利要求1所述的一种基于改进transformer和se-textcnn的rna亚细胞定位预测方法,其特征在于:对lncrna和mrna数据集进行预处理时,设定lncrna统一长度为3000个核苷酸,mrna统一长度为6000个核苷酸。

4.根据权利要求1所述的一种基于改进transformer和se-textcnn的rna亚细胞定位预测方法,其特征在于:在特征提取阶段,采用预训练模型rna-fm对rna序列进行编码,以提取丰富的隐含信息;基础序列编码模块表示使用onehot、eiip和ncp三种编码方式来对rna序列进行编码。

5.根据权利要求1所述的一种基于改进transformer和se-textcnn的rna亚细胞定位预测方法,其特征在于:在textcnn-senet模块中,在textcnn模块的卷积层和最大池化层之间插入了senet模块,以自适应地调整特征通道的权重,从而进一步捕捉重要的特征信息。

6.根据权利要求1所述的一种基于改进transformer和se-textcnn的rna亚细胞定位预测方法,其特征在于:lightning attention transformer模块采用lightning attention-2来有效处理长序列数据,此架构针对于rna亚细胞定位的预测任务,通过编码器层的堆叠以捕捉序列的特性。

7.根据权利要求1所述的一种基于改进transformer和se-textcnn的rna亚细胞定位预测方法,其特征在于:所述se-textcnn为在textcnn中集成senet以增强模型的特征提取和表示能力。

技术总结本发明提供了一种基于改进Transformer和SE‑TextCNN的RNA亚细胞定位预测方法,包括以下部分:建立LncRNA和mRNA数据集,对LncRNA和mRNA数据集进行预处理,筛选并清洗数据;进行特征提取,并分别输入到神经网络的各个位置;特征包括One‑hot编码、EIIP编码、NCP编码、位置编码及RNA‑FM编码,可综合序列物理化学属性和RNA‑FM模型通过自监督学习得到深层次特征;训练网络框架,采用二路并行策略分别对RNA‑FM输出的特征以及基础序列特征进行训练,依次经过Lightning Attention Transformer模块、TextCNN‑SEnet模块和MLP模块输出预测结果。本发明有效增强了对长序列的处理能力和对关键特征的识别,有效提高了RNA亚细胞定位的预测精度,且本发明的模型可应用于其他RNA类型的数据集,也展现了鲁棒的预测性能。技术研发人员:李重,王凯受保护的技术使用者:湖州师范学院技术研发日:技术公布日:2024/10/10

本文地址:https://www.jishuxx.com/zhuanli/20241015/314447.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。