技术新讯 > 医药医疗技术的改进,医疗器械制造及应用技术 > 一种基于多尺度卷积网络和gMLP预测玉米染色质开放区的方法  >  正文

一种基于多尺度卷积网络和gMLP预测玉米染色质开放区的方法

  • 国知局
  • 2024-10-15 09:36:11

本发明涉及生物信息,尤其涉及一种基于多尺度卷积网络和gmlp预测玉米染色质开放区的方法。

背景技术:

1、玉米作为世界上最重要的粮食作物之一,其产量和品质对于全球粮食安全具有重大意义。然而,玉米的遗传机制复杂,许多与产量、品质、抗逆性等关键性状相关的基因调控机制尚未被完全揭示。染色质开放区作为基因表达调控的重要部分,其准确预测对于理解玉米的遗传机制以及田间育种具有重要意义。染色质开放区是指染色质中相对松散、易于转录因子结合的区域,这些区域通常与基因的表达水平相关联。准确识别玉米染色质开放区有助于理解基因表达调控的分子机制,进而为解析玉米复杂性状的遗传基础提供理论依据。

2、近年来,深度学习在生物信息学领域得到广泛应用,其强大的特征学习和表示能力为复杂生物数据的处理和分析提供了新的手段。深度学习模型能够从大量数据中自动学习特征,并通过多层次的非线性变换挖掘数据中的深层信息。因此,将深度学习应用于玉米染色质开放区的预测,有望提高预测的准确性和效率,进而便于分析玉米不同组织和品种间的保守性和特异性。

3、然而,目前基于深度学习的玉米染色质开放区预测方法仍处于起步阶段,尚未形成完善的技术体系。现有的方法一方面基于传统的机器学习算法,如支持向量机、随机森林等,这些方法在特征提取和模型构建上存在一定的局限性,导致序列信息挖掘不全面。另一方面,现有方法利用的深度学习算法较为简单,例如charplant,basset,smoc等,这些方法不能较好地综合序列信息,进而影响预测准确性。因此,开发具有较高准确率的玉米染色质开放区预测方法具有重要的研究意义。

技术实现思路

1、本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种基于多尺度卷积网络和gmlp预测玉米染色质开放区的方法。

2、本发明解决其技术问题所采用的技术方案是:

3、本发明提供一种基于多尺度卷积网络和gmlp预测玉米染色质开放区的方法,通过该方法构建deepocr模型,包括输入层、多尺度卷积网络层、gmlp层以及输出层;该方法具体包括以下步骤:

4、步骤1,输入层中,获取玉米染色质的atac-seq数据,采用one-hot编码方式对atac-seq数据进行处理,得到矩阵后输入多尺度卷积网络层;

5、步骤2,利用多尺度卷积网络层中不同大小的卷积核关注并融合多尺度特征和捕获不同长度的重要基序,并利用softpool去除大量冗余信息的同时减少信息损失;将多尺度卷积网络层的输出作为gmlp层的输入;

6、步骤3,gmlp层将多尺度卷积网络层的输出作为其输入,用于捕获跨token的复杂空间交互信息,从而得到序列中特征间的长距离依赖关系;gmlp层包括层归一化、三层gmlpblocks和类残差结构;

7、步骤4,将gmlp层的输出特征为输出层的输入,然后通过一次layernormalization和两层全连接层可以学习到gmlp特征的复杂组合,增强模型的表达能力,实现对玉米染色质开放区特征的分类;

8、步骤5,利用衡量目标标签值和预测的概率值之间差异的二进制交叉熵损失函数bceloss计算网络损失,并利用优化的梯度算法adamw更新参数,其将权重衰减项直接添加到损失函数中,确保在自适应学习率更新过程中更加准确地调整参数。

9、进一步地,本发明的所述步骤1中的方法包括:

10、将测序得到的玉米染色质开放区域数据进行数据划分等处理,并以1000bp的序列长度作为模型的输入;然后对序列进行one-hot encoding,将碱基a转换为[1,0,0,0],将碱基t转换为[0,1,0,0],将碱基c转换为[0,0,1,0],将碱基g转换为[0,0,0,1],进而得到1000*4的one-hot encoded矩阵,将该矩阵输入到多尺度卷积层进行下一步处理。

11、进一步地,本发明的所述步骤2中的方法包括:

12、多尺度卷积网络层包括:多个不同大小的卷积核、激活函数、softpool、batchnormalization和dropout;其中:各个不同大小的卷积核分别连接一个激活函数和一个softpool;然后多个softpool的输出端相加融合后依次连接至batch normalization和dropout;多尺度卷积网络层中的卷积运算通过卷积核提取关键数据特征,实现局部感知与降维功能。

13、进一步地,本发明的所述步骤2中的方法包括:

14、卷积操作的具体实现如下所示:

15、conv(x)i,j=∑m∑nx(m*s,n*s)*wk(i-m,j-n)

16、其中,i,j是输出位置索引,k是核索引,m和n是卷积核中的索引变量;卷积核以步长s在特征图上进行滑动,在每个位置(i,j),通过对特征图和卷积核逐元素相乘,然后对所有乘积求和,从而输出特征图中该位置上的值;为了能够同时感知和提取不同尺度的特征,使用不同尺度的卷积核实现多尺度卷积;

17、激活函数relu用于学习特征之间的非线性关系,表达式如下所示:

18、relu(x)=max(0,x)

19、基于softmax函数,softpool通过突出影响大的激活值而非直接选择最大值或平均值,使输出服从一定的概率分布;softpool的表达式如下所示:

20、

21、其中,i是原始特征图位置索引,j是池化权值索引;输入序列分别经过不同尺度的卷积、relu和softpool操作之后,对其进行相加以融合提取出的重要特征;

22、为了提高训练速度和模型的稳定性,在多尺度卷积层中间加入批量归一化操作batch normalization,其表达式如下所示:

23、

24、其中,μ,σ2是全局均值和方差,γ和β是可学习的参数,用于特征缩放和平移操作,ε是一个小常数,用于稳定数值,避免出现除以零的情况;

25、dropout操作以概率p将部分神经网络单元的激活值变为0,即不更新权重,以减少中间特征的数量,从而增加每层各个特征之间的正交性,防止过拟合。

26、进一步地,本发明的所述步骤3中的gmlpblocks包含一个微型attention模块,用于捕获特征间长距离依赖关系;将gmlpblocks的输出与gmlp层的输入合并,作为gmlp层的输出,进而实现了维持网络性能的残差结构。

27、进一步地,本发明的所述步骤3中的方法包括:

28、gmlp层包括若干个大小和结构相同的blocks,基于带门控的mlps;在空间而非通道维度上,gmlp层捕获跨token的复杂空间交互信息;对模块输入x进行patches embedding操作,整个gmlp层的表达式如下所示:

29、y=norm(x)

30、y=gmlpblocks(y)

31、z=y+x

32、其中,norm指layer normalization;

33、为了增强网络的学习效果,共使用3层gmlpblocks;blocks中具有一个微型attention模块,用于捕获特征间的长距离依赖关系;attention机制的表达式如下所示:

34、

35、通过对输入序列进行线性变换得到查询向量query,键向量key,值向量value;sij用于计算q,k间的相似度,进而计算每个注意力权重,然后与v进行加权求和;

36、与attention并行的部分,称之为proj_in,由全连接层和激活函数gelu实现,用于对输入进行通道投影映射操作;gelu在激活中引入了随机正则,是一种对神经元输入的概率描述,认为是dropout,zoneout和relu的综合功能实现;gelu表达式如下所示:

37、gelu(x)=xp(x<=x)=xφ(x)

38、其中,φ(x)是正态分布的概率函数,采用标准正态分布n(0,1);

39、将结果输入到gmlp层的核心spatial gating unit,spatial gating unit只在空间维度上进行操作,而不进行位置嵌入,从而捕获空间维度特征的交互;其表达式如下所示:

40、o=x1⊙(w(x2+x3)+b)

41、其中,x1,x2是proj_in在通道维度上的分离结果,x3是attention模块的结果,w为空间投影矩阵,b表示特定的token偏差,⊙表示element-wise multiplication;最后对spatial gating unit的结果进行一次通道维度的映射,得到gmlpblock的输出;

42、最后,将gmlpblocks的输出与gmlp的输入合并,作为gmlp的输出。

43、进一步地,本发明的所述步骤4中的方法包括:

44、gmlp层的输出特征z为输出层的输入,然后通过一次layer normalization和两层全连接层可以学习到gmlp特征的复杂组合,增强模型的表达能力,具体实现如下所示:

45、z′=norm(w1*reduce_dim(z)+b1)

46、output=sigmoid(relu(w2*z′+b2))

47、其中,全连接层中w1和w2为可训练的权重矩阵,b1和b2为可训练的偏置向量;

48、最后,使用激活函数sigmoid获得染色质开放区特征的概率,取值范围位于0到1之间;具体实现下所示:

49、

50、进一步地,本发明的所述步骤5中的方法包括:

51、在求网络损失时,使用衡量目标标签值和预测的概率值之间差异的二进制交叉熵损失函数bceloss,如下所示:

52、bceloss=-w*[p*log(q)+(1-p)*log(1-q)]

53、其中,p为理论标签,取0或1;q为模型输出预测值,取值范围为[0,1],w为权重;对于每个样本,当p为1时,损失值仅为w*log(q),当p为0时,损失值为w*log(1-q);最终的损失值由上述两种情况对应的损失值求和取反得到;

54、利用优化的梯度算法adamw更新参数,其将权重衰减项直接添加到损失函数中,以确保在自适应学习率更新过程中能更加准确地调整参数,具体表达式如下所示:

55、l2_regularization=weigt_decay*w

56、w=w-lr*(m/(sqrt(v)+eps)+l2_regularization)

57、其中,weight_decay是权重衰减系数,lr是学习率,m是梯度的一阶矩估计,v是梯度的二阶矩估计;eps是一个小的常数,用于增加数值稳定性。

58、本发明提供一种基于多尺度卷积网络和gmlp预测玉米染色质开放区的系统,该系统中构建了deepocr模型,包括数据输入模块、多尺度卷积网络模块、gmlp模块以及数据输出模块;具体包括:

59、数据输入模块,用于获取玉米染色质的atac-seq数据,采用one-hot编码方式对atac-seq数据进行处理,得到矩阵后输入多尺度卷积网络层;

60、多尺度卷积网络模块,用于利用多尺度卷积网络层中不同大小的卷积核关注并融合多尺度特征和捕获不同长度的重要基序,并利用softpool去除大量冗余信息的同时减少信息损失;将多尺度卷积网络层的输出作为gmlp层的输入;

61、gmlp模块,用于将多尺度卷积网络层的输出作为其输入,捕获跨token的复杂空间交互信息,从而得到序列中特征间的长距离依赖关系;gmlp模块包括层归一化、三层gmlpblocks和类残差结构;

62、数据输出模块,用于将gmlp层输出特征为数据输出模块的输入,然后通过一次layer normalization和两层全连接层可以学习到gmlp特征的复杂组合,增强模型的表达能力,实现对玉米染色质开放区特征的分类;

63、模型参数更新模块,用于利用衡量目标标签值和预测的概率值之间差异的二进制交叉熵损失函数bceloss计算网络损失,并利用优化的梯度算法adamw更新参数,其将权重衰减项直接添加到损失函数中,确保在自适应学习率更新过程中更加准确地调整参数。

64、进一步地,本发明的所述多尺度卷积网络模块包括:多个不同大小的卷积核、激活函数、softpool、batch normalization和dropout;其中:各个不同大小的卷积核分别连接一个激活函数和一个softpool;然后多个softpool的输出端相加融合后依次连接至batchnormalization和dropout。

65、本发明产生的有益效果是:

66、本发明给出了一种融合多尺度卷积和gmlp的深度学习方法,用于学习玉米dna序列的特征以实现对玉米染色质开放区的预测。本发明提供的技术方案如图1所示。

67、本发明首先对处理后的atac-seq数据进行one-hot编码。然后使用多尺度卷积网络通过不同大小的卷积核提取并融合序列的局部特征。其中,利用softpool减少特征图中的信息损失,使用batch normalization和dropout防止过拟合现象发生。同时,长度为8和13的卷积核能够捕获长度不同的重要基序。然后使用基于空间投影实现门控机制的gmlp捕获特征间的全局依赖关系,其中的attention机制有助于增强门控能力。最后利用全连接层和sigmoid函数实现对玉米染色质开放区域的预测。

68、本发明提出了基于多尺度卷积网络和gmlp预测玉米染色质开放区的方法deepocr。玉米b73品种共包含ear,leaf,flower,root,tassel五个组织。与现有模型相比,deepocr分别在五个组织以及整体上的av_auroc和av_aupr值表现最优。同时,deepocr的auroc的标准差最低,说明deepocr在玉米染色质开放区预测方面具有更高的准确性和更强的稳定性。此外,利用每个组织训练好的模型预测其他四个组织对应的开放区,发现利用flower组织的模型预测其他四个组织开放区的准确性最高,其中在tassel组织中表现最为显著。对于ear组织,leaf和root对应的模型预测结果较为相近。对于leaf组织,root和tassel对应的模型预测结果相近。ear和leaf对应的模型在其他三个组织中的表现都不如其他模型,这为玉米b73组织间的保守性和特异性提供了参考。进一步地,利用deepocr探究了不同品种间的亲缘性和遗传多样性,以及不同物种同一组织间的相似性和差异性。

本文地址:https://www.jishuxx.com/zhuanli/20241015/314674.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。