一种基于集成学习模型的染色质环识别方法及系统
- 国知局
- 2024-09-14 14:48:13
本发明属于染色质环识别,尤其涉及一种基于集成学习模型的染色质环识别方法及系统。
背景技术:
1、本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
2、hi-c测序技术通常用于捕捉染色体的三维结构,对hi-c数据进行染色质环识别可以促进对基因转录调控的研究。
3、因此,研究人员提出了多种测序技术来探索染色质的特殊结构loop,例如microc、chia-pet、plac-seq、hichip。然而在生物实验室使用测序技术检测染色质loop是费时又费力的。因而多种通过在全基因组图谱上搜索统计学上富集的位点实现的染色质环识别的方法被提出,例如fit-hi-c、hiccups、mango。目前已发布的以数据作为驱动可自动识别loop环交互的方法只有基于机器学习的hi-c锚点和峰值揭示方法——peakachu(unveil hi-canchors and peaks),但是该方法从全基因组图谱上识别染色质loop(染色质环)的准确度仍有一定的提升空间,并且深度学习方法在基于三维基因组数据预测染色质loop的潜在优势还未被挖掘。
技术实现思路
1、为了解决上述背景技术中存在的技术问题,本发明提供一种基于集成学习模型的染色质环识别方法及系统,大幅提高了在hi-c接触图谱上预测染色质loop的效果,并且可以跨细胞系识别出数据集中的染色质loop结构。
2、为了实现上述目的,本发明采用如下技术方案:
3、本发明的第一个方面提供一种基于集成学习模型的染色质环识别方法,其包括:
4、获取hi-c接触矩阵;
5、基于滑动窗口原理,以hi-c接触矩阵中的每个像素为中心设置一个窗口,将窗口内像素的值、窗口内像素的相对秩、以及窗口的中心像素与窗口左下象限的比值,进行拼接,得到一个特征向量;
6、基于特征向量,采用基于bagging的一维卷积神经网络模型,识别出每个像素是否是染色质环;
7、其中,基于bagging的一维卷积神经网络模型集成若干个一维卷积神经网络,且不同的一维卷积神经网络采用独立的子训练集进行训练,所有子训练集利用有放回的随机抽样从整体训练集中抽样获得。
8、进一步地,还包括:筛除窗口的中心像素与窗口左下象限的比值小于阈值的窗口。
9、进一步地,所述一维卷积神经网络包含若干个一维卷积层和一个dense层,且每一个一维卷积层后应用一个relu激活函数。
10、进一步地,在每个一维卷积层之后,使用dropout层,以一定概率随机丢弃网络节点。
11、进一步地,最后一个dropout层的输出,通过一个展平层后,输入dense层。
12、进一步地,所述随机抽样的步骤具体为:对于一个包含m个样本的整体训练集,随机取一个样本到一个子训练集,并放回整体训练集,经过m次随机抽样,得到一个包含m个样本的与整体训练集相同大小的子训练集。
13、进一步地,所述基于bagging的一维卷积神经网络模型,采用投票策略,在所有的一维卷积神经网络的识别结果中,得到最终的识别结果。
14、本发明的第二个方面提供一种基于集成学习模型的染色质环识别系统,其包括:
15、数据获取模块,其被配置为:获取hi-c接触矩阵;
16、预处理模块,其被配置为:基于滑动窗口原理,以hi-c接触矩阵中的每个像素为中心设置一个窗口,将窗口内像素的值、窗口内像素的相对秩、以及窗口的中心像素与窗口左下象限的比值,进行拼接,得到一个特征向量;
17、识别模块,其被配置为:基于特征向量,采用基于bagging的一维卷积神经网络模型,识别出每个像素是否是染色质环;
18、其中,基于bagging的一维卷积神经网络模型集成若干个一维卷积神经网络,且不同的一维卷积神经网络采用不同的子训练集进行训练,所有子训练集利用有放回的随机抽样从整体训练集中抽样获得。
19、本发明的第三个方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的一种基于集成学习模型的染色质环识别方法中的步骤。
20、本发明的第四个方面提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的一种基于集成学习模型的染色质环识别方法中的步骤。
21、与现有技术相比,本发明的有益效果是:
22、本发明提供了一种基于集成学习模型的染色质环识别方法,对生物富集技术得到的染色质loop进行峰值分析发现,以染色质环对应的像素为中心的窗口的p2ll值较高,为了提高染色质loop正例样本的质量,减小用于生物富集实验得到的噪声的影响,本发明筛除p2ll值小于0.1的样本,通过人工筛选提高染色质样本集的质量,将窗口内像素的值、窗口内像素的相对秩、以及窗口的中心像素与窗口左下象限的比值,进行拼接,得到一个特征向量。其中在hi-c接触矩阵上收集以像素为中心的窗口依据了计算机视觉领域的目标检测研究中常用的标签标记工作,使用窗口内的像素值作为窗口中心像素的特征信息,从而实现了在全基因组图谱上检测较小的染色质三维结构单元——染色质环,为了进一步提高模型在hi-c接触矩阵上识别染色质环的能力,其将窗口内像素的相对等级以及p2ll值作为额外特征信息。
23、本发明提供了一种基于集成学习模型的染色质环识别方法,其采用不同的子训练集训练不同的一维卷积神经网络,并且所有子训练集利用有放回的随机抽样从整体训练集中抽样获得,减少了噪声样本对模型的错误扰动,提高了模型对染色质环的识别效果,进一步改善了模型对训练数据集的泛化能力,使得模型不会被单一类型的数据集约束,从而实现跨细胞系的染色质环识别。
24、本发明提供了一种基于集成学习模型的染色质环识别方法,根据不同类型的细胞内染色质loop结构的一致性,其可以依据在某种细胞的数据集中学习的染色质特征信息实现跨细胞系识别出其他细胞类型的数据集中的染色质loop结构。
技术特征:1.一种基于集成学习模型的染色质环识别方法,其特征在于,包括:
2.如权利要求1所述的一种基于集成学习模型的染色质环识别方法,其特征在于,还包括:筛除窗口的中心像素与窗口左下象限的比值小于阈值的窗口。
3.如权利要求1所述的一种基于集成学习模型的染色质环识别方法,其特征在于,所述一维卷积神经网络包含若干个一维卷积层和一个dense层,且每一个一维卷积层后应用一个relu激活函数。
4.如权利要求3所述的一种基于集成学习模型的染色质环识别方法,其特征在于,在每个一维卷积层之后,使用dropout层,以一定概率随机丢弃网络节点。
5.如权利要求4所述的一种基于集成学习模型的染色质环识别方法,其特征在于,最后一个dropout层的输出,通过一个展平层后,输入dense层。
6.如权利要求1所述的一种基于集成学习模型的染色质环识别方法,其特征在于,所述随机抽样的步骤具体为:对于一个包含m个样本的整体训练集,随机取一个样本到一个子训练集,并放回整体训练集,经过m次随机抽样,得到一个包含m个样本的与整体训练集相同大小的子训练集。
7.如权利要求1所述的一种基于集成学习模型的染色质环识别方法,其特征在于,所述基于bagging的一维卷积神经网络模型,采用投票策略,在所有的一维卷积神经网络的识别结果中,得到最终的识别结果。
8.一种基于集成学习模型的染色质环识别系统,其特征在于,包括:
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的一种基于集成学习模型的染色质环识别方法中的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一项所述的一种基于集成学习模型的染色质环识别方法中的步骤。
技术总结本发明涉及染色质环识别技术领域,提供了一种基于集成学习模型的染色质环识别方法及系统,包括:以Hi‑C接触矩阵中的每个像素为中心设置一个窗口,将窗口内像素的值、窗口内像素的相对秩、以及窗口的中心像素与窗口左下象限的比值,进行拼接,得到一个特征向量;基于特征向量,采用基于Bagging的一维卷积神经网络模型,识别出每个像素是否是染色质环;其中,基于Bagging的一维卷积神经网络模型集成若干个一维卷积神经网络,且不同的一维卷积神经网络采用不同的子训练集进行训练,所有子训练集利用有放回的随机抽样从整体训练集中抽样获得。大幅提高了在Hi‑C接触图谱上预测染色质Loop的效果。技术研发人员:吴昊,周冰,董记华受保护的技术使用者:山东大学技术研发日:技术公布日:2024/9/12本文地址:https://www.jishuxx.com/zhuanli/20240914/295980.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。