一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种融合双重分期的lncRNA选择方法与流程

2022-03-02 00:23:20 来源:中国专利 TAG:

一种融合双重分期的lncrna选择方法
技术领域
1.本发明涉及一种生物信息学中的基因选择方法,尤其涉及一种与癌症双重分期关系最密切的lncrna选择方法。


背景技术:

2.长非编码rna是指核苷酸长度大于200的一类非编码rna,在以往研究中都认为是转录过程中产生的噪声,如今被发现参与细胞生命周期的方方面面,包括转录、细胞分化、细胞转运、细胞凋亡、代谢过程等等,不仅如此,lncrna也被发现与人类的各类疾病包括白血病、糖尿病、前列腺癌、肺癌、结肠癌、心血管疾病等等有密切关联。因此,对lncrna的功能进行研究有助于我们理解疾病的作用机制,而预测lncrna与疾病之间的关联能够帮助预防重大疾病的发生。然而,由于lncrna与疾病之间的关系错综复杂,进行lncrna相关的生物实验花费大量的财力物力且耗费时间,使用计算机辅助实验成为当下行之有效的研究方法。现有方法仅能够预测lncrna与疾病是否关联,但是不能给出具体和疾病的哪些方面有关联,关注点仅局限于单一的lncrna预测,忽视了对疾病双重分期数据的关联。


技术实现要素:

3.本发明的目的是提供一种融合双重分期的lncrna选择方法,该方法能够选择出稳定性较好并且与癌症双重分期关联最密切的lncrna,且选择出的最终元素具有较强的可解释性。
4.本发明的目的是通过以下技术方案实现的:
5.一种融合双重分期的lncrna选择方法,包括如下步骤:
6.步骤1、根据用于临床分期预测的lncrna数据矩阵和用于病理分期预测的lncrna数据矩阵,提出一种条件加权方法融合双重分期重要性计算方法,计算用于双重分期预测的lncrna数据矩阵,具体步骤如下:
7.步骤1.1、在数据库中获得的临床数据中,分别获得有效可用的临床分期ct数据和有效可用的病理分期pt数据,将二者取交集后获得双重分期ds数据,设患者样本量为n,第i个患者样本si的双重分期ds由cti和pti构成,得到的双重分期矩阵dsm如下式所示:
[0008][0009]
步骤1.2、将用于临床分期预测的lncrna数据矩阵m
ctp
和用于病理分期预测的lncrna数据矩阵m
lc
,取交集后关联双重分期矩阵dsm,最终获得的用于双重分期预测的lncrna数据矩阵m
ds
如下式所示:
[0010][0011]
式中,m为lncrna转录本的个数;n为双重分期的有效数据个数;lr=lr1,...,lrm;cti和pti分别是第i个患者样本si的临床分期和病理分期;
[0012]
步骤1.3、提出一种条件加权方法融合临床分期决策属性和病理分期决策属性来计算lri的双重分期重要性,双重分期重要性计算算法如下式所示:
[0013][0014]
式中,wei为截断阈值;决策属性仅保留ct的m
ds
记为ct-m
ds
,在ct-m
ds
上计算临床分期重要性ct-significance(lri);决策属性仅保留pt的m
ds
记为pt-m
ds
,在pt-m
ds
上计算病理分期重要性pt-significance(lri);
[0015]
步骤2、调用变长动态桶vldb生成算法生成变长动态桶,输出桶的个数,具体步骤如下:
[0016]
步骤2.1、初始化阶段:按照d-significance(lri)将lri构建成一个线性降序队列用线性降序队列q
linear
的容量对桶基bas初始化,变长动态桶初始化为空;
[0017]
步骤2.2、计算桶基bas和子桶的个数n;
[0018]
步骤2.3、变长动态桶vldb生成阶段:根据桶基bas和子桶的个数n生成变长动态桶vldb,最后输出变长动态桶vldb和子桶个数n;
[0019]
步骤3、提出用于双重分期核变量选择的反向桶间频移方法,具体步骤如下:
[0020]
反向桶间频移ifsb(vldb,fre)以变长动态桶vldb的最后一个子桶bn为始点,按{fsb(bn,b
n-1
),fsb(b
n-1
,b
n-2
),

,fsb(b
i-1
,b
i-2
),

,fsb(b2,b1)}顺序反向向前执行桶间频移操作,其中fsb(b
i-1
,b
i-2
)表示子桶b
i-1
和子桶b
i-2
的桶间频移操作,装入子桶bi中的数据为fsb(b
i-1
,b
i-2
)的第一个参数为频移的固定端,第二个参数为频移的移动端,移动端根据频距spans在固定端上完成fre次频移操作,频距spans和频移次数fre的关系如下式所示:
[0021][0022][0023]
式中,capacity(bi)表示第i个子桶的容量;
[0024]
其中,移动端与固定端左对齐记做1次原地频移,然后移动端根据频距向右连续频移fre-1次,其中,移动端的第j次频移记为b
i-2,j

[0025]
步骤4、针对反向桶间频移方法中的移动端,使用移动端频移更新算法,选择出稳定性较好并且与癌症双重分期关联最密切的lncrna,具体步骤如下:
[0026]
步骤4.1、初始化及双重分期重要性计算:移动端bm每一次频移b
m,j
和它的桶间频移映射构成了集合调用dssca计算调用dssca计算的双重分期重要性,并获得其降序序列
[0027]
其中频移桶间映射)为邻两个桶b
i-1
和b
i-2
执行反向桶间频移操作过程中b
i-2
的第j次频移为b
i-2,j
,将b
i-2,j
的始点和终点垂直映射到b
i-1
上,得到了和则b
i-1
和b
i-2
频移桶间映射定义为
[0028]
步骤4.2、将最稳定元素加入中:如果bm中的某个元素同时在fre个的前capacity(bm)个序列中,说明该元素的稳定性最好将其加入中;
[0029]
步骤4.3、建立候选池用于辅助填补将所有在fre个之一中但不在bm中的元素加入
[0030]
步骤4.4、构建候选池的重要性降序序列对于中的任意元素,将其在fre个中的不为空的重要性排名均值作为它在的重要性排名rank
pool
(lri),根据rank
pool
(lri)对进行降序排列,从而获得
[0031]
步骤4.5、填补取中前fill个元素加入中,按元素的双重分期重要性进行降序排列,从而获得具有capacity(bm)个元素的完成对bm的更新,最终选择出稳定性较好并且与癌症双重分期关联最密切的lncrna。
[0032]
相比于现有技术,本发明具有如下优点:
[0033]
本发明考虑到癌症病人的临床分期与病理分期有着密切的制约关系,引入双重分期数据,将双重分期数据作为决策属性;提出双重分期重要性计算方法和反向桶间频移两个新方法,同时给出了与这两个新方法相关的双重分期重要性和变长动态桶两个重要的概念,其中反向桶间频移方法从从属区域逆向到主要区域,全面动态更新,该全面动态更新策略避免了不完全覆盖的可能,消除了不完全覆盖带来的弊端,保留了稳定性较好的元素,而将稳定性差风险较大的元素剔除,用活性较高的元素替换被剔除的元素,这样提高了全局优化能力。
附图说明
[0034]
图1为融合双重分期的lncrna选择方法的流程图;
[0035]
图2为线性降序队列q
linear
中480个元素的箱形图;
[0036]
图3为vldb的4个子桶数据分布的箱形图;
[0037]
图4为vldb的4个子桶数据分布的调和曲线图;
[0038]
图5为fsua-me中更新端置换率对比图;
[0039]
图6为子桶更新中填补元素的分布情况。
具体实施方式
[0040]
下面结合附图对本发明的技术方案作进一步说明,但并不局限于此,凡是对本发明技术方案进行修改或者等同替换而不脱离本发明技术方案的精神和范围,均应涵盖在本发明的保护范围中。
[0041]
本发明提供了一种融合双重分期的lncrna选择方法,核心理论是反向桶间频移方法,它由双重分期、变长动态桶、反向桶间频移以及频移桶间映射为基础,最终选择出稳定性较好并且与癌症双重分期关联最密切的lncrna。如图1所示,所述方法包括如下步骤:
[0042]
步骤1、根据用于临床分期预测的lncrna数据矩阵和用于病理分期预测的lncrna数据矩阵,提出一种条件加权方法融合双重分期重要性计算方法,计算用于双重分期预测的lncrna数据矩阵,包括如下步骤:
[0043]
步骤1.1、在数据库中获得的临床数据中,分别获得有效可用的临床分期ct数据和有效可用的病理分期pt数据,将二者取交集后获得双重分期ds数据,设患者样本量为n,其中第i个患者样本si的双重分期ds由cti和pti构成,得到的双重分期矩阵dsm如公式(1)所示:
[0044][0045]
步骤1.2、将用于临床分期预测的lncrna数据矩阵m
ctp
和用于病理分期预测的lncrna数据矩阵m
lc
,取交集后关联双重分期矩阵dsm,最终获得的用于双重分期预测的lncrna数据矩阵m
ds
如公式(2)所示:
[0046][0047]
式中,m为lncrna转录本的个数;n为双重分期的有效数据个数;lr=lr1,...,lrm;cti和pti分别是第i个患者样本si的临床分期和病理分期;
[0048]
步骤1.3、提出一种条件加权方法融合临床分期决策属性和病理分期决策属性来计算lri的双重分期重要性,双重分期重要性计算算法(dssca)如公式(3)所示:
[0049][0050]
式中,wei为截断阈值;决策属性仅保留ct的m
ds
记为ct-m
ds
,在ct-m
ds
上计算临床分期重要性ct-significance(lri);决策属性仅保留pt的m
ds
记为pt-m
ds
,在pt-m
ds
上计算病理分期重要性pt-significance(lri)。
[0051]
步骤2、调用变长动态桶vldb生成算法(generating algorithm of variable-length dynamic buckets,vldb-ga)生成变长动态桶,输出桶的个数,包括如下步骤:
[0052]
步骤2.1、初始化阶段:按照d-significance(lri)将lri构建成一个线性降序队列用线性降序队列q
linear
的容量对桶基bas初始化,变长动态桶初始化为空;
[0053]
步骤2.2、计算桶基bas和子桶的个数n,其中桶基bas是根据截断阈值tru-t而获得,根据桶基bas可以计算出子桶的个数n;
[0054]
步骤2.3、变长动态桶vldb生成阶段:根据桶基bas和子桶的个数n生成变长动态桶vldb,最后输出变长动态桶vldb和子桶个数n。
[0055]
假设vldb由n个子桶{b1,b2,

,bn}构成,桶基bas和capacity(bi)的计算和关系如公式(4)所示:
[0056][0057]
式中,capacity(q
linear
)表示线性降序队列的容量(即vldb的容量);capacity(bi)表示第i个子桶的容量。
[0058]
vldb的变长为均速递增阶梯增长,相邻两个桶满足capacity(bi)=2
×
capacity(b
i-1
)和两个条件。
[0059]
步骤3、提出用于双重分期核变量选择的反向桶间频移方法,包括如下步骤:
[0060]
反向桶间频移ifsb(vldb,fre)以变长动态桶vldb的最后一个子桶bn为始点,按{fsb(bn,b
n-1
),fsb(b
n-1
,b
n-2
),

,fsb(b
i-1
,b
i-2
),

,fsb(b2,b1)}顺序反向向前执行桶间频移操作,其中fsb(b
i-1
,b
i-2
)表示子桶b
i-1
和子桶b
i-2
的桶间频移操作,装入子桶bi中的数据为fsb(b
i-1
,b
i-2
)的第一个参数为频移的固定端,第二个参数为频移的移动端,移动端根据频距spans在固定端上完成fre次频移操作,频距spans和频移次数fre的关系如公式(5)所示:
[0061][0062][0063]
其中capacity(bi)表示第i个子桶的容量。
[0064]
其中,移动端与固定端左对齐记做1次原地频移,然后移动端根据频距向右连续频移fre-1次,其中,移动端的第j次频移记为b
i-2,j

[0065]
步骤4、针对反向桶间频移方法中的移动端,提出一种移动端频移更新算法,最终选择出稳定性较好并且与癌症双重分期关联最密切的lncrna。
[0066]
移动端频移更新算法(frequency shift update algorithm on mobile end,fsua-me):执行fsb(bf,bm)一次操作中,移动端bm共经历了fre次频移,结合fre次频移执行fsua-me,移动端bm被更新为其中候选池用于辅助填补用于辅助填补为计算暂存区,最终按元素的双重分期重要性构建降序序列(即为)。fsua-me
算法的执行过程共分为以下5个阶段:
[0067]
第一阶段、初始化及双重分期重要性计算。移动端bm每一次频移b
m,j
和它的桶间频移映射构成了集合调用dssca计算调用dssca计算的双重分期重要性,并获得其降序序列
[0068]
其中频移桶间映射)为邻两个桶b
i-1
和b
i-2
执行反向桶间频移操作过程中b
i-2
的第j次频移为b
i-2,j
,将b
i-2,j
的始点和终点垂直映射到b
i-1
上,得到了和则b
i-1
和b
i-2
频移桶间映射定义为
[0069]
第二阶段、将最稳定元素加入中。如果bm中的某个元素同时在fre个的前capacity(bm)个序列中,说明该元素的稳定性最好将其加入中。
[0070]
第三阶段、建立候选池用于辅助填补经过第二阶段后,中可能不足capacity(bm)个元素,因此建立候选池用于辅助填补具体操作是将所有在fre个之一中但不在bm中的元素加入
[0071]
第四阶段、构建候选池的重要性降序序列对于中的任意元素,将其在fre个中的不为空的重要性排名均值作为它在的重要性排名rank
pool
(lri),根据rank
pool
(lri)对进行降序排列,从而获得
[0072]
第五阶段、填补第二阶段中还差fill个元素才满capacity(bm)个,取中前fill个元素加入中,按元素的双重分期重要性进行降序排列,从而获得具有capacity(bm)个元素的完成了对bm的更新,最终选择出稳定性较好并且与癌症双重分期关联最密切的lncrna。
[0073]
实施例:
[0074]
(1)在lncrnator数据库中获得了480个前列腺癌患者lncrna转录本,双重分期ds数据是在tcga数据库中获得前列腺癌患者的临床数据,共获得了118个有效的临床分期ct数据和174个有效的病理分期pt数据。将用于临床分期预测的lncrna数据矩阵m
ctp
(包含104个临床分期可用数据)和用于病理分期预测的lncrna数据矩阵m
lc
(包含170个病理分期可用数据)取交集后关联双重分期矩阵dsm(包含101个双重分期可用数据),最终获得了用于双重分期预测的lncrna数据矩阵m
ds

[0075]
(2)使用dssca算法(其中wei设为0.6)分别计算m
ds
中480个lri的重要性d-significance(lri),按照d-significance(lri)将lri构建成一个线性降序队列
线性降序队列q
linear
中的480个元素,接下来vldb-ga算法需要根据截断阈值tru-t将q
linear
装入vldb中,截断阈值tru-t将决定vldb中包含的子桶数。为了展现线性降序队列q
linear
中的480个元素的统计分布情况,绘制箱形图(如图2所示)。
[0076]
由图2可知该箱形图的上界为0.4173,下界为0,整体数据集中分布在0.4173和0之间,有少数大于0.4173的离群点集,同时这些离群点集的双重分期重要性整体较高,这个符合我们在大范围内选取少量最优的思想(优中选优),因此选择该箱形图的上界0.4173对应的元素排名28为截断阈值tru-t。借助统计学中的箱线图技术,采用逆向思维,将离群点作为主要区域看待,按照箱线图的界限自适应地选择参数值,根据截断阈值tru-t(0.4173)得到了包含4个子桶{b1,b2,b3,b4}的vldb。分别做4个子桶的箱形图(如图3所示),vldb及4个子桶箱形图的5个统计量详情见表1所示。
[0077]
表1 vldb及子桶箱形图的5个统计量
[0078][0079]
由图3和表2可知,在根据选取的截断阈值tru-t(0.4173)所生成的4个子桶{b1,b2,b3,b4}的箱形图中,没有异常值,形态上也不存在尾重和偏态,这都说明4个子桶{b1,b2,b3,b4}具有较好统计分布。
[0080]
(3)为了进一步考察截断阈值tru-t(0.4173)的性能,又做了4个子桶{b1,b2,b3,b4}的调和曲线(如图4所示)。
[0081]
由图4可见同一桶内的数据的曲线靠近拧在一起,不同子桶的曲线拧成不同的线,黑色曲线拧成的是子桶b1,红色曲线拧成的是子桶b2,绿色曲线拧成的是子桶b3,蓝色曲线拧成的是子桶b4,这表明4个子桶{b1,b2,b3,b4}各自内部数据分布和特性较为集中。
[0082]
(4)针对上面生成的变长动态桶vldb中的4个子桶{b1,b2,b3,b4},采用反向桶间频移策略循环执行fsua-me,实验中共循环执行了3次fsua-me,它们是fsb(b4,b3)、fsb(b3,b2)和fsb(b2,b1),并完成3个移动端(b1、b2和b3)的更新,在实验中参数频移次数fre由公式(5)计算可知,每次执行fsua-me中fre均为3。在对移动端(b1、b2和b3)的更新过程中,待更新的移动端首先考虑到把最稳定的元素保留下来,将有风险的元素剔除,剔除的元素由缓冲池的元素填补,为了增加整体的多样性固定端活性较高的元素将被入选放入缓冲池中。表2给出了fsua-me运行中的各项信息,包括3次频移操作,每次频移的固定端、移动端和更新端,列出关于fsua-me的核心部分关于更新的各项数据信息。
[0083]
由表2和图5中的实验结果可知fsua-me中有将近50%的数据被替换填补,应用fsua-me前后数据的差别明显,这说明fsua-me的更新操作有较强的效应。
[0084]
表2 fsua-me运行信息表
[0085][0086]
(5)为了印证这种更新的效应是正向的(即为了找到与癌症关联最密切的lncrna),实验继续描述了用于置换填补元素的重要性排名分布(如图6所示),用于置换填补元素的重要性排名分布可以衡量更新的效应。图6中的子图(a)图描述了在fsb(b4,b3)中用于置换填补的59个元素的分布,子图(b)图描述了在fsb(b3,b2)中用于置换填补的31个元素的分布,子图(c)图描述了在fsb(b2,b1)中用于置换填补的21个元素的分布,可见59个元素在10到110之间都有分布,31个元素在10到50之间都有分布,21个元素在2到30之间都有分布,这说明置换填补的元素不仅仅是在边缘的较低排名的元素,而是从高到低都有分布,尤其是有大部分对于较高排名置换填补元素,这说明活性更高的元素被保留下来,这对获得全局最优而避免出现局部最优的弊端是很有利的。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献