满足GC平衡且可纠正突发性插删错误的低冗余DNA编码方法及系统
- 国知局
- 2024-09-05 14:29:31
本发明属于数据存储领域中的dna存储,尤其涉及一种可纠正突发性插删错误且满足gc平衡的低冗余dna编码方法。
背景技术:
1、近年来,dna存储技术由于其具有存储密度大、保存时间长、维护成本低、容易获取等优点引起了广泛关注。基于dna的数据存储是一种能长期保存数字数据的新方法。dna存储是指,使用预先设计好的编码方案将信息序列编码为腺嘌呤(a)、胸腺嘧啶(t)、鸟嘌呤(g)、胞嘧啶(c)四种碱基组成的dna序列,然后将这些序列合成寡核苷酸或长dna片段,以允许长期储存。为了检索数据,利用dna测序从合成的dna中获得原始atcg序列。
2、然而在dna的合成和测序过程中,碱基序列经常会出现突发性的插入删除错误,突发性错误是指连续的碱基都发生错误,插入删除错误是指由于信息中的位置信息丢失而导致的同步错误,替换错误可以被看作一个插入错误和一个删除错误,因此也包含在内。dna编码的主要目的是通过一些编码方法引入一定的冗余,从而可以纠正插入删除错误,来保证数据的可靠性。其中,一种编码方法的性能主要由该码的码率和纠错能力决定,其中码率可以通过计算冗余度来比较,冗余度越低,码率越高,码的性能越好。一个4元,码长为n,码字个数为|c|的码c的冗余度计算公式为:r=n-logq|c|。
3、此外,dna存储过程中发生错误的概率与dna的序列结构密切相关。为了降低错误率,dna链应当满足全局gc含量的约束,即碱基g和c的含量约占总量的50%左右,这也称为gc平衡。
4、现有技术存在的问题及缺陷为:
5、现在大多数dna纠错码的方法只能纠正少量的错误,或是能纠正多个错误但具有较大的冗余度,对于能够纠正多个插删错误并满足gc平衡的低冗余dna编码方法依然缺乏。
技术实现思路
1、针对现有技术存在的问题,本发明提供了一种可纠正突发性插删错误且满足gc平衡的dna编码方法,并具有极低的冗余度,接近理论下界。
2、本发明是这样实现的,一种可纠正突发性插删错误且满足gc平衡的低冗余dna编码方法包括:
3、步骤1:基于knuth的平衡方法编码得到一个4元(n,m)的gc平衡的码
4、步骤1.1:构造到dna碱基集σdna={a,t,c,g}的双射τ:τ(0)=c,τ(1)=g,τ(2)=a,τ(3)=t;用[n]表示{1,2,…,n}的整数集;
5、步骤1.2:令n>0为偶数,设上长度为n的4元序列为:ci表示序列c的第i位坐标,定义c的gc重量为wtgc(c)=|{i∈[n]:ci=0}|+|{j∈[n]:cj=1}|,如果wtgc(c)=n/2,则称码字c满足gc平衡;
6、步骤1.3:定义一个上翻转映射λ,对于任意λ(a)=3-a;对于4元序列令表示翻转c前d位后得到的4元序列,其中0≤d≤n;例如c=(0112),f1(c)=(3112),f2(c)=(3212),f3(c)=(3222);根据步骤1.2中的定义,f1(c)是gc平衡的;类似knuth的平衡方法,这里给出定理一:令n>0为偶数,总是存在0≤d≤n,使得是gc平衡的;由于n是偶数,定理一的证明很容易得到;
7、步骤1.4:令u代表4元消息序列的集合,定义
8、
9、即是满足gc平衡的码字集合,gc含量恰好为50%,通过对消息序列进行翻转来编码得到,编码的时间复杂度为o(n),且的码字个数的冗余度为rgc=n-log4 m<log4 n;
10、步骤2:定义一个映射函数h(x),给定函数h(x),纠正突发性的插删错误;
11、步骤2.1:令码字用bt(x)表示序列发生t个突发性删除错误后的序列集合,定义其中φ(x)1=0,对于每个i∈[2,n],如果xi≥xi-1,φ(x)i=1,反之φ(x)i=0;对于二元序列其vt伴随式定义为
12、
13、步骤2.2:给出引理二:对于任意的用y∈b1(x)表示x发生一位删除错误后的序列,定义
14、
15、则给定vt(φ(x)[2,n])和sum(x),根据y唯一恢复原序列x;该引理使用了经典的q元vt码,这里不做证明;
16、步骤2.3:给出引理三:对于任意的序列用y∈b≤t(x)表示序列发生最多t个突发性删除错误后的序列,其中t为一个整数,t相对于码长n看作是常数,那么一定存在着方程h:给定h(x)和y,唯一恢复原序列x,并且h在时间复杂度为o(4tn3)的情况下计算出来;证明如下:
17、首先,构造这样一个标记方程h′:其中对于每个t′∈[t],每个j∈[t′],令
18、
19、其中it′,j={l∈[n]:l≡j mod t′},然后令
20、h′=(h′1,1,h′2,1,h′2,2,…,h′t,1,h′t,2,…,h′t,t);
21、则h′(x)的长度(用二进制表示)满足
22、
23、因为,对每个t′∈[t],如果y∈bt′(x),那么有其中j∈[t′],且it′,j={l∈[n]:l≡j mod t′};根据步骤2.2中的引理二,由h′t′,j(x)和来唯一恢复,因此x由y和h′(x)来唯一恢复;然后利用伴随式压缩技术,构造方程h:并且h在时间复杂度为o(4tn3)的情况下计算出来;
24、步骤2.4:给出引理四:一个纠正b个突发性删除错误的码,一个纠正b个突发性的插入错误;
25、步骤3:构造得到一个4元(n+2t+2r,m)码满足gc平衡且纠正突发性的插删错误;
26、步骤3.1:对任意两个四元序列定义a||b=a1b1a2b2…anbn;用表示a的互补序列,即
27、步骤3.2:令码长为n,用表示引理三中定义的方程,其中r=4log4 n+o(log4 n);给出构造:
28、
29、其中0t和2t分别表示连续t个0和连续t个2;满足gc平衡且纠正最多t个突发性的插删错误,证明如下:
30、显然满足gc平衡且gc含量恰好为50%,用y代表发生t′个突发性删除错误后的码字,其中t′≤t;分为两种情况:
31、如果yn+t+1-t′=2,那么删除错误一定发生在x0t的范围内,因此有将h4(x)提取出来,然后结合y[1,n-t′]即可恢复x;
32、如果yn+t+1-t′=0,那么删除错误一定发生在0t2t或者是的范围内,那么y[1,n]=x;
33、根据步骤2.4的引理四,纠正突发性删除错误一定同时纠正突发性插入错误;
34、证明完毕,同时有效的删除错误译码算法通过该证明得到;
35、步骤3.3:下面计算的冗余度,rt=rgc+2t+2r<o(log4n),具有o(log4 n)级别的冗余度,需要注意的是纠正多个突发错误的q元码在理论上能达到的最低冗余度也是o(log4n)级别,因此我们提出的编码方法具有较好的冗余度,逼近理论下界。
36、本发明的另一目的在于提供一种可纠正突发性插删错误且满足gc平衡的低冗余dna编码系统包括:
37、编码模块,用于基于knuth的平衡方法编码得到一个4元(n,m)的gc平衡的码
38、映射模块,用于定义一个映射函数h(x),给定函数h(x),可以纠正突发性的插删错误;
39、构造模块,用于构造得到一个4元(n+2t+2r,m)码满足gc平衡且纠正突发性的插删错误。
40、本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述可纠正突发性插删错误且满足gc平衡的低冗余dna编码方法的步骤。
41、本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述可纠正突发性插删错误且满足gc平衡的低冗余dna编码方法的步骤。
42、本发明的另一目的在于提供一种信息数据处理终端,所述信息数据处理终端用于实现所述可纠正突发性插删错误且满足gc平衡的低冗余dna编码系统。
43、结合上述的技术方案和解决的技术问题,本发明所要保护的技术方案所具备的优点及积极效果为:
44、第一、本发明提出了一种新的编码方法,基于q元vt码和矩阵纠正突发错误的思想,构造了一种可以纠正多个突发性插删错误的dna编码方法,同时满足gc平衡的生物约束,并具有较低的冗余度,最后还给出了有效的译码算法。
45、第二,现在大多数dna纠错码的方法只能纠正少量的错误,或是能纠正多个错误但具有较大的冗余度,本发明有效地解决了该问题,基于q元vt码和矩阵纠正突发错误的思想,构造了一种满足gc平衡且可以纠正多个突发性插删错误的dna编码方法及系统,并且该编码方法具有极低的冗余度,可以接近理论下界,最后我们还给出了有效的译码算法。
46、第三,作为本发明的权利要求的创造性辅助证据,还体现在以下几个重要方面:
47、(1)本发明的技术方案转化后的预期收益和商业价值为:
48、本发明可以纠正dna存储系统中常见的突发性插删错误,而且满足gc平衡的生物约束,可以有效降低dna存储过程中的错误率,保证了存储系统的可靠性;同时本发明提出的编码方法具有接近理论下界的码率,保证了存储系统的有效性;因此本发明的技术方案贴合实际应用需求,可以应用于某些要求gc平衡和纠错能力的dna存储系统中。
49、(2)本发明的技术方案填补了国内外业内技术空白:
50、目前大多数编码方案只能纠正少量的错误,或是能纠正多个错误但具有较大的冗余度;本发明提出了满足gc平衡且纠正多个突发性插删错误的编码方法,具有接近理论下界的码率,填补了国内外业内技术空白。
51、(3)本发明的技术方案解决了人们一直渴望解决、但始终未能获得成功的技术难题:
52、在dna编码中,为了降低错误概率,dna序列需要满足一些特定的生物约束条件,为了纠正错误,dna序列也需要具备纠错能力。然而满足生物约束或具备纠错能力都会对降低一定的码率,生物约束越多、纠错能力越强,编码码率就会越低,这也是dna编码的痛点。本方案构造的编码方法同时满足了gc平衡和纠错能力,并且具有接近下界的码率,同时保证了存储系统的可用性和可靠性,很好地克服了这一痛点。
53、第四,在dna数据存储和传输过程中,突发性插删错误是常见且难以避免的问题,这极大地影响了数据的完整性和准确性。同时,dna序列的gc平衡性对于生物稳定性和功能性至关重要。然而,传统的dna编码方法往往无法同时兼顾这两点,要么难以有效纠正插删错误,要么难以保持gc平衡,导致数据丢失或生物功能受损。
54、本发明提出了一种可纠正突发性插删错误且满足gc平衡的低冗余dna编码方法。首先,利用基于knuth的平衡方法对一个4元的序列进行编码,确保得到的码字集合满足gc平衡且gc含量恰好为50%,保证了生物稳定性和功能性。其次,通过定义一个映射函数,本发明能够纠正突发性的插删错误,包括使用元vt码确定删除错误后的原始序列,构造标记方程恢复多个突发性删除错误的序列,并纠正多个突发性插入错误。这一方法不仅提高了数据的准确性,还增强了数据的可靠性。
55、本发明的显著技术进步主要体现在以下几个方面:一是实现了同时兼顾纠正突发性插删错误和保持gc平衡的目标,这在现有技术中是难以实现的;二是通过构造满足gc平衡且能纠正突发性的插删错误的4元码,使编码具有更强的鲁棒性和自纠错能力;三是保持较低的冗余度,优化了存储效率和编码复杂度,使得dna数据存储和传输更加高效和可靠。
56、本发明的应用前景广阔,不仅可以应用于dna数据存储和传输领域,还可以扩展到基因编辑、生物信息学等领域。通过采用本发明的dna编码方法,我们可以更加准确、可靠地存储和传输生物信息数据,为生命科学研究和应用提供有力的支持。同时,本发明的提出也为dna数据存储和传输领域带来了新的技术思路和解决方案,具有重要的理论意义和实践价值。
本文地址:https://www.jishuxx.com/zhuanli/20240905/286737.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表