技术新讯 > 医药医疗技术的改进,医疗器械制造及应用技术 > 一种基于深度迁移学习的多序列重建模型及方法 > 正文

一种基于深度迁移学习的多序列重建模型及方法

国知局
2024-07-12 10:18:14

本发明涉及dna存储，具体涉及一种基于深度迁移学习的多序列重建模型及方法。

背景技术：

1、科技的进步无疑为信息数据的存储管理带来了便利，但是随着网络化进程的持续，同时也推动了全球范围内的数据爆炸。据国际数据公司(idc)预测，2025年全球数据总量将由2018年的33zb增长至175zb，并且将会持续增长。目前主流的存储方式依赖于磁介质(磁性存储器)、光学介质(光学存储器)以及半导体介质(固态硬盘和闪存)等。但是传统的存储体系存在着存储能力不足、有效存储时间短、数据易受环境因素影响、能源消耗大以及污染环境等弊端，无法满足数据的爆发式增长下的数字化信息的存储需求。因此，亟须找到一种变革式的存储解决方案。同时，dna分子作为生命信息存储介质，在存储密度、存储时间和存储能耗等方面具有巨大的优势。因此，它有望成为一种极具潜力的解决海量大数据存储问题的存储介质。

2、dna测序是指利用测序技术获取目标dna片段的碱基排序信息。目前，基因组测序技术已发展至第三代。第一代测序技术以1977年sanger发明的双脱氧链终止法为代表，存在着测试速度慢、成本高、通量低等方面的不足。第二代测序技术实现了高速大规模的并行化测序，包含建库、pcr扩增、测序等流程，它的错误率较低，约为1％-2.5％。与前两代相比，第三代测序技术(nanopore测序)是单分子测序，其测序错误率大约在10％-15％。二代测序因其错误率较低而成为dna存储研究中的首选。

3、测序后，应通过相应的编码规则将碱基序列解码为二进制信息。但是，在合成、存储和测序过程中不可避免地会引入碱基的插入、删除、替换错误。虽然少量错误可以通过纠错码进行纠正，但考虑到编码效率，纠错码的纠错能力有限。此外，在dna分子的保存和基于pcr的数据复制过程中，dna断裂和重排频繁发生，目前尚无纠错码能够纠正这类错误。这些噪声序列都可能导致解码失败，因此在测序后和解码前的阶段，需要一种修正机制，将带有错误的dna序列映射为无错误的序列，进而实现解码。序列重建算法可以作为一种修正机制，有助于解决这个问题。

4、以二代测序为例，在dna存储的测序后，读取到的是每个原始序列的噪声副本(dna序列)，目标是通过这些噪声副本推断出原始序列，从而恢复信息。由于所有序列的噪声副本都无序地储存在测序文件里，因此需要首先对其聚类，使得一条dna链的多个噪声副本聚成一个簇，通过这个簇推断原始信息，这一过程被称为序列重建(sequencereconstruction)。序列重建的目的是准确无误地解码恢复信息，如图1所示。

5、随着神经网络的兴起，一些工作开始利用深度学习解决序列重建问题。主要思想是建立一个序列到序列的模型，通过神经网络的非线性映射能力将带有错误的序列映射到原始序列以进行纠错。

6、dna存储中，基于深度学习的序列重建方法近几年才兴起，目前的工作较少。其优点是泛化性较强，训练好的神经网络模型可以快速、准确地在大规模数据集上进行重建，对输入数据、错误模型等的限制较少，符合dna存储系统中的实际情况。但其模型体积较大，因此需要大量的样本数据作为模型训练的基础。然而，由于合成和测序的成本问题以及实验的限制，获取dna存储数据的成本高昂且耗时。为了解决这个问题，业内开发了一个合成数据生成器(synthetic data generator，sdg)，将统计好的插入、删除、替换错误率注入参考序列中，为其产生多个噪声副本，从而形成带标签的噪声序列簇，用于多序列重建的网络训练。实验证明，sdg合成的数据可以替代真实的实验数据用于网络模型的训练，并取得更好的性能。

7、综上可知，训练模型需要大量的标签数据，而实际中标签数据不足，是dna存储领域关于深度学习的序列重建方法的一个重要瓶颈。

技术实现思路

1、针对目前dna存储仍处于实验室阶段，实验数据量不足，导致在训练深度神经网络时容易出现过拟合问题，以及缺乏足够多带有标签的数据来支持复杂和大型神经网络模型训练的问题，本申请提出了一种基于深度迁移学习的多序列重建模型及方法，以实现了低成本网络训练，在训练样本较少时达到了较高的重建成功率。

2、为实现本发明的目的，本发明提供的技术方案如下：

3、一方面，本发明提供了一种基于深度迁移学习的多序列重建模型，所述重建模型为具有编码器-解码器架构的神经网络，包括编码器、域特定解码器和域特定特征提取器；

4、其中，所述编码器使用由多头注意力机制和卷积模块交互的conformer模块，用于提取序列的语义信息，捕捉序列上的碱基由于插入、删除、替换所带来的位置偏移；

5、所述域特定解码器包括源域解码器和目标域解码器，使用单层自回归式lstm执行不同域的解码工作；

6、所述域特定特征提取器将两个域的所提取的特征映射到同一维度特征空间，进而对齐。

7、另一方面，本发明提供了一种基于深度迁移学习的多序列重建方法，使用如上述的基于深度迁移学习的多序列重建模型进行。

8、与现有技术相比，本发明有益效果如下：

9、本发明首次将迁移学习策略应用于dna存储中的多序列重建模型中，在相同的迭代次数下，使用迁移学习策略获得的序列重建成功率超过未使用迁移学习策略的基础模型和使用sdg生成大量训练数据的方法；

10、另外，模型transdna采用了域适应的思想，在所提出的域特定特征提取器上采用最大均值差异损失来对齐源域和目标域，有效地缓解了域之间的分布差异；

11、另外，模型具有纠正插入、删除、替换错误的能力。由于编码器引入的conformer模块强大的特征提取能力，所提出的模型具有纠正多种错误类型的能力，解码器采用自回归式lstm，允许模型输出任意长度的序列。

技术特征：

1.一种基于深度迁移学习的多序列重建模型，其特征在于，所述重建模型为具有编码器-解码器架构的神经网络，包括编码器、域特定解码器和域特定特征提取器；

2.根据权利要求1所述的一种基于深度迁移学习的多序列重建模型，其特征在于，所述conformer模块有四个模块，第一个和最后一个是由两个线性层组成的前馈模块；线性层将序列的特征空间扩展到原始维度的两倍，另一层将特征空间恢复到原始维度；在第二个模块中，使用大小为32的卷积核进行两次深度可分离卷积，以捕获序列位置之间的局部信息，每个模块的输入和输出相加，层归一化后输入到下一个模块里；卷积模块通过提取丰富的语义信息来纠正插入、删除和替换错误，多头注意力机制可以提取多重的语义信息捕获序列内各种范围的依赖关系，conformer模块将卷积神经网络获得的局部特征与注意力机制获得的全局特征相结合；

3.根据权利要求1所述的一种基于深度迁移学习的多序列重建模型，其特征在于，所述自回归式lstm在训练时使用教师强制，即在训练过程中使用真实的输出序列作为每个时刻的输入，而不是使用上一个时刻的生成输出作为当前时刻的输入，模型通过反向传播算法优化网络参数，使得生成的序列最大化其生成目标的概率。

4.根据权利要求1所述的一种基于深度迁移学习的多序列重建模型，其特征在于，所述自回归式的lstm中，定义了起始符<cls>和终止符<sep>，表示生成序列的开始和结束(本模型中定义<cls>＝<sep>)；在学习时，将标签作为一个整体在时间方向上输入，即在第一个时刻输入起始符号<cls>，得到对第一个符号<t1>的估计<t'1>，然后将第二个符号<t2>输入，输出对第二个符号的估计<t'2>，以此类推；在推断时，将起始符号<cls>作为第一个时刻的输入，输出对第一个符号的估计<t'1>，接着这个输出作为下一时刻的输入，如此反复进行；具体来说，在学习时lstm的输入是真实的标签，在推断时输入的是上一时刻的估计。

5.根据权利要求4所述的一种基于深度迁移学习的多序列重建模型，其特征在于，所述自回归式的lstm的输入是一个(l+1)×5的矩阵，每一列表示该索引位置上对应符号的一维向量，经过lstm块后，输出一个(l+1)×64的矩阵olstm；此时，编码器的输出由k长被截断到l+1长，记为oencoder，然后，olstm和oencoder拼接成一个(l+1)×128的矩阵，通过线性层，映射为l×5的矩阵，对于输入到网络的数据计算损失函数：

6.根据权利要求1所述的一种基于深度迁移学习的多序列重建模型，其特征在于，所述域特定特征提取器为使用了一个基于域适应理论的域特定特征提取器，以弥补源域和目标域之间的分布差异。

7.根据权利要求6所述的一种基于深度迁移学习的多序列重建模型，其特征在于，所述域特定特征提取器包括两个卷积层，接收编码器的输出；首先用大小为3的卷积核经过一维卷积将编码器的输出变换为k/4×64的矩阵，然后用大小为5的卷积核经过一维卷积将其变换为1×64的向量，所述域特定特征提取器相当于一个过渡层，它将两个域的编码器的输出映射到同一低维空间，随后，选择了最大均值差异mmd方法来减少域之间的分布差异；

8.根据权利要求1所述的一种基于深度迁移学习的多序列重建模型，其特征在于，模型的输入是一个大小为k×4的矩阵，每一列都是一个表示该索引位置上相应碱基可信度的一维向量，数据输入到模型后，使用不同大小的卷积核进行卷积上采样，变换为一个具有更大特征维数的特征矩阵(k×64)。

9.根据权利要求1所述的一种基于深度迁移学习的多序列重建模型，其特征在于，目标域的训练过程包括两个阶段；在第一个阶段，计算mmd损失来对齐源域和目标域的分布；在第二阶段，分别计算两个域的重建损失，网络整体损失函数为：

10.一种基于深度迁移学习的多序列重建方法，其特征在于，使用如权利要求1-9中任一项所述的基于深度迁移学习的多序列重建模型进行。

技术总结本发明公开了一种基于深度迁移学习的多序列重建模型及方法，模型包括编码器、域特定解码器和域特定特征提取器；所述编码器使用由多头注意力机制和卷积模块交互的Conformer模块，用于提取序列的语义信息，捕捉序列上的碱基由于插入、删除、替换所带来的位置偏移；域特定解码器包括源域解码器和目标域解码器，使用LSTM执行不同域的解码工作；所述域特定特征提取器将两个域的所提取的特征映射到同一维度特征空间，进而对齐。本发明首次将迁移学习策略应用于DNA存储中的多序列重建模型中，在相同的迭代次数下，使用迁移学习策略获得的序列重建成功率超过未使用迁移学习策略的基础模型和使用SDG生成大量训练数据的方法。技术研发人员：朱斐,秦韵受保护的技术使用者：天津大学技术研发日：技术公布日：2024/6/11