技术新讯 > 医药医疗技术的改进,医疗器械制造及应用技术 > 经压缩基因组序列的基于强化学习的网络传输  >  正文

经压缩基因组序列的基于强化学习的网络传输

  • 国知局
  • 2024-08-08 17:06:22

本发明涉及生物信息学领域。特别是,本发明涉及一种基于传输条件生成或选择更合适的压缩参数的方法。

背景技术:

1、任何物种的基因组都可以测序并保存为文件,通过计算机网络传输给相关方。然而,大型基因组包含大量信息,文件往往过大,难以在可接受的时间范围内完全传输。通常情况下,大型数据文件在传输前会被压缩成较小的文件,因为较小的文件传输更快。然而,压缩大型基因组文件本身就是个耗时的过程,这使得通过文件压缩对传输速度的任何改善都变得毫无意义。

2、基因组测序技术的飞速发展使问题复杂化,它降低了基因组测序的成本,并带来了大量的基因组序列。然而,与此同时数据传输技术却没有得到改善。因此,对基因组数据的大量需求得不到及时满足;基因组序列的不可获取性成为制约生物技术和分子生物学行业发展的瓶颈。

3、带宽总是不断变化的。对于任何时间点的任何给定段的大基因组序列来说,很难决定是牺牲更多时间将该段数据在较大程度上进行压缩后再较快传输还是传输压缩到最小程度的数据更快速。

4、因此,期望提出一种确定如何在生物数据的压缩和传输过程中划分资源的方法,从而优化这些数据的传输和访问。

技术实现思路

1、在第一方面,本发明提供了一种传输一系列基因组序列中的基因组序列的方法,包括以下步骤:

2、a)在传输所述系列中第一基因组序列先例的经压缩形式期间,获取网络条件的数据;

3、b)基于所述网络条件的数据,选择压缩算法或修改压缩参数;其中包括将所述网络条件的数据供应给神经网络;使得

4、所述神经网络选择压缩参数或修改压缩算法;

5、所述神经网络是使用包括先前传输的变量的训练数据所训练的;

6、每次先前传输的变量至少包括以下内容:

7、传输经压缩基因组序列的网络条件;

8、用于压缩基因组序列的压缩算法;

9、经压缩基因组序列的大小。

10、c)使用所选择或修改的压缩参数压缩第二基因组序列,以获取所述第二基因组序列的经压缩形式,所述第二基因组序列是所述系列中的下一个基因组序列;以及

11、d)传输所述第二组基因组序列的压缩形式;

12、e)根据不同的网络条件,利用奖励调整神经网络,以适合于基因组序列的未来压缩,所述奖励至少基于以下方面:

13、第二基因组序列的压缩质量;

14、第二基因组序列的传输延迟。

15、优选地,所述神经网络包括演员评论家算法,用于训练所述神经网络选择或修改所述压缩算法,以提高传输效率。

16、在第二方面,本发明提供了一种用于一系列经压缩基因组的基于强化学习的网络传输模型的框架,包括

17、环境;

18、包括神经网络的代理;以及

19、奖励函数;

20、所述环境包括两个进程;

21、第一进程使用基于学习的基因组编解码器压缩物种的原始基因组序列;

22、第二进程通过计算机网络将在所述系列中处于在先位置的物种的经压缩基因组序列从发送方传输到接收方;

23、通过观测第一进程,所述代理中的所述神经网络训练为为第二进程提供自适应压缩算法;

24、所述环境能够向所述代理返回奖励,以优化所述神经网络提供自适应压缩参数的能力。

25、优选地,所述代理能够根据网络条件选择压缩算法对原始基因组进行压缩,从而实现基因组序列的高效压缩与传输之间的平衡。

26、因此,本发明利用机器学习来建立并学习一种模型,该模型与不同的网络条件(包括但不限于带宽)、基因组序列被划分成的部分的数量以及成功传输所需的时间有关。例如,该模型根据刚刚压缩和传输的最新基因组序列的数据不断更新,用于机器学习的数据包括:

27、刚刚成功传输的未压缩的基因组序列的整个长度;

28、从压缩原始基因组序列到成功传输整个经压缩基因组序列所需的时间;

29、整个原始基因组序列被划分的部分或碱基组的数量(压缩参数),以便进行单独但并行的处理(该部分的数量和并行处理的使用对压缩时间有直接影响);

30、每个碱基组的压缩程度(与每个经压缩碱基组的最终文件大小和整个经压缩基因组序列的最终文件大小有关);

31、传输经压缩基因组序列时的带宽条件。

32、还可以将并行处理的程度作为参数。

33、因此,对于每个下一基因组序列,该模型能够根据整个基因组的长度和网络当前的带宽以及机器学习中包含的其他变量,选择将基因组序列划分成多少部分,从而将基因组序列压缩得即不过多,也不过少,这样压缩的程度(或比率)对于该带宽是最优值。

34、第二方面,本发明提出了一种用于一系列经压缩基因组的基于强化学习的网络传输模型的框架,包括

35、环境;

36、包括神经网络的代理;以及

37、奖励函数;

38、该环境包括两个进程;

39、第一进程使用基于学习的基因组编解码器压缩物种的原始基因组序列;

40、第二进程通过计算机网络将在系列中处于在先位置的物种的经压缩基因组序列从发送方传输到接收方;

41、通过观测第一进程,代理中的神经网络训练为为第二进程提供自适应压缩参数;

42、环境能够向代理返回奖励,以优化神经网络提供自适应压缩参数的能力。

43、通常情况下,代理能够为压缩算法选择压缩参数,以便根据当前(即最新知晓)网络条件压缩原始基因组,从而实现基因组序列的高效压缩和传输之间的平衡。

44、换言之,本发明提出一种用于经压缩基因组的基于强化学习的网络传输模型,其可以为未来基因组生成自适应压缩(步长)参数。更具体地说,该方法训练一种神经网络模型,其基于上次经压缩基因组传输过程提供的观测结果,为未来基因组选择压缩(步长)参数。

45、因此,本发明应用强化学习来优化基因组序列的压缩和传输二者的效率。具体而言,代理可主动、自适应地生成压缩参数或步长参数,以调整编码速度和压缩比,从而适应不同的基因组大小。这就为实现基因组的高效压缩和传输之间的平衡提供了可能性。

46、实验结果表明,所提出的模型可用于选择压缩(步长)参数,将原始基因组压缩到适合根据当前,即最新的,网络条件优化传输的程度。因此,本发明提供一种将基因组序列的压缩和传输都做到最佳的可能性,即不会因为过度优化其中任何一个过程而导致另一个过程的效率降低。

47、本发明的实施例可包括以下特征:

48、(1)基于经压缩基因组传输的强化学习,其生成自适应压缩(步长)参数。

49、这包括训练神经网络模型,用于基于对最新的经压缩基因组传输过程的观测结果,为未来的基因组选择压缩(步长)参数。

50、(2)特定环境,其中最新经压缩基因组通过计算机网络传输(即进程p1),下一个基因组通过基于学习的基因组编解码器压缩(即进程p2)。

51、(3)在训练算法中使用演员评论家(a3c)方法,这是一种最先进的演员评论家rl算法。

52、代理状态sa由以下内容定义:过去基因组吞吐量的数据、下一个基因组的大小、尚待压缩和传输的基因组数量以及上一次基因组压缩算法(表示为gob)。基于代理状态sa的定义,a3c可用于训练压缩算法,从而改善经压缩基因组的网络传输。

53、(4)设计了多种奖励目标,如最大化基因组的编码速度和压缩比(即最大化lec的超参数,如压缩参数或步长参数),最小化经压缩基因组序列在计算机传输网络中的传输延迟,同时保持压缩速度的一致性(即避免恒定的gob波动或步长波动)。

54、所提出的方法具有以下优点(详情请参见实施例和实验结果的描述):

55、(1)可以使用网络宽带数据集(即网络转发)、rtt和噪声,在模拟环境中测试经训练的模型。此外,该方法还可以在mahimahi仿真网络上运行实验,并运行真实世界实验。

56、(2)对于每个物种的基因组序列gn,如果lec通过使用不同的gob(gob1,…,gobi)来压缩基因组,就会生成不同大小的经压缩基因组文件(x1,…,xi)。换言之,gobi和xi之间是一一对应的。这意味着压缩是针对每个基因组序列的传输而定制和优化的,而不是笼统的、一劳永逸的方法。

57、(3)本发明利用压缩一个物种的基因组的数据,特别是经压缩基因组的传输期间的网络条件数据,作为前馈信息,为下一个物种的基因组选择或生成压缩算法。

58、最初,在环境的进程p1中,其中,n-1≥1,当n-1=1时,选择具有预定质量的默认压缩算法作为压缩算法gobn-1。数字n表示一个物种在众多物种的队列或系列中的位置,n-1表示之前的物种。

59、因此,第一物种的基因组是使用具有的lec压缩的,通过计算机网络传输第一经压缩基因组。随后,每一个下一物种的压缩参数均参考在队列或系列中仅在先一位的物种成功传输期间的网络条件来选择。

60、(4)将本发明应用于基于传输数据集的仿真时,可以使用往返时间(rtt)代替传播延迟、处理延迟和排队延迟。隐藏层的数量、每个卷积层的滤波器的数量和rtt会影响用于训练神经网络的奖励。这些参数可设置如下,例如

61、a.隐藏层的数量的范围是从1到3;

62、b.每个卷积层的滤波器的数量可设置为4、16、32、64和128个;

63、c.rtt可设置为0毫秒、20毫秒、40毫秒、60毫秒、80毫秒和100毫秒。

64、(5)自适应步长算法的设计和原理与自适应gob算法类似。

本文地址:https://www.jishuxx.com/zhuanli/20240808/272380.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。