基因分析仪检测光谱的内标匹配方法、系统及设备与流程
- 国知局
- 2024-10-15 09:31:27
本发明涉及生化检测,尤其涉及一种基因分析仪检测光谱的内标匹配方法、系统及设备。
背景技术:
1、基于毛细管电泳技术的基因分析仪可应用于sanger测序与基因片段分析。毛细管电泳是以石英毛细管为分离通道,以高压直流电场为驱动力,充填多孔凝胶作为支持介质,通过温度控制保证凝胶的孔径分布于dna构象。当dna分子的大小与凝胶孔径相当时,其淌度与尺寸大小有关,短片段受到的阻碍较小,从毛细管中涌动较快,长片段受到的阻碍较大,从毛细管中涌动较慢。因dna分子带负电,在毛细管两端加上直流高压电后,通过电进样的方式,标记了荧光基团的dna会从毛细管阴极端口进入毛细管,并向阳极涌动,不同长度的dna分子会先后通过检测窗口,当某一dna分子经过光学检测窗口时,通过激光激发dna上的荧光基团而产生荧光,从而被光谱仪采集,光谱仪将光信号转换为电信号再转换为数字信号。将原始的数字信号进行处理后,通过分析软件分析,就可获得dna分子的碱基序列或相对片段长度。
2、在实现本发明过程中,发明人发现现有技术中实现基因分析仪检测光谱信息处理时存在以下问题:由于激光背景、基底拉曼信号、光谱仪暗噪声等问题,不同波段采集出的信号基线不一致,导致无法直接通过信号强度判断dna种类与含量;对于毛细管电泳基因分析数据,数据采集时间较长,数据峰较多,在实现数据点识别处理时,往往会造成峰无法准确识别,进而造成内标峰错误匹配或无法匹配的情况,最终导致检出片段长度错误。
技术实现思路
1、鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的基因分析仪检测光谱的内标匹配方法、系统及设备。
2、本发明的一个方面,提供了一种基因分析仪检测光谱的内标匹配方法,所述方法包括:
3、s11、对基因分析仪电泳过程中采集的光谱信号进行峰识别,以筛选出当前光谱信号中包含的候选峰序列;
4、s12、按照采样先后顺序依次对候选峰序列中的候选峰与电泳过程所选内标物对应的标准光谱信号中的标准峰序列进行内标匹配,以找到候选峰序列中存在的符合预设的内标匹配条件的候选峰组合;内标匹配条件包括第一距离与第二距离之间的差值的绝对值小于预设的距离误差阈值,且,max{候选峰组合中已选定候选峰的峰高度,当前待匹配候选峰的峰高度}/min{候选峰组合中已选定候选峰的峰高度,当前待匹配候选峰的峰高度}<预设的相对高度阈值,其中,第一距离为候选峰序列中相邻候选峰峰值点之间的距离,第二距离为标准峰序列中与当前计算第一距离的候选峰采样顺序相同的相邻标准峰峰值点之间的距离;
5、s13、以每一候选峰组合作为匹配基础对候选峰序列中其他候选峰依次进行内标匹配,得到每一候选峰组合对应的匹配结果;
6、s14、统计每一候选峰组合对应的匹配结果中包含的候选峰数量;
7、s15、当各个候选峰组合对应的匹配结果中包含的候选峰数量的最大值等于标准峰序列中包含的标准峰数量时,则判定内标匹配成功,并将所述最大值对应的匹配结果作为最优内标匹配结果。
8、可选地,在将所述最大值对应的匹配结果作为最优内标匹配结果之后,所述方法包括:
9、将标准峰序列和最优内标匹配结果的峰序列进行曲线拟合,将曲线拟合后的标准差、平均残差和最大残差作为当前最优内标匹配结果的特征数据;
10、将所述特征数据输入预设的内标匹配评分模型进行识别,以得到当期最优内标匹配结果的匹配程度评分。
11、可选地,所述方法还包括内标匹配评分模型的训练步骤,具体包括:
12、将预设的不同内标匹配情况下的样本数据对应的曲线拟合后的标准差、平均残差和最大残差作为对应样本的样本特征数据,将正确的内标匹配结果的样本数据设为正类,将不正确的内标匹配结果的样本数据设为负类,得到训练数据集;
13、采用hinge损失作为模型训练的损失函数,采用sigmoid函数归一化分类结果,基于预设的机器学习模型对所述训练数据集进行学习训练,得到训练好的内标匹配评分模型。
14、可选地,所述方法还包括:
15、若每一候选峰组合对应的匹配结果中包含的候选峰数量的最大值均不等于标准峰序列中包含的标准峰数量,则根据预设的第一阈值调整规则更新所述距离误差阈值,并返回步骤s12,直到更新后的距离误差阈值大于距离误差阈值的最大值;
16、当更新后的距离误差阈值大于距离误差阈值的最大值时,根据预设的第二阈值调整规则更新所述相对高度阈值,且将距离误差阈值更新为对应的初始值,并返回步骤s12,直到更新后的相对高度阈值大于相对高度阈值的最大值;
17、当更新后的相对高度阈值大于相对高度阈值的最大值时,则判定内标匹配失败。
18、可选地,在对基因分析仪电泳过程中采集的光谱信号进行峰识别之前,所述方法还包括:对所述光谱信号进行数据前处理的步骤;
19、对所述光谱信号进行数据前处理,包括
20、采用预设的局部自适应多项式拟合算法滤除所述光谱信号的背景噪声;
21、采用savitzky-golay多项式平滑算法对滤除背景噪声后的光谱信号进行平滑处理。
22、可选地,所述步骤s11具体包括:
23、识别所述光谱信号中的极大值点,计算各个极大值点对应波峰信号的峰特征,所述峰特征包括峰高度、底峰宽、半高宽、峰间距和邻近点下降高度中的一个或多个特征;
24、按照峰高度、半高宽、峰间距、邻近点下降的最小高度、底峰宽的顺序依次对每一各个极大值点对应波峰信号的峰特征进行筛选,将得到的满足各个峰特征对应阈值要求的波峰信号作为候选峰以形成候选峰序列。
25、可选地,所述步骤s12具体包括:
26、获取候选峰序列中任意相邻候选峰峰值点之间的距离,以及获取标准峰序列中任意相邻标准峰峰值点之间的距离;
27、根据预设的候选峰组合中包含候选峰的数量按照采样先后顺序从候选峰序列中匹配出相应数量的符合预设的内标匹配条件的候选峰,得到候选峰组合。
28、可选地,将所述最大值对应的匹配结果作为最优内标匹配结果包括:
29、若与最大值对应的匹配结果只有一个,则将与最大值对应的匹配结果作为最优内标匹配结果;
30、若与最大值对应的匹配结果大于一个,则将最大值对应的各个匹配结果中第一个候选峰的采样点位置最大的匹配结果作为最优内标匹配结果。
31、第二方面,本发明还提供了一种基因分析仪检测光谱的内标匹配系统,所述系统包括用于实现如上基因分析仪检测光谱的内标匹配方法的功能模块。
32、第三方面,本发明还提供了一种计算机设备,存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上基因分析仪检测光谱的内标匹配方法的步骤。
33、本发明实施例提供的基因分析仪检测光谱的内标匹配方法、系统及设备,通过对光谱信号进行峰识别,以筛选出当前光谱信号中包含的符合要求的候选峰序列,然后基于距离相似、高度均匀两个内标匹配条件,按照采样先后顺序依次对候选峰序列中的候选峰与电泳过程所选内标物对应的标准光谱信号中的标准峰序列进行内标匹配,以找到候选峰序列中存在的符合预设的内标匹配条件的候选峰组合,将候选峰组合作为匹配结果的初始部分,并以此作为匹配基础对候选峰序列中其他候选峰依次进行内标匹配,得到与每一候选峰组合对应的完整匹配结果,当得到的匹配结果中包含的候选峰数量等于标准峰序列中包含的标准峰数量时,则判定内标匹配成功并将当前匹配结果作为最优内标匹配结果,本发明能够快速、准确地实现内标峰的最优匹配,进而保证光谱检出片段长度的准确性。
34、上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
本文地址:https://www.jishuxx.com/zhuanli/20241015/314434.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表