基于单细胞转录组的免疫检查点疗法响应预测方法及装置
- 国知局
- 2024-11-21 11:33:08
本发明涉及生物,尤其是一种基于单细胞转录组的免疫检查点疗法响应预测方法及装置。
背景技术:
1、现有的预测免疫治疗效果的模型主要是通过提取生物标志物特征,利用基因通路、蛋白质相互作用、差异表达基因等生物标志物,进而来进行预测。但是该模型仅在特定数据集上表现良好,高度依赖所选特征,缺乏泛化性和推广性。另外,还有通过使用adaboost分类器、多层感知机等机器学习方法判断基底细胞癌患者是否会对免疫检查点疗法有响应的预测模型,该方法在训练过程中可以看到高变基因的表达信息,导致模型的预测能力被错误评估,从而影响免疫检查点治疗响应预测的准确性。
技术实现思路
1、有鉴于此,本发明实施例主要目的在于提供一种基于单细胞转录组的免疫检查点疗法响应预测方法及装置,以期解决现有技术至少一种问题,本发明能够提高免疫检查点治疗响应预测的准确性。
2、为实现上述目的,本发明实施例的一方面提供了一种基于单细胞转录组的免疫检查点疗法响应预测方法,该方法包括以下步骤:
3、获取患者肿瘤组织的第一单细胞转录组数据集;
4、对所述第一单细胞转录组数据集进行预处理,得到目标数据集;
5、对所述目标数据集进行划分,得到训练集;
6、根据所述训练集,对初始大语言模型进行训练,并对所述初始大语言模型注入噪声,得到目标大语言模型;
7、对所述目标大语言模型进行调整,获取响应标签概率分数;
8、根据所述响应标签概率分数,得到预测结果。
9、在一些实施例中,所述对所述第一单细胞转录组数据集进行预处理,得到目标数据集,包括以下步骤:
10、对所述第一单细胞转录组数据集的表达矩阵进行质量控制,得到第二单细胞转录数据集;
11、对所述第二单细胞转录数据集的表达矩阵的行特征属性进行基因名称转换,得到第三单细胞转录数据集;
12、对所述第三单细胞转录数据集进行细胞筛选,得到第四单细胞转录数据集;
13、将所述第四单细胞转录数据集中的基因作为基本词元,将所述基本词元和特殊标记组成词汇表;
14、对所述第四单细胞转录数据集进行归一化,得到第五单细胞转录数据集;
15、根据所述词汇表,将所述第五单细胞转录数据集中的基因名称转化为对应的标记值,得到第六单细胞转录数据集;
16、对所述第六单细胞转录数据集进行排序编码,得到第七单细胞转录数据集;
17、根据所述词汇表中的特殊标记,对所述第七单细胞转录数据集进行动态填充,得到目标数据集。
18、在一些实施例中,所述对所述第一单细胞转录组数据集的表达矩阵进行质量控制,得到第二单细胞转录数据集,包括以下步骤:
19、获取所述第一单细胞转录组数据集中所有细胞的基因表达量的第一总读数;
20、根据所述第一总读数,获取第一平均值以及第一标准差;
21、根据所述第一平均值以及所述第一标准差,设置第一预设范围;
22、获取所述第一单细胞转录组数据集中单个细胞的基因表达量的第二总读数;
23、判断所述第二总读数是否在所述第一预设范围内,若所述第二总读数在所述第一预设范围内,则保留所述第二总读数对应的所述第一单细胞转录组数据集中的所述单个细胞,得到第八单细胞转录数据集;
24、根据所述第八单细胞转录数据集,获取所述第二单细胞转录数据集。
25、在一些实施例中,所述根据所述第八单细胞转录数据集,获取所述第二单细胞转录数据集,包括以下步骤:
26、获取所述第八单细胞转录数据集中所有细胞的线粒体中的基因表达量的第三总读数;
27、根据所述第三总读数,获取第二平均值以及第二标准差;
28、根据所述第二平均值以及所述第二标准差,设置第二预设范围;
29、获取所述第八单细胞转录组数据集中单个细胞的线粒体中的基因表达量的第四总读数;
30、判断所述第四总读数是否在所述第二预设范围内,若所述第四总读数在所述第二预设范围内,则保留所述第四总读数对应的所述第八单细胞转录组数据集中的所述单个细胞,得到所述第二单细胞转录数据集。
31、在一些实施例中,所述对所述第二单细胞转录数据集的表达矩阵的行特征属性进行基因名称转换,得到第三单细胞转录数据集,包括以下步骤:
32、获取gene symbol与gene ensembl的第一对应关系;
33、获取gene entrez与gene ensembl的第二对应关系;
34、获取所述第二单细胞转录数据集的表达矩阵的行特征属性对应的基因标识符类型;
35、当所述基因标识符类型为gene symbol,根据所述第一对应关系,将所述基因标识符类型转换为gene ensembl,得到第一转换结果;
36、当所述基因标识符类型为gene ensembl,根据所述第二对应关系,将所述基因标识符类型转换为gene ensembl,得到第二转换结果;
37、将所述第一转换结果为转换失败对应的基因进行删除,并将所述第二转换结果为转换失败对应的基因进行删除,得到所述第三单细胞转录数据集。
38、在一些实施例中,所述对所述第四单细胞转录数据集进行归一化,得到第五单细胞转录数据集,包括以下步骤:
39、获取所述第四单细胞转录数据集的每个细胞的总转录本计数;
40、根据所述总转录本计数,对所述第四单细胞转录数据集的每个细胞的第一基因表达值进行归一化,得到第二基因表达值;
41、根据参考数据集中基因表达的非零值中位数,对所述第四单细胞转录数据集中的基因进行归一化,得到所述第五单细胞转录数据集。
42、在一些实施例中,所述对所述第六单细胞转录数据集进行排序编码,得到第七单细胞转录数据集,包括以下步骤:
43、对所述第六单细胞转录数据集的各个细胞中的基因表达量进行排序,得到每个基因在对应细胞中的排名顺序;
44、将所述第六单细胞转录数据集的每个细胞的第二基因表达值替换成所述排名顺序,并将所述第六单细胞转录数据集的每个细胞中基因表达量为零的基因进行删除,得到所述第七单细胞转录数据集。
45、在一些实施例中,所述根据所述训练集,对初始大语言模型进行训练,并对所述初始大语言模型注入噪声,得到目标大语言模型,包括以下步骤:
46、设置并预训练所述初始大语言模型的超参数;
47、设置采样范围,根据所述采样范围,获取均匀分布的噪声;
48、将所述训练集输入所述初始大语言模型,对所述初始大语言模型进行训练,并注入所述噪声;
49、冻结所述初始大语言模型的编码层的若干参数,得到目标大语言模型。
50、在一些实施例中,所述对所述目标大语言模型进行调整,获取响应标签概率分数,包括以下步骤:
51、获取所述目标大语言模型中编码层的最后一层的语义词的词嵌入,并将所述词嵌入作为细胞特征表示;
52、将所述细胞特征表示输入多层感知机,输出所述响应标签概率分数。
53、为实现上述目的,本发明实施例的另一方面提出了一种基于单细胞转录组的免疫检查点疗法响应预测装置,所述装置包括:
54、第一模块,用于获取患者肿瘤组织的第一单细胞转录组数据集;
55、第二模块,用于对所述第一单细胞转录组数据集进行预处理,得到目标数据集;
56、第三模块,用于对所述目标数据集进行划分,得到训练集;
57、第四模块,用于根据所述训练集,对初始大语言模型进行训练,并对所述初始大语言模型注入噪声,得到目标大语言模型;
58、第五模块,用于对所述目标大语言模型进行调整,获取响应标签概率分数;
59、第六模块,用于根据所述响应标签概率分数,得到预测结果。
60、为实现上述目的,本发明实施例的另一方面提供了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现前面所述的一种基于单细胞转录组的免疫检查点疗法响应预测方法。
61、为实现上述目的,本发明实施例的另一方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现前面所述的一种基于单细胞转录组的免疫检查点疗法响应预测方法。
62、为实现上述目的,本发明实施例的另一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前述的一种基于单细胞转录组的免疫检查点疗法响应预测方法。
63、本发明的实施例至少包括以下有益效果:本发明提供一种一种基于单细胞转录组的免疫检查点疗法响应预测方法及装置,该方案通过获取患者肿瘤组织的第一单细胞转录组数据集;对所述第一单细胞转录组数据集进行预处理,得到目标数据集;对所述目标数据集进行划分,得到训练集;根据所述训练集,对初始大语言模型进行训练,并对所述初始大语言模型注入噪声,得到目标大语言模型;对所述目标大语言模型进行调整,获取响应标签概率分数;根据所述响应标签概率分数,得到预测结果。本发明的目标大语言模型能够全面且深刻地理解细胞内基因与基因的相互作用,通过对目标大语言模型进行微调,使得不同癌种的免疫检查点疗法预测任务可以共享一个模型框架,但各自拥有独立的参数,使得目标大语言模型泛化能力强和精确度高,并通过引入噪声,增强了模型的鲁棒性,减少了过拟合现象,从而提高免疫检查点治疗响应预测的准确性。
本文地址:https://www.jishuxx.com/zhuanli/20241120/331736.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表