技术新讯 > 医药医疗技术的改进,医疗器械制造及应用技术 > 尿液生物标志物的生成对抗网络的制作方法  >  正文

尿液生物标志物的生成对抗网络的制作方法

  • 国知局
  • 2024-10-21 15:28:00

本发明整体涉及用于平衡不平衡生物数据集的方法。

背景技术:

1、若干前沿的人工智能应用程序在其具体实施中处理小的不平衡数据集具有挑战性和长期存在的问题。当数据集中存在的所有类别的奇数个样本时,就会出现类别不平衡的问题,并且这可导致机器学习算法在少数类别上产生较差的性能,同时偏向多数类别。这是影响许多真实世界应用程序的常见问题,诸如信用卡欺诈检测、垃圾邮件检测、密友预测、医学诊断、密集对象检测等。迫切需要可解决用小的不平衡数据集训练的机器学习系统中引入的偏差的技术。

技术实现思路

1、在以下讨论中,出于背景和介绍的目的,将描述某些条款和方法。本文含有的任何内容都不应被解释为对现有技术的″承认″。申请人明确保留在适当的情况下证明本文所引用的条款和方法不构成可适用的法定规定下的现有技术的权利。

2、本文公开了基于生成对抗网络(gan)的数据增强方法的使用和系统,以创建合成特征,特别是在机器学习系统具有小的不平衡生物医学数据集的情况下。对尿液样本中的生物标志物进行此类复杂的多变量分析。

3、在一些方面,本公开提供了一种系统,该系统被配置为平衡从生物样本获得的不平衡数据集,该系统包括:一个或多个计算机子系统;和由该一个或多个计算机子系统执行的一个或多个组件,其中该一个或多个组件包括用以下各项训练的生成对抗网络:第一训练集包括对应于来自指定为第一训练输入的患有器官损伤的受试者的无细胞dna(cfdna)生物标志物的量的数据;第二训练集,该第二训练集包括对应于来自指定为第二训练输入的未患有器官损伤的受试者的无细胞dna(cfdna)生物标志物的量的数据;其中该第一数据集和该第二数据集是不平衡的,并且该一个或多个计算机子系统被配置用于通过将来自该第一训练输入和该第二训练输入的该数据的一部分输入到该生成对抗网络中来生成该第一数据集和/或该第二数据集的一组合成特征。

4、在一些情况下,该生成对抗网络被配置为条件生成对抗网络、被配置为原始生成对抗网络、被配置为表格生成对抗网络、被配置为表格式生成对抗网络。在一些情况下,该生成对抗网络进一步用附加训练集训练,该附加训练集包括对应于来自指定为附加训练输入的患有器官损伤的受试者的甲基化cfdna生物标志物(m-cfdna)的量的数据;该附加训练集包括对应于来自指定为附加训练输入的未患有器官损伤的受试者的甲基化cfdna生物标志物(m-cfdna)的量的数据。

5、在一些情况下,其中该生成对抗网络进一步用附加训练集来训练,该附加训练集包括对应于来自指定为附加训练输入的患有器官损伤的受试者的炎性生物标志物的量的数据;该附加训练集包括对应于来自指定为附加训练输入的未患有器官损伤的受试者的炎性生生物标志物的量的数据。该炎性生生物标志物是趋化因子(c-x-c基序)配体家族的成员,诸如c-x-c基序趋化因子配体1(cxcl1)、c-x-c基序趋化因子配体2(cxcl2)、c-x-c基序趋化因子配体5(cxcl5)、c-x-c基序趋化因子配体9(cxcl9)(mig)或c-x-c基序趋化因子配体10(cxcl10)(ip-10)。

6、在一些情况下,该生成对抗网络进一步用附加训练集来训练,该附加训练集包括对应于来自指定为附加训练输入的患有器官损伤的受试者的凋亡生物标志物的量的数据;该附加训练集包括对应于来自指定为附加训练输入的未患有器官损伤的受试者的凋亡生物标志物的量的数据。在一些情况下,该凋亡生物标志物是丛生蛋白。

7、在一些情况下,该生成对抗网络进一步用附加训练集训练,该附加训练集包括对应于来自指定为附加训练输入的患有器官损伤的受试者的蛋白质的量的数据;该附加训练集包括对应于来自指定为附加训练输入的未患有器官损伤的受试者的蛋白质的量的数据。在一些情况下,该蛋白质是白蛋白,但该蛋白质也可为总蛋白质。

8、在一些方面,该一个或多个计算机子系统进一步被配置用于确定该第一数据集和/或该第二数据集的该合成特征的一个或多个特性。在一些方面,该一个或多个计算机子系统进一步被配置为使用模拟图像来训练机器学习模型。可在该第一数据输入、该第二数据输入上或在任何数量的数据输入上训练此类机器学习模型。在一些情况下,在该第一数据输入和该第二数据输入上训练该机器学习模型,但不在该一组合成特征上训练。在一些情况下,该机器学习模型是ctgan、smote、svm-smote、adasyn。

9、在一些情况下,该生物样本是尿液,但其也可为血液、支气管灌洗液或另一合适的体液。在一些情况下,该器官是同种异体移植物,并且该损伤是由该受试者对该同种异体移植物的排斥引起的。在一些情况下,该器官是肾脏、胰腺、心脏、肺或肝脏。在一些情况下,该器官是肾脏。在一些情况下,该损伤是慢性肾脏损伤(cki)或急性肾脏损伤(aki)。在一些情况下,该损伤由该受试者遭受的病毒感染引起,诸如病毒感染由sars-cov-2、cmv或bkv引起。在一些情况下,该损伤是伤害该器官的癌症,诸如膀胱癌或肾脏癌。在一些情况下,该受试者是人。

10、在一些方面,本公开提供了一种系统,该系统被配置为分析从生物样本获得的数据集,该系统包括:一个或多个计算机子系统;和由该一个或多个计算机子系统执行的一个或多个组件,其中该一个或多个组件包括用对应于来自受试者的cfdna的量的训练集训练的生成对抗网络;并且其中该一个或多个计算机子系统被配置用于通过将该训练数据的子集输入到该生成对抗网络中来从该生物样本生成合成数据集。在一些情况下,该训练数据的至少一个子集用生物条件进行注释,诸如急性排斥的生物条件、慢性肾脏你损伤(cki)、急性肾脏损伤(aki)的生物条件、co vid-19的生物条件、或健康或稳定的生物条件。在一些情况下,该cfdna来自尿液样本。在其他情况下,该cfdna来自血液或血浆样本,但是多种体液也是合适的,诸如唾液、支气管灌洗液等。

11、在一些情况下,该生成对抗网络进一步用附加训练集训练,该附加训练集包括对应于来自受试者的甲基化cfdna生物标志物(m-cfdna)的量的数据;进一步用附加训练集来训练,该附加训练集包括对应于来自受试者的炎性生物标志物的量的数据,诸如趋化因子(c-x-c基序)配体家族的成员,例如:c-x-c基序趋化因子配体1(cxcl 1)、c-x-c基序趋化因子配体2(cxcl2)、c-x-c基序趋化因子配体5(cxcl5)、c-x-c基序趋化因子配体9(cxcl9)(mig)或c-x-c基序趋化因子配体10(cxcl10)(ip-10)。在一些情况下,该生成对抗网络进一步用附加训练集来训练,该附加训练集包括对应于来自受试者的凋亡生物标志物的量的数据,诸如丛生蛋白。

12、在一些情况下,该生成对抗网络进一步用附加训练集来训练,该附加训练集包括对应于蛋白质的量的数据,诸如白蛋白或总蛋白质。在一些情况下,该受试者是人。

13、在一些方面,本公开提供了一种非暂时性计算机可读介质,该非暂时性计算机可读介质存储能够在一个或多个计算机系统上执行的程序指令,用于执行用于生成样本的模拟图像的计算机实施的方法,其中该计算机实施的方法包括:一个或多个计算机子系统;和由该一个或多个计算机子系统执行的一个或多个组件,其中该一个或多个组件包括用对应于来自受试者的cfdna的量的训练集训练的生成对抗网络;并且其中该一个或多个计算机子系统被配置用于通过将该训练数据的子集输入到该生成对抗网络中来从该生物样本生成合成数据集。

14、在一些方面,本公开提供了一种非暂时性计算机可读介质,该非暂时性计算机可读介质存储能够在一个或多个计算机系统上执行的程序指令,用于执行用于生成样本的模拟图像的计算机实施的方法,其中该计算机实施的方法包括:一个或多个计算机子系统:和由该一个或多个计算机子系统执行的一个或多个组件,其中该一个或多个组件包括用训练集训练的生成对抗网络,该训练集包括对应于来自受试者的无细胞dna(cfdna)生物标志物的量的数据,第一训练集包括对应于来自指定为第一训练输入的患有器官损伤的受试者的无细胞dna(cfdna)生物标志物的量的数据;第二训练集包括对应于来自指定为第二训练输入的未患有器官损伤的受试者的无细胞dna(cfdna)生物标志物的量的数据;其中该第一数据集和该第二数据集是不平衡的,并且该一个或多个计算机子系统被配置用于通过将来自该第一训练输入和该第二训练输入的该数据的一部分输入到该生成对抗网络中来生成该第一数据集和/或该第二数据集的一组合成特征。

本文地址:https://www.jishuxx.com/zhuanli/20241021/321623.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。