一种用于真实世界研究的软件机器人系统及运行方法
- 国知局
- 2024-08-05 12:10:15
本发明涉及软件机器人,具体涉及一种用于真实世界研究的软件机器人系统及运行方法。
背景技术:
1、随着电子病历系统和医疗信息化水平的提升,如何高效地采集、准确地处理和灵活地利用这些海量数据成为亟待解决的问题。常规数据采集及处理方法依赖于人工操作,不仅效率低下,而且容易出错,难以适应大数据时代的要求。软件机器人能够模拟人工操作,自动执行规则基础的任务,如:数据录入、格式转换等。然而,现有的软件机器人应用主要集中在简单的重复性任务上,对于需要复杂判断和医疗大数据采集、处理及分析任务支持不足,并且在数据工程流程优化方面也存在局限性。目前软件机器人操作流程通常是静态的,缺乏灵活性和适应性,不能根据实时反馈和持续变化的医疗环境进行优化。且其在真实环境中的应用仍面临环境适应性差、数据处理能力有限等问题。针对现有问题通常采用的解决方案是需要复杂的定制化开发,并且对于非标准化的健康医疗数据处理能力有限。
2、因此,需要提供一个既能有效利用大量多源异构健康医疗数据,又能基于这些数据进行真实世界研究(real-world research,rwr),并达到领域高级专家水平的流程自动智能化系统。真实世界研究通过分析在非随机化临床试验设置下收集的数据来评估干预措施(如药物、医疗设备等)在日常医疗实践中的效果。这些研究可为理解和改善健康结局提供真实世界证据和有价值参考。
技术实现思路
1、本发明针对现有技术存在的问题,提供了一种用于真实世界研究的软件机器人系统及运行方法。
2、为实现上述目的,本发明采用的技术方案如下:
3、一种用于真实世界研究的软件机器人系统的运行方法,包括以下步骤:步骤1、设定数据流,并执行数据提取操作:根据数据类型,配置数据流,并连接原始数据源;从原始数据源中提取关键信息;并将提取的信息用于数据预处理;步骤2、对数据进行预处理,并将预处理后的数据进行转换,对转换后的数据进行数据质控操作;步骤3、对质控操作处理后的数据进行综合性分析,根据分析结果运行,其中,第一步、进行描述性统计分析,对用户群体进行分组:根据关键信息,将用户分为不同亚组,有助于了解数据的关键信息和确定需要控制的潜在混杂因素;第二步、使用倾向评分匹配方法,控制潜在混杂因素:通过倾向评分匹配方法来控制混杂因素,确保各亚组之间在基线特征上的平衡;第三步、进行生存分析:采用kaplan-meier生存曲线和cox比例风险回归模型方法进行生存分析,以评估不同亚组之间的生存情况或事件发生率;第四步、结合整合的数据进行安全性评估:对研究中收集到的安全性数据进行分析,评估不同治疗或干预措施的安全性;第五步、通过更改匹配标准和/或调整模型参数进行灵敏性分析,以验证结果的稳健性和可靠性;第六步、根据第一步至第五步各个角度的分析结果,得到分析的全面结果。
4、基于上述技术方案,更进一步地,步骤1中,所述数据提取的流程为:软件机器人系统通过采用自然语言处理和图像识别技术,从原始数据源中提取关键信息,其中,关键信息至少包括用户信息,主诉,现病史,既往史,实验室检验结果以及影像学检查结果。
5、基于上述技术方案,更进一步地,步骤2中,其中,数据质控操作包括异常值检测操作和数据纠正操作;数据质控操作中的异常值检测是利用预设的规则和算法分析数据,识别出数据集中不合逻辑或与已知模式不匹配的离群值、缺失值和不一致值;其中,离群值的检测流程为:使用统计方法或机器学习方法识别数值上超出偏离预设范围的数据点;缺失值的检测和处理流程为:分析数据缺失的模式,并采用相应的策略处理缺失值;不一致值的检测流程为:通过设置规则检查数据中的逻辑错误和不一致性。
6、基于上述技术方案,更进一步地,步骤2中,预处理流程为:采用自动化方式移除无关数据和重复记录,通过将数据转化为一致的格式或者编排形式进行数据规范化处理。数据转换流程为:将预处理后的数据通过内置的映射工具转为统一或预设的格式。其中,预设的规则包括:利用统计方法识别离群值,同时确定数据点的箱线位置和计算数据点z-score绝对值;规则一:如果一个数据点低于q1-1.5iqr或高于q3+1.5iqr,则为离群值,其中,iqr=q3-q1,q3为上四分位数,q1为下四分位数,iqr为四分位点内距;规则二:如果一个数据点的z-score的绝对值大于2,则为离群值,其中,z-score是测量单位;其中,如果采用规则一或规则二判定的结果为离群值,则该数据点即判定为离群值。
7、基于上述技术方案,更进一步地,步骤2中,数据质控操作中的数据纠正流程包括以下步骤:步骤21、数据清洗:对识别为离群、缺失或不一致的数据进行清洗;当异常值数量<总数据的10%时,则用整个数据集的均值或中位数替换异常值;当异常值数量≥总数据的10%,剔除当前特征列,剩余特征进行knn聚类,取k个邻居样本的平均值替换异常值;步骤22、数据验证:清洗后,重新进行数据验证,确保修改措施的有效性和数据的一致性;步骤23、数据记录:记录数据更新前和更新后的版本,确保数据纠正流程的可追溯性。
8、基于上述技术方案,更进一步地,步骤3中,综合性分析还包括机器学习分析,机器学习分析过程包括以下步骤:步骤31、进行数据获取、分类和预处理;其中,数据预处理过程包括数据清洗、数据标准化和归一化、数据集划分;步骤32、进行特征工程处理:包括特征选择处理和特征提取处理;步骤33、进行模型选择和模型训练,其中,使用k折交叉验证评估模型性能,进行交叉验证;步骤34、进行模型评估与优化:评估时,绘制混淆矩阵,计算性能指标并进行分析;优化时,基于特征选择与工程进行特征优化,基于模型调参进行模型参数优化;步骤35、根据评估和优化结果进行模型解释。
9、一种用于真实世界研究的软件机器人系统,采用一种用于真实世界研究的软件机器人系统的运行方法,包括数据输入模块、数据处理模块和数据分析模块;且数据输入模块将处理后的数据传输至数据处理模块进行处理,经提取后的数据传输至数据分析模块进行分析;数据输入模块用于设定数据流、数据提取和数据传输操作;数据处理模块用于数据预处理、数据转换和数据质控操作;数据分析模块用于综合性分析。
10、相对于现有技术,本发明具有以下有益效果:
11、(1)本发明通过软件机器人系统的自动化技术,其设定数据流以及预处理操作,从多种数据源中提取并处理不同来源的数据,降低手动数据录入的错误和时间消耗,显著减少人力资源的投入,提高了数据处理与整体工作效率,且更全面地分析干预措施在不同人群中的表现,其基于这些更为全面的数据自动分析并达到真实世界研究领域的专家水平。
12、(2)本发明通过数据质控操作,可以识别数据集中不合逻辑或与已知模式不匹配的离群值、缺失值和不一致值,进行实时监控用户状况和治疗效果,获取并进行即时数据分析,揭示不同用户群体对医疗干预措施的反应,从而为提高识别哪些治疗方法在实际应用中更有效提供一定的参考。且利用预设规则和算法对数据进行质控操作和错误纠正,降低了错误率,减少误操作,提升了数据的准确性和可靠性。
13、(3)本发明记载的运行方法和软件机器人系统对数据进行综合性分析,通过两种分析方式的分析数据,可应用在真实世界研究中收集、分析和管理与用户相关医疗信息;相较于传统的方式,真实世界研究提供更接近实际临床情境的证据,反映治疗方法在真实世界中的应用效果和安全性,更好地揭示治疗方法在不同人群和环境下的真实效果。
本文地址:https://www.jishuxx.com/zhuanli/20240802/261370.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表