技术新讯 > 医药医疗技术的改进,医疗器械制造及应用技术 > 一种用于医疗大数据的数据标准化治理方法及系统与流程  >  正文

一种用于医疗大数据的数据标准化治理方法及系统与流程

  • 国知局
  • 2024-07-12 10:40:26

所属的技术人员知道,本发明可以实现为系统、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等),还可以是硬件和软件结合的形式,本文一般称为“电路”、“模块”或“系统”。此外,在一些实施例中,本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram),只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

背景技术:

1、随着互联网与医疗的深度融合发展,医疗数据呈现爆发式增长。在庞大的医疗数据面前,数据标准化是对海量医疗数据进行快速挖掘、高效管理和利用的重要前提。在医疗数据标准化的过程中,伴随着技术进步以及应用需求变化,标准化策略也会随之改变。如何根据不同的标准化策略快速高效地对医疗数据进行标准化,是一个亟待解决的问题。

2、例如在授权公告号为cn116525124b的中国专利中公开了一种用于医疗大数据的数据标准化治理方法及系统,包括以下步骤:s100:通过不同的数据采集方式,从数据源处获取各类型的原始医疗数据,并将原始医疗数据存储至医疗原始数据库中;s200:对原始医疗数据进行标准化处理,得到标准医疗数据,将标准医疗数据存储至医疗标准数据库;s300:确定医疗主题对象及其关联维度,生成医疗主题对象表,从医疗标准数据库中调取医疗主题对象关联维度的标准医疗数据填入医疗主题对象表;s400:获取数据服务的医疗专题场景,生成医疗专题表,并根据医疗专题场景,确定需要关注的医疗主题对象,并从医疗主题对象表中调取关联的标准医疗数据进行数据融合后添加至医疗专题表。

3、而在授权公告号为cn106919793b的中国专利中公开了一种医疗大数据的数据标准化处理方法及装置,该方法包括:根据待处理语句的实体标记序列,确定待处理语句的第一组候选实体;根据预先设置的医学本体术语抽词策略对待处理语句进行抽词,确定第二组候选实体;从第一组候选实体和第二组候选实体中确定待处理语句中的实体;根据预先设置的句法分析筛选规则进行筛选,确定待处理语句中的候选标准化术语;在待处理语句中的候选标准化术语与预先设置的医学本体术语库匹配成功,将待处理语句中的候选标准化术语确定为标准化术语;若匹配失败,生成匹配失败问题报告或对匹配失败且术语类型为疾病类的候选标准化术语进行模糊匹配,以确定标准化术语。

4、以上专利均存在本背景技术提出的问题:现有的医疗数据标准化治理方法在标准化策略发生变化时,需要重新对所有的医疗数据进行标准化,存在工作量大、效率低的问题。

技术实现思路

1、为了克服现有技术存在的缺陷与不足,本发明提供一种用于医疗大数据的数据标准化治理方法及系统,通过计算标准化策略相似度、标准化困难度和标准化重要度,大大减少了医疗数据标准化的工作量,提高了医疗数据标准化效率。

2、为了达到上述目的,本发明采用以下技术方案:

3、本发明提供一种用于医疗大数据的数据标准化治理方法,包括下述步骤:

4、获取医疗数据,同时获取历史标准化策略和最新标准化策略;

5、根据历史标准化策略和最新标准化策略计算标准化策略相似度,将医疗数据回退至标准化策略相似度最高的历史标准化节点;

6、根据最新标准化策略确定涉及的医疗数据范围,得到需要重新标准化的医疗数据子集;

7、将最新标准化策略代入标准化困难度计算公式中计算标准化困难度;

8、将医疗数据子集代入标准化重要度计算公式中计算标准化重要度;

9、根据标准化策略相似度、标准化困难度和标准化重要度计算标准化系数,若标准化系数大于预设标准化系数阈值,则通过最新标准化策略对医疗数据子集中的医疗数据进行标准化。

10、作为优选的技术方案,计算所述标准化策略相似度的具体步骤包括:

11、将每一条历史标准化策略识别为一组历史标准化策略单元,形成一个历史标准化策略单元集合,同时将最新标准化策略识别为最新标准化策略单元,形成最新标准化策略单元集合;

12、将每一条历史标准化策略识别为一组历史标准化策略单元,形成一个历史标准化策略单元集合,同时将最新标准化策略识别为最新标准化策略单元,形成最新标准化策略单元集合;

13、将历史标准化策略单元集合和最新标准化策略单元集合代入标准化策略相似度计算公式中计算标准化策略相似度,标准化策略相似度计算公式为:;式中表示第个历史标准化策略单元集合,表示最新标准化策略单元集合,表示第个历史标准化策略单元集合与最新标准化策略单元集合并集元素个数,表示第个历史标准化策略单元集合与最新标准化策略单元集合交集元素个数,表示第个历史标准化策略与最新标准化策略的标准化策略相似度。

14、作为优选的技术方案,获取所述医疗数据子集的具体步骤包括:

15、将最新标准化策略识别为最新标准化策略单元;

16、通过自然语言处理技术或关键词匹配方法识别最新标准化策略单元中包含的数据项;

17、将数据项对应的医疗数据复制为一个新的数据集,得到医疗数据子集。

18、作为优选的技术方案,所述标准化困难度计算公式为:;

19、式中表示医疗数据子集中医疗数据的数据量,表示医疗数据子集中第条医疗数据是否存在缺失值,若存在缺失值,则,若不存在缺失值,则,表示调节因子,表示医疗数据子集中数值型医疗数据的数据量,表示医疗数据子集中非数值型医疗数据的数据量,表示医疗数据子集的标准化困难度。

20、作为优选的技术方案,计算所述标准化重要度的具体步骤包括:计算医疗数据子集中第个数据项的重要度,用下式表示:;

21、式中表示数据项关联度,若医疗数据子集中的第个数据项与第个数据项的关键词匹配,则,反之,表示医疗数据中数据项的数量,表示医疗数据子集中第个数据项的重要度;

22、将数据项的重要度代入标准化重要度计算公式中计算标准化重要度,标准化重要度计算公式为:;

23、式中表示医疗数据子集中第个数据项的重要度,表示医疗数据子集中数据项的数量,表示医疗数据子集的标准化重要度。

24、作为优选的技术方案,计算所述标准化系数的具体步骤包括:

25、获取计算得到的标准化策略相似度、标准化困难度和标准化重要度;

26、将获取到的标准化策略相似度、标准化困难度和标准化重要度代入标准化系数计算公式中计算标准化系数,标准化系数计算公式为:

27、;

28、式中表示医疗数据子集的标准化困难度,表示医疗数据子集的标准化重要度,表示标准化困难度权重,表示标准化重要度权重,表示第个历史标准化策略与最新标准化策略的标准化策略相似度,表示历史标准化策略的数量,表示取最大值,表示标准化系数。

29、在此需要说明的是,这里的预设标准化系数阈值、调节因子、标准化困难度权重和标准化重要度权重的取值方式为:获取5000组医疗数据、历史标准化策略和最新标准化策略,对医疗数据是否使用最新标准化策略重新标准化进行区分,将医疗数据、历史标准化策略和最新标准化策略代入标准化系数计算公式中进行计算,将计算得到的标准化系数和区分结果同时导入拟合软件中,输出符合区分结果区分准确率的最优预设标准化系数阈值、调节因子、标准化困难度权重和标准化重要度权重。

30、本发明还提供一种用于医疗大数据的数据标准化治理系统,包括:

31、数据获取模块,用于获取医疗数据、历史标准化策略和最新标准化策略;

32、标准化策略相似度计算模块,用于根据历史标准化策略和最新标准化策略计算标准化策略相似度,将医疗数据回退至标准化策略相似度最高的历史标准化节点;

33、医疗数据子集划分模块,用于根据最新标准化策略确定涉及的医疗数据范围,得到需要重新标准化的医疗数据子集;

34、标准化困难度计算模块,用于将最新标准化策略代入标准化困难度计算公式中计算标准化困难度;

35、标准化重要度计算模块,用于将医疗数据子集代入标准化重要度计算公式中计算标准化重要度;

36、标准化系数计算模块,用于根据标准化策略相似度、标准化困难度和标准化重要度计算标准化系数,若标准化系数大于预设标准化系数阈值,则通过最新标准化策略对医疗数据子集中的医疗数据进行标准化;

37、控制模块,用于控制数据获取模块、标准化策略相似度计算模块、医疗数据子集划分模块、标准化困难度计算模块、标准化重要度计算模块和标准化系数计算模块的运行。

38、本发明的一种电子设备,包括:处理器和存储器,其中,所述存储器中存储有可供处理器调用的计算机程序,所述处理器通过调用所述存储器中存储的计算机程序,执行一种用于医疗大数据的数据标准化治理方法。

39、本发明的一种计算机可读存储介质,储存有指令,当所述指令在计算机上运行时,使得计算机执行一种用于医疗大数据的数据标准化治理方法。

40、本发明与现有技术相比,具有如下优点和有益效果:

41、(1)本发明通过计算标准化策略相似度、标准化困难度和标准化重要度进而得到标准化系数,通过标准化系数判断是否使用最新标准化策略对医疗数据进行标准化,提高了医疗数据标准化效率。

42、(2)本发明通过对比历史标准化策略和最新标准化策略得到标准化策略相似度,并将医疗数据回退至标准化策略相似度最高的历史标准化节点,大大减少了医疗数据标准化的工作量。

本文地址:https://www.jishuxx.com/zhuanli/20240614/88449.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。