一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

电子病历的分词方法、装置及电子设备与流程

2022-03-02 01:15:00 来源:中国专利 TAG:


1.本发明涉及信息处理技术领域,尤其是涉及一种电子病历的分词方法、装置及电子设备。


背景技术:

2.在医疗领域,症状的实体抽取对电子病历的有效分解具有十分重要的作用。现有的抽取过程是,采用分词工具和特定领域的词库从电子病例中抽取出症状信息,并基于症状信息判断部位属性。
3.但是,对于一些复合词,词库中往往并不存在,会导致语句的分词结果不正确,而不正确的分词结果会影响患者病情判定结果的准确性。


技术实现要素:

4.有鉴于此,本发明的目的在于提供一种电子病历的分词方法、装置及电子设备,以提高分词结果的准确性。
5.第一方面,本发明实施例提供一种电子病历的分词方法,该方法应用于电子设备,该方法包括:获取待处理的电子病例中的初始语句对应的初始分词集合;其中,初始分词集合中包括初始语句对应的初始症状名称和初始部位名称;判断初始症状名称中是否包含表征部位的词语,如果是,对初始症状名称进行第一分词操作,得到初始症状名称对应的第一分词集合;其中,第一分词集合包含的每个第一词语的文本长度均小于初始症状名称的文本长度;根据第一分词集合以及预存的医疗词库,确定初始语句对应的目标症状名称及初始语句对应的目标部位名称;其中,预存的医疗词库包括症状信息以及非具体症状信息,非具体症状信息用于表征患者对疾病的感受。
6.进一步地,上述获取待处理的电子病例中初始语句对应的初始分词集合的步骤,包括:从待处理的电子病例中获取初始语句;对初始语句进行结构化处理,得到初始语句对应的初始分词集合;其中,结构化处理用于从初始语句中提取出与多个预设字段类型匹配的文本内容。
7.进一步地,上述对初始症状名称进行第一分词操作,得到初始症状名称对应的第一分词集合的步骤,包括:对初始症状名称进行多次不同位置的分割操作;根据分割操作的分割结果确定初始症状名称对应的第一分词集合。
8.进一步地,上述根据分割操作的分割结果确定初始症状名称对应的第一分词集合的步骤,包括:遍历分割结果中的分割词语,将与医疗词库匹配的分割词语确定为目标分割词语;根据目标分割词语确定初始症状名称对应的第一分词集合。
9.进一步地,上述根据第一分词集合以及医疗词库,确定初始语句对应的目标症状名称的步骤,包括:逆向遍历第一分词集合中的第一词语,将与医疗词库中的症状信息或者非具体症状信息匹配的第一词语确定为初始语句对应的目标症状名称。
10.进一步地,上述根据第一分词集合以及医疗词库,确定初始语句对应的目标部位
名称的步骤,包括:根据第一分词集合以及目标症状名称,确定第一分词集合中包含的第一部位名称;根据第一部位名称以及初始部位名称,确定初始语句对应的目标部位名称。
11.进一步地,上述根据第一分词集合以及目标症状名称,确定第一分词集合中包含的第一部位名称的步骤,包括:在第一分词集合中将目标症状名称对应的第一词语删除;将第一分词集合中剩余的第一词语进行拼接,并将拼接结果确定为第一分词集合中包含的第一部位名称。
12.第二方面,本发明实施例还提供一种电子病历的分词装置,该装置包括:获取模块,用于获取待处理的电子病例中的初始语句对应的初始分词集合;其中,初始分词集合中包括初始语句对应的初始症状名称和初始部位名称;第一分词模块,用于判断初始症状名称中是否包含表征部位的词语,如果是,对初始症状名称进行第一分词操作,得到初始症状名称对应的第一分词集合;其中,第一分词集合包含的每个第一词语的文本长度均小于初始症状名称的文本长度;确定模块,用于根据第一分词集合以及预存的医疗词库,确定初始语句对应的目标症状名称及初始语句对应的目标部位名称;其中,预存的医疗词库包括症状信息以及非具体症状信息,非具体症状信息用于表征患者对疾病的感受。
13.第三方面,本发明实施例还提供一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的计算机可执行指令,处理器执行计算机可执行指令以实现上述第一方面的电子病历的分词方法。
14.第四方面,本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现上述第一方面的电子病历的分词方法。
15.与现有技术相比,本发明具有以下有益效果:
16.本发明实施例提供的上述电子病历的分词方法、装置及电子设备,首先获取电子病例中的初始语句对应的初始分词集合,并判断初始症状名称中是否包含表征部位的词语,如果是,对初始症状名称进行第一分词操作,得到初始症状名称对应的第一分词集合,最终,根据第一分词集合以及医疗词库,确定初始语句对应的目标症状名称及初始语句对应的目标部位名称。本发明在得到初始分词集合的基础上,判断如果初始分词集合中的初始症状名称包含表征部位的词语,在此对初始症状名称进一步分词,将初始症状名称中的表征部位的词语进一步提取,得到准确的目标症状名称以及目标部位名称,避免了由于复合词语的存在导致的分词结果不准确的情况,提高了分词结果的准确性。
17.本公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本公开的上述技术即可得知。
18.为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
19.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
20.图1为本发明实施例提供的一种电子系统的结构示意图;
21.图2为本发明实施例提供的一种电子病历的分词方法的流程图;
22.图3为本发明实施例提供的另一种电子病历的分词方法的流程图;
23.图4为本发明实施例提供的另一种电子病历的分词方法的流程图;
24.图5为本发明实施例提供的一种电子病历的分词装置的结构示意图;
25.图6为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
26.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
27.现有技术中,对于医疗电子病历的分词,通常的方式是:对待处理文本按照业务场景进行预处理后得到输入文本;采用分词工具 词库的方式或者利用统计方法或者神经网络等方法训练得到的分词模型,对输入文本进行分词,并标注分词结果。
28.一般情况下,医疗词库中存放的都是诸如症状、药品、体征、手术名称等相对标准的词,但是由于词库不可能包含所有的诸如症状等词语,如常见的症状复合词等,造成通过逻辑判断的部位与当前的症状名称不匹配的问题。
29.为了解决现有技术中存在的上述问题,本发明实施例提供一种电子病历的分词方法、装置及电子设备,以提高分词结果的准确性。
30.参照图1所示的电子系统100的结构示意图。该电子系统可以用于实现本发明实施例的电子病历的分词方法和装置。
31.如图1所示的一种电子系统的结构示意图,电子系统100包括一个或多个处理设备102、一个或多个存储装置104、输入装置106、输出装置108以及一个或多个数据采集设备110,这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意,图1所示的电子系统100的组件和结构只是示例性的,而非限制性的,根据需要,电子系统也可以具有其他组件和结构。
32.处理设备102可以为服务器、智能终端,或者是包含中央处理单元(cpu)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元的设备,可以对电子系统100中的其它组件的数据进行处理,还可以控制电子系统100中的其它组件以执行电子病历的分词功能。
33.存储装置104可以包括一个或多个计算机程序产品,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令,处理设备102可以运行程序指令,以实现下文的本发明实施例中(由处理设备实现)的客户端功能以及/或者其它期望的功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据,例如应用程序使用和/或产生的各种数据等。
34.输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风
和触摸屏等中的一个或多个。
35.输出装置108可以向外部(例如,用户)输出各种信息(例如,图像或声音),并且可以包括显示器、扬声器等中的一个或多个。
36.数据采集设备110可以获取待处理数据,并且将该数据存储在存储装置104中以供其它组件使用。
37.示例性地,用于实现根据本发明实施例的电子病历的分词方法、装置及电子设备中的各器件可以集成设置,也可以分散设置,诸如将处理设备102、存储装置104、输入装置106和输出装置108集成设置于一体,而将数据采集设备110设置于可以采集到的指定位置。当上述电子系统中的各器件集成设置时,该电子系统可以被实现为诸如相机、智能手机、平板电脑、计算机、车载终端等智能终端。
38.图2为本发明实施例提供的一种电子病历的分词方法的流程图,该方法应用于电子设备,参见图2,该方法包括以下步骤:
39.s202:获取待处理的电子病例中的初始语句对应的初始分词集合;其中,初始分词集合中包括初始语句对应的初始症状名称和初始部位名称;
40.本步骤中,对待处理的电子病历中,获取初始语句,并获取初始语句对应的初始分词集合。初始语句为电子病历中涉及患者疾病信息的文本,一个电子病历中可以获取多个初始语句。
41.初始语句的初始分词集合,可以是预先对初始语句进行分词处理得到的词语的集合,具体地,可以是利用分词工具得到的分词集合,也可以是通过自然文本分割处理算法得到的分词集合,还可以是对初始语句进行结构化处理得到的分词集合。
42.s204:判断初始症状名称中是否包含表征部位的词语,如果是,对初始症状名称进行第一分词操作,得到初始症状名称对应的第一分词集合;其中,第一分词集合包含的每个第一词语的文本长度均小于初始症状名称的文本长度;
43.当某个部位与症状集合比较紧密,通过分词方法得到的初始分词集合中症状名称对应的分词集合可能包含不必要的部位信息,例如,一个初始语句为“左下肢、右上肢疼痛”,经过分词工具,得到的分词结果为:症状“右上肢疼痛”,部位“左下肢”,显然,这是一个不合理的分词结果。为了解决分词结果中包含复合词语的问题,本发明实施例首先判断初始症状名称中是否包含表征部位的词语,例如可以使用语义匹配的算法进行文本相似度计算。
44.如果判断出第一症状中包含表征部位的词语,对初始症状名称进一步分词,即进行第一分词操作,得到初始症状名称对应的第一分词集合,分割的方法可以与得到初始分词集合的分割方法相同,也可以不相同,本发明实施例对此不进行限定。
45.s206:根据第一分词集合以及预存的医疗词库,确定初始语句对应的目标症状名称及初始语句对应的目标部位名称;其中,预存的医疗词库包括症状信息以及非具体症状信息,非具体症状信息用于表征患者对疾病的感受。
46.医疗词库是通过电子设备获取的包括医疗信息的数据库,医疗信息包括常用症状名称,部位名称等。在实际医生生成病例时,描述患者病情通常会将部位与非具体症状结合,例如上肢麻木,因此,为了更好的区分出类似的非具体症状信息,本发明实施例中首先对医疗词库进行扩充,在医疗词库中增加非具体症状对应的实体,即字段,具体地,可以在
与医疗词库中的词语匹配,确定目标分割词语为皮疹。
63.(2)根据目标分割词语,确定为初始症状名称对应的第一分词集合。
64.进一步地,将初始症状名称中的,除了目标分割词语以外的词语,确定为其他词语,目标分割词语与其他词语的集合,即为初始症状名称对应的第一分词集合。例如,将上述词语中的“暗红色”确定为其他词语,这样,该第一症状的第一分词集合即为:暗红色,皮疹。
65.s312:根据第一分词集合以及预存的医疗词库,确定初始语句对应的目标症状名称及初始语句对应的目标部位名称。
66.本发明上述实施例,通过对第一症状进行进一步的细粒度的分割,并将分割后的每个分割词语与医疗词库进行匹配,从而获取准确的第一分词集合,保证了基于第一分词集合得到的目标症状名称和目标部位名称的准确性。
67.在获取到第一分词集合后,还需要进一步从第一分词集合中提取出准确的目标症状名称和目标部位名称,因此,本发明实施例还提供了另一种电子病历的分词方法,如图4所示,该方法包括:
68.s402:获取待处理的电子病例中的初始语句对应的初始分词集合;
69.s404:判断初始症状名称中是否包含表征部位的词语,如果是,对初始症状名称进行第一分词操作,得到初始症状名称对应的第一分词集合;
70.上述步骤与图2所示的实施例中的步骤s202-s204相同,在此不再赘述。
71.s406:逆向遍历第一分词集合中的第一词语,将与医疗词库中的症状信息或者非具体症状信息匹配的第一词语确定为初始语句对应的目标症状名称;
72.第一分词集合中的每个第一词语,逆向遍历,分别与医疗词库中的症状信息或者非具体症状信息进行匹配,如果发现匹配的词语,则该词语确定为最终的目标症状名称。
73.s408:根据第一分词集合以及目标症状名称,确定第一分词集合中包含的第一部位名称;
74.s410:根据第一部位名称以及初始部位名称,确定初始语句对应的目标部位名称。
75.在一些示例中,可以具体包括:
76.(1)在第一分词集合中将目标症状名称对应的第一词语删除;
77.(2)将第一分词集合中剩余的第一词语进行拼接,并将拼接结果确定为第一分词集合中包含的第一部位名称。
78.下面结合实际应用场景,对本发明实施例提供的方法进行解释说明:
79.步骤1:首先抽取到症状及其部位属性,例如通过分词工具得到初始分词集合,如{“症状名称”:“右下肢疼痛”,“症状部位”:“左上肢”}。
80.步骤2:经过判断,发现症状名称有一个部位名称,则查看该症状词对应的第一分词集合;
81.如“右下肢疼痛”的第一分词集合为:[(

右上肢’,’organ’),(

疼痛’,’非具体症状’)],
[0082]
步骤3:如果第一分词集合中存在“症状名称”或者“非具体症状名称”,则将“症状名称”字段下的名称改为该第一分词集合中包含的词;
[0083]
即将疼痛确定为目标症状名称。
[0084]
综上,经过修改后,信息抽取对应结果为{“症状名称”:“疼痛”,“症状部位”:“右下肢左上肢”},得到了合理的分词结果。
[0085]
通过第一分词集合中的词语替换原症状名称字段的词,使得最终的分词结果更加精准。
[0086]
综上可以发现,本发明中提到的方法,与采用模型训练等方法相比,以较小的代价,换取了症状名称及其部位属性的精准抽取,同时也很大程度上减少了对词库的依赖。此方法还可以延伸到医疗数据中的疾病、手术、检查等实体的属性信息抽取中。
[0087]
基于上述方法实施例,本发明实施例还提供一种电子病历的分词装置,参见图5所示,该装置包括:
[0088]
获取模块502,用于获取待处理的电子病例中的初始语句对应的初始分词集合;其中,初始分词集合中包括初始语句对应的初始症状名称和初始部位名称;
[0089]
第一分词模块504,用于判断初始症状名称中是否包含表征部位的词语,如果是,对初始症状名称进行第一分词操作,得到初始症状名称对应的第一分词集合;其中,第一分词集合包含的每个第一词语的文本长度均小于初始症状名称的文本长度;
[0090]
确定模块506,用于根据第一分词集合以及预存的医疗词库,确定初始语句对应的目标症状名称及初始语句对应的目标部位名称;其中,预存的医疗词库包括症状信息以及非具体症状信息,非具体症状信息用于表征患者对疾病的感受。
[0091]
本发明实施例提供的上述电子病历的分词装置,首先获取电子病例中的初始语句对应的初始分词集合,并判断初始症状名称中是否包含表征部位的词语,如果是,对初始症状名称进行第一分词操作,得到初始症状名称对应的第一分词集合,最终,根据第一分词集合以及医疗词库,确定初始语句对应的目标症状名称及初始语句对应的目标部位名称。本发明在得到初始分词集合的基础上,判断如果初始分词集合中的初始症状名称包含表征部位的词语,在此对初始症状名称进一步分词,将初始症状名称中的表征部位的词语进一步提取,得到准确的目标症状名称以及目标部位名称,避免了由于复合词语的存在导致的分词结果不准确的情况,提高了分词结果的准确性。
[0092]
上述获取待处理的电子病例中初始语句对应的初始分词集合的过程,包括:从待处理的电子病例中获取初始语句;对初始语句进行结构化处理,得到初始语句对应的初始分词集合;其中,结构化处理用于从初始语句中提取出与多个预设字段类型匹配的文本内容。
[0093]
上述对初始症状名称进行第一分词操作,得到初始症状名称对应的第一分词集合的过程,包括:对初始症状名称进行多次不同位置的分割操作;根据分割操作的分割结果确定初始症状名称对应的第一分词集合。
[0094]
上述根据分割操作的分割结果确定初始症状名称对应的第一分词集合的过程,包括:遍历分割结果中的分割词语,将与医疗词库匹配的分割词语确定为目标分割词语;根据目标分割词语确定初始症状名称对应的第一分词集合。
[0095]
上述根据第一分词集合以及医疗词库,确定初始语句对应的目标症状名称的过程,包括:逆向遍历第一分词集合中的第一词语,将与医疗词库中的症状信息或者非具体症状信息匹配的第一词语确定为初始语句对应的目标症状名称。
[0096]
上述根据第一分词集合以及医疗词库,确定初始语句对应的目标部位名称的过
程,包括:根据第一分词集合以及目标症状名称,确定第一分词集合中包含的第一部位名称;根据第一部位名称以及初始部位名称,确定初始语句对应的目标部位名称。
[0097]
上述根据第一分词集合以及目标症状名称,确定第一分词集合中包含的第一部位名称的过程,包括:在第一分词集合中将目标症状名称对应的第一词语删除;将第一分词集合中剩余的第一词语进行拼接,并将拼接结果确定为第一分词集合中包含的第一部位名称。
[0098]
本发明实施例提供的电子病历的分词装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,上述装置的实施例部分未提及之处,可参考前述电子病历的分词方法实施例中的相应内容。
[0099]
本发明实施例还提供了一种电子设备,如图6所示,为该电子设备的结构示意图,其中,该电子设备包括处理器601和存储器602,该存储器602存储有能够被该处理器601执行的计算机可执行指令,该处理器601执行该计算机可执行指令以实现上述电子病历的分词方法。
[0100]
在图6示出的实施方式中,该电子设备还包括总线603和通信接口604,其中,处理器601、通信接口604和存储器602通过总线603连接。
[0101]
其中,存储器602可能包含高速随机存取存储器(ram,random access memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口604(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线603可以是isa(industry standard architecture,工业标准体系结构)总线、pci(peripheral component interconnect,外设部件互连标准)总线或eisa(extended industry standard architecture,扩展工业标准结构)总线等。所述总线603可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
[0102]
处理器601可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器601中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器601可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(digital signal processor,简称dsp)、专用集成电路(application specific integrated circuit,简称asic)、现场可编程门阵列(field-programmable gate array,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器601读取存储器中的信息,结合其硬件完成前述实施例的电子病历的分词方法的步骤。
[0103]
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令在被处理器调用和执行时,该计算机可执行指令促使处理器实现上述电子病历的分词方法,具体实现可参见前述方法实施例,在此不再赘
述。
[0104]
本发明实施例所提供的电子病历的分词方法、装置及电子设备的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
[0105]
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。
[0106]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0107]
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
[0108]
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献