一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

医疗OCR数据优化模型训练方法、优化方法及设备与流程

2022-04-24 23:23:04 来源:中国专利 TAG:

医疗ocr数据优化模型训练方法、优化方法及设备
技术领域
1.本发明涉及智能医疗数据处理技术领域,尤其涉及一种医疗ocr数据优化模型训练方法、优化方法及相关的电子设备和计算机可读存储介质。


背景技术:

2.随着机器学习的快速发展,光学文字识别(ocr)目前在文字识别取得了长足的进步,已经出现多种商业应用如百度ocr等。在医疗领域中,临床医学研究、病案结构化、核保理赔等都要对纸质数据进行结构化。如何将纸质医疗数据转换为计算机可处理的结构数据已成为智能医疗发展的关键。医疗图片数据结构化也需要进行光学识别,识别的结果决定了后续过程。然而,医疗领域的光学文本识别的准确性还存在较多的问题。与通用领域的图像文字识别不同,医疗图像文字识别包含大量医疗专业术语,如病历中疾病的名称和字段名称,而且术语库的规模较大,常用的医疗专用术语已超过100万。而且,医学领域包含大量的生僻的、非常用的字符,这些字符在通用文本中出现的频率极低,同时罕见病等非生僻字的医疗术语在语料库中的出现频率也很低,如“川崎病”,这些低频术语的识别准确率较低(如“睑”经常会识别为“脸”)。另外,医疗领域常用字符指代各类病症及状态等,但这些字符的出现频率也较低,因此ocr文字识别模型难以准确识别这些字符。在病历的结构上,与普通的文本材料不同,医疗数据通常具有特定结构,如病历报告中包含多个字段的信息,不同字段包含的数据类型不同,然而目前的文本识别系统缺少对结构信息的利用。医疗领域的文本语言风格非常简练,医务人员在形成文档时经常省略大量非医学词语。以上各个方面对ocr和已有的后处理模型都提出了新的挑战。


技术实现要素:

3.为了解决现有技术中存在的ocr无法准确识别异常或错误数据问题,本发明提供了如下技术方案。
4.本发明在第一方面提供了一种医疗ocr优化模型训练方法,包括:获取大规模无标注医疗文本数据,并对所述大规模无标注医疗文本数据中的医疗术语和字符进行识别以形成训练集;对所述训练集进行预训练处理以得到用于训练所述医疗ocr优化模型的预训练数据集,并利用所述预训练数据集对所述医疗ocr优化模型进行训练;其中,所述预训练处理包括:对所述训练集中的低频术语和低频字符进行数据增广处理;将所述训练集中的第一目标字符随机替换为错误字符;对所述训练集中的第二目标字符进行遮挡;以及将所述训练集切分为多个文本段落,得到用于训练所述医疗ocr优化模型的预训练数据集。
5.优选地,在所述对所述训练集中的低频术语和低频字符进行数据增广处理之前,
进一步包括:统计识别出的所述训练集中的每个医疗术语和字符的频次,根据相应的低频阈值来确定所述训练集中的低频术语和低频字符。
6.优选地,在所述形成训练集之后,进一步包括:利用医疗知识图谱对所述训练集进行医疗术语的表示学习,并在表示空间进行映射。
7.优选地,所述将所述训练集中的第一目标字符随机替换为错误字符,进一步包括:从所述训练集中的医疗术语和字符中筛选第一目标字符,其中所述第一目标字符包括字形相似字典中所包含的字符和/或医疗常用字符。
8.优选地,所述利用所述预训练数据集对所述医疗ocr优化模型进行训练,进一步包括:在已将所述第一目标字符随机替换为错误字符之后,将当前训练集作为第一数据集,迭代地根据当前上下文提取所述第一数据集中的所述错误字符,并预测与所述错误字符相对应的所述第一目标字符以训练所述医疗ocr优化模型的字符纠错能力。
9.优选地,所述利用所述预训练数据集对所述医疗ocr优化模型进行训练,进一步包括:在已遮挡所述第二目标字符之后,将当前训练集作为第二数据集,迭代地根据当前上下文预测与所述第二数据集中的被遮挡位置相对应的所述第二目标字符以训练所述医疗ocr优化模型识别遮挡内容的能力。
10.优选地,所述利用所述预训练数据集对所述医疗ocr优化模型进行训练,进一步包括:迭代地根据当前上下文预测所述预训练数据集中的段落结束语句以训练所述医疗ocr优化模型自动分段的能力。
11.本发明在第二方面提供了一种医疗ocr数据优化方法,包括:获取目标医疗图像,并对目标医疗图像进行ocr识别,得到待优化文本数据;将所述待优化文本数据输入医疗ocr优化模型,以使所述医疗ocr优化模型输出与所述待优化文本数据对应的医疗术语和字符识别结果;其中,所述医疗ocr优化模型预先基于第一方面所述的医疗ocr优化模型训练方法得到。
12.本发明另一方面提供了一种电子设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述指令并执行第一方面所述的医疗ocr数据优化模型训练方法,或者执行基于第二方面所述的医疗ocr数据优化方法。
13.本发明又一方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述多条指令可被处理器读取并执行第一方面所述的医疗ocr数据优化模型训练方法,或者执行基于第二方面所述的医疗ocr数据优化方法。
14.本发明的有益效果是:本发明的技术方案在数据增强的基础上,利用医疗领域预训练语言模型对医疗ocr结果进行结构化提取、错误识别及优化,提升了医疗图像文字识别的准确率,尤其是提升了对医疗术语、病历关键词等关键词汇的识别准确率,同时能够对文本段落进行辅助切分,用于实现后续的医疗知识抽取、事件抽取。
附图说明
15.图1为本发明所述的医疗ocr优化模型训练方法的流程图。
16.图2为本发明所述的用于模型训练的预训练数据集的形成过程示意图。
17.图3为本发明所述的面向文字识别后处理的预训练语言模型的训练过程示意图。
18.图4为本发明所述的医疗ocr数据优化方法的流程图。
19.图5为本发明所述的医疗图像文字识别方法的详细流程图。
具体实施方式
20.为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。
21.本发明提供的方法可以在如下的终端环境中实施,该终端可以包括一个或多个如下部件:处理器、存储器和显示屏。其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现下述实施例所述的方法。
22.处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分,通过运行或执行存储在存储器内的指令、程序、代码集或指令集,以及调用存储在存储器内的数据,执行终端的各种功能和处理数据。
23.存储器可以包括随机存储器(random access memory,ram),也可以包括只读存储器(read-only memory,rom)。存储器可用于存储指令、程序、代码、代码集或指令。
24.显示屏用于显示各个应用程序的用户界面。
25.除此之外,本领域技术人员可以理解,上述终端的结构并不构成对终端的限定,终端可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件,在此不再赘述。
26.针对上述问题,为了实现对医疗图像ocr结果的优化,本发明提出一种医疗ocr优化模型训练方法,以及基于预训练语言模型的医疗图像文字识别(ocr)的优化方法,本方法利用医疗预训练语言模型对ocr的结果进行后处理。具体利用预设训练模型来识别ocr得到的文本中出错的字符,并预测正确的字符,以得到正确的文本识别结果。本发明在数据增强的基础上利用医疗领域预训练语言模型对医疗ocr结果进行结构化提取、错误识别及优化,旨在提升医疗ocr的准确率。
27.实施例一如图1所示,本发明实施例提供了一种医疗ocr优化模型训练方法,包括:s101、获取大规模无标注医疗文本数据,并对所述大规模无标注医疗文本数据中的医疗术语和字符进行识别以形成训练集;其中,预训练语言模型的原始训练数据为大规模医疗文本数据,这些数据来自于临床指南、医学教材、医疗百科、医疗论坛和积累的病历中的文本数据。基于该大规模无标注的医疗文本数据,利用现有的医疗命名实体识别模型进行识别处理得到初步的医疗术语和字符识别结果,如疾病、诊断、手术、药品、病历关键词(主诉、超声诊断等),具体的术语识别模型可以采用基于深度学习的实体识别、基于统计学习的实体识别或基于词典的方法。
28.s102、对所述训练集进行预训练处理以得到用于训练所述医疗ocr优化模型的预训练数据集,并利用所述预训练数据集对所述医疗ocr优化模型进行训练。
29.为提升医疗图像文本识别的准确率,本发明主要针对面向文字识别后处理的预训练语言模型,对文字识别的结果进行优化,得到对医疗图像文字识别具有更优处理能力的模型。在优选的实施例中,更优的处理能力可以体现在模型能够正确地识别并修正文字识别的错误,补充缺失的字符以及对长文本进行合理的段落划分。因此在步骤s102中,对步骤s101得到的训练集进行预训练处理,得到增强上述识别处理能力的新的训练集,并根据新的训练集对原始医疗ocr优化模型进行训练。
30.在进一步优选的实施例中,可以利用医疗知识图谱对所述训练集进行医疗术语的表示学习,并在表示空间进行映射。具体可以利用词典、模型对大规模无标注医疗文本数据进行标注,利用医疗知识图谱和标注文本进行术语的表示学习,其中知识图谱可以采用图神经网络(gnn),文本可以采用transformer进行表示学习,并在表示空间进行映射,使得不同模态学习到的数据具有相同的向量表示。
31.其中,所述预训练处理可以包括以下一个或多个方面,如图2所示:s1021、对所述训练集中的低频术语和低频字符进行数据增广处理。
32.针对生僻字的识别,本发明利用复述生成实现数据增广,即增加低频词字的词频,以更好地满足训练需求。具体方式可以选取语句级复述生成方式,可以结合seq2seq模型等,即直接复制并粘贴低频术语和低频字符出现的语句。在具体操作中,可以对医疗文本及术语进行统计分析,得到训练集中的每个医疗术语和字符的频次。根据相应的低频阈值来确定训练集中的低频术语和低频字符,例如出现次数低于20次的术语,或出现次数低于5次的字符等。对这部分数据进行增广对该类文本数据进行增强,得到更为平衡的数据。
33.s1022、将训练集中的第一目标字符随机替换为错误字符。
34.具体地,可以从所述训练集中的识别得到的医疗术语和字符中筛选第一目标字符,其中该第一目标字符可以包括字形相似字典中所包含的字符和/或医疗常用字符。由于ocr识别是基于图像的识别,字形相似的字符容易被错误识别。因此针对异常字符的识别,本发明利用字形相似字典对医疗文本中的字符随机使用同形字进行替换,在训练数据中将同形字库的正确的字符替换为错误的形近字。字形相似字典包含常见字符(如“人”和“如”)以及医疗常用字符(如“脸”和“睑”)。举例而言,可以将原始训练集中正确的医学术语“睑板腺”,确定第一目标字符“睑”。根据同形字库对应的字符“脸”替换为错误术语“脸板腺”。在语言模型训练时,可以将包含错误的训练集输入预训练模型,正向地激励模型预测出不符合当前上下文的字符“脸”,并相应地预测出正确的目标字符“睑”,从而提高模型的文本纠错能力。
35.在进一步优选的实施例中,在随机选择被替换的目标字符时,相比于普通字符,可以提高医疗常用字符的替换频率,以使模型预测出正确的医疗常用字符。由于所述第一目标字符可以是一个以上,即可以将多个易错字符进行随机替换,并将当前训练集作为第一数据集,因此相应地,在对医疗ocr优化模型进行训练期间,迭代地根据当前上下文提取所述第一数据集中的每个错误字符,并预测与每个错误字符相对应的每个正确的第一目标字符,以训练所述医疗ocr优化模型的字符纠错能力。
36.s1023、对训练集中的第二目标字符进行遮挡。
37.针对于医疗图像文字识别后经常出现的字符缺失问题,本发明优化后的语言模型需要具备缺少词汇和字符的识别能力。可以按照预设概率,从所述训练集中的识别得到的
医疗术语和字符中筛选要遮挡的第二目标字符,然后在语言模型的训练时预测被遮挡位置的内容。即在完成一个或多个字符的遮挡操作之后,将当前训练集作为第二数据集。相应地,在对医疗ocr优化模型进行训练期间,迭代地根据当前上下文预测与第二数据集中的被遮挡位置相对应的每个正确的第二目标字符,以训练所述医疗ocr优化模型识别缺失内容的能力。
38.与常用的语言模型遮挡操作不同的是,本发明优选地提高医疗术语词汇被遮挡的概率。在优选的实施例中,医疗术语随机替换的概率可以是其他词汇的3倍,同时也会部分地遮挡医疗词汇中的字符。字符的替换频率可以与字符在语料库中出现的次数成反比,越低频的字符被替换的概率越高。
39.s1024、将所述训练集切分为多个文本段落,得到用于训练所述医疗ocr优化模型的预训练数据集。
40.针对病历结构化的特点,在预训练阶段,本发明利用关键词和语言模型进行不同文本块的划分,将医疗数据自动切分为多个独立的文本块,并作为单独的任务训练语言模型,使模型具有字段划分的能力。正确拆分得到的段落对后续的医疗知识抽取、事件抽取都具有重要作用。切分的方式可以利用预先获取的关键字等。在医疗文本中不同的段落描述的内容差异通常较大,本发明的语言模型通过预测当前语句是否为当前段落的最后一句来执行段落切分。该预测可以基于当前文本和下一句文本展开,当两句之间没有明显的语义关联时,进行段落切分。其中,当前语句是否为当前段落的最后一句的预测方式具体也可以参考公式(1)来根据当前的上下文预测当前语句为正确的概率。
41.在对医疗ocr优化模型进行训练期间,迭代地根据当前上下文预测所述预训练数据集中的一个或多个段落结束语句,以训练所述医疗ocr优化模型自动分段的能力。
42.通过执行s1022、s1023和s1024的预训练过程,得到预训练数据集,接下来,利用得到的预训练数据集对所述医疗ocr优化模型进行迭代地训练和更新,可以得到对医疗图像文字识别具有更优处理能力的模型,包括分别能够正确识别和修正文字识别的错误、缺失的字符以及优化文本段的划分的能力。
43.图3示出了离线阶段的预训练语言模型的完整训练过程。应当注意的是,在本发明的上述流程中,字符纠错、字符补充以及文本分段是相对独立的模型优化过程。因此,在实际应用的预训练过程中,选择上述至少一种预训练方式均可增强语言模型的训练数据。而且步骤s1022、s1023和s1024的顺序是可以任意调整的,而不限于上述实施例所描述的顺序。例如,可以先将所述训练集切分为多个文本段落,然后再对训练集中的预设目标字符进行错误替换和/或遮挡,得到预训练数据集,等等。
44.在进一步的实施例中,针对医疗语言风格的识别问题,本发明的预训练处理还可以包括:s1025、抽取大量诊断结果文本进行语言模型的微调。
45.通过对大量诊断结果文本的学习和训练来执行模型微调(fine-tuning),从而增强模型对医疗人员语法习惯和行文风格的理解,提升诊断结果的识别准确率。
46.此外,作为实现语句错误检测的具体方式,在步骤s1022完成错误字符随机替换之后的模型训练阶段,首先可以估计当前语句为正确语句的概率,接下来识别错误字符,最后根据上下文预测正确字符,并计算纠错后的语句为正确语句的概率。具体地,语句错误检测
的计算方法可以如公式(1)表示:p(s)=p(w1, w2,w3,...,wn)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式(1)其中s为ocr的语句,该语句由字符序列w1,w2,w3,...,wn构成,p(s)为该语句为正确语句的概率。
47.当p(s)的值小于给定阈值时,则判定为包含错误。即当识别出错误语句后预测错误字符,模型预测错误字符的方法如公式(2)所示:p
error
(wi)=minp(wi|w1,..,w
i-1
,w
i 1
,..,wn)
ꢀꢀꢀꢀ
公式(2)其中是字符wi是识别错误的字符,p(wi|w1,..,w
i-1
,w
i 1
,..,wn)是在给定上下文情况下wi出现的概率,语句中概率最低的字符即为错误字符p
error
(wi)。模型给出正确字符的方法如公式(3)所示:w’=maxp(w’|w1,w2,w3,...)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式(3)其中w’为预测的正确字符,p(w’|w1,w2,w3,...)给定上下文的情况下,字符w’能够构成合理语句的概率。
48.可以看出,通过本发明的上述方法,与现有技术相比,能够进一步提升医疗图像文字识别的准确率,尤其是对医疗术语、病历关键词(主诉等)等关键词汇的识别准确率,同时能够对文本段落进行辅助切分,有利于后续的医疗知识抽取、事件抽取。实验数据表明,采用本发明的医疗ocr优化模型训练方法后,文本识别错误检测率可以达到78%,正确字符的预测正确率可以达到85%,因而能够显著优化医疗图像ocr识别的准确率。本发明的医疗ocr优化模型训练方法对于病历的结构化、临床医学统计、核保理赔等应用都具有重要价值。
49.实施例二如图4所示,本发明在第二方面提供了一种医疗ocr数据优化方法,包括:s201、获取目标医疗图像,并对目标医疗图像进行ocr识别,得到待优化文本数据;待识别的目标医疗图像可以包含被扫描或拍摄的病历、诊断报告等图像文件。当获取目标医疗图像之后,根据现有的ocr识别算法来提取图像文本数据,作为初始的文本数据。
50.s202、将待优化文本数据输入医疗ocr优化模型,以使所述医疗ocr优化模型输出与所述待优化文本数据对应的医疗术语和字符识别结果。
51.如前所述,在ocr在线识别之前,在离线阶段已经预先基于实施例一的医疗ocr优化模型训练方法得到了最终的医疗ocr优化模型。而在线阶段的完整医疗图像ocr识别方法参见图5所示。将初始的待优化文本数据输入医疗ocr优化模型,以使该模型输出的对应的优化文本数据。由于模型被训练成具有更高的纠正文字识别错误、识别缺失的字符以及优化文本段划分的能力,因此优化后的文本数据至少包含对初始文本数据的段落划分,并在初始文本数据中存在错误医疗术语或字符的情况下,标识出初始文本数据中的错误医疗术语或字符;然后将错误项替换为对应的正确元素项,以及在初始文本数据中存在缺失项的情况下,预测出缺失的医疗术语或字符。
52.实施例三本发明的另一方面还包括和前述方法流程完全对应一致的功能模块架构,即本发明实施例还提供了一种医疗ocr数据优化模型训练装置,包括:获取模块301,用于获取大规模无标注医疗文本数据,并对所述大规模无标注医疗
文本数据中的医疗术语和字符进行识别以形成训练集;预训练模块302,用于对所述训练集进行预训练处理以得到用于训练所述医疗ocr优化模型的预训练数据集,并利用所述预训练数据集对所述医疗ocr优化模型进行训练;其中,所述预训练处理模块包括:增广模块3021,用于对所述训练集中的低频术语和低频字符进行数据增广处理;替换模块3022,用于将所述训练集中的第一目标字符随机替换为错误字符;遮挡模块3023,用于对所述训练集中的第二目标字符进行遮挡;以及切分模块3024,用于将所述训练集切分为多个文本段落,得到用于训练所述医疗ocr优化模型的预训练数据集。
53.该装置可通过上述实施例一提供的医疗ocr数据优化模型训练方法实现,具体的实现方法可参见实施例一中的描述,在此不再赘述。
54.实施例四相应地,本发明实施例还提供了一种医疗ocr数据优化装置,包括:识别模块401,用于获取目标医疗图像,并对目标医疗图像进行ocr识别,得到待优化文本数据;优化模块402,用于将所述待优化文本数据输入医疗ocr优化模型,以使所述医疗ocr优化模型输出与所述待优化文本数据对应的医疗术语和字符识别结果;其中,所述医疗ocr优化模型预先基于实施例一所述的医疗ocr优化模型训练方法得到。
55.实施例五本发明另一方面提供了一种电子设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述指令并执行实施例一所述的医疗ocr数据优化模型训练方法,或者执行实施例二所述的医疗ocr数据优化方法。其中处理器和存储器可以通过总线或者其他方式连接,以通过总线连接为例。处理器可以为中央处理器(central processing unit,cpu)。处理器还可以为其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
56.存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本技术实施例中的医疗ocr数据优化模型训练方法、优化方法对应的程序指令/模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的方法。
57.存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
58.实施例六
本发明又一方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述多条指令可被处理器读取并执行实施例一所述的医疗ocr数据优化模型训练方法,或者执行实施例二所述的医疗ocr数据优化方法。该计算机可读存储介质可以是有形存储介质,诸如随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、软盘、硬盘、可移动存储盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质。
59.尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献