手写体文字识别方法、系统、终端及存储介质与流程
- 国知局
- 2024-10-21 15:19:34
本发明属于文字识别,具体涉及一种手写体文字识别方法、系统、终端及存储介质。
背景技术:
1、ocr (optical character recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
2、手写体常存在以下一些情况:
3、1、字迹模糊:手写字迹的清晰度往往不如打印体,部分字迹由于书写工具或纸质的原因变得模糊不清,这极大地增加了识别的难度。模糊的字迹导致识别错误频发。
4、2、字行倾斜:手写文本的字行往往不够规整出现倾斜。这种倾斜干扰了文本检测的正确判断,使得在定位字符位置时出现偏差,从而影响整体识别效果。
5、3、字间距紧凑:手写体文字字间距通常过于紧凑会增加字符分割的复杂性,使得ocr模型难以准确区分每个字符,这会进一步降低了识别准确率。
6、4、手写体与印刷体混合使用:手写体与印刷体常常混合出现增加了ocr识别的难度,因为手写体和印刷体的字体特征差异较大,单一的ocr模型在处理这种混合文本时往往表现不佳。
7、因此,利用ocr技术对手写体进行文字识别时,准确率常常无法达到需求。
技术实现思路
1、针对现有技术的上述不足,本发明提供一种手写体文字识别方法、系统、终端及存储介质,以解决上述技术问题。
2、第一方面,本发明提供一种手写体文字识别方法,包括:
3、利用文字识别模型识别目标图片,得到识别结果和识别结果的置信度;
4、确认所述置信度未达到预先设置的可信度阈值,利用多种图片质量提升技术对所述目标图片进行处理,得到多张衍生图片;
5、利用预先设置的图片质量评价指标分别评估多张衍生图片的质量量化值,并筛选出质量量化值最高的指定数量的衍生图片作为中间图片;
6、利用文字识别模型分别识别多张中间图片,得到相应的多个二次识别结果;
7、基于统计技术和各二次识别结果的置信度,对多个二次识别结果进行融合,得到目标图片的最终识别结果。
8、在一个可选的实施方式中,图片质量评价指标的设置方法包括:
9、收集原始图片,并将原始图片保存至原始图片集;
10、对原始图片集中选取样本图片,并为样本图片标记质量标签,所述质量标签包括优、良、中、劣;
11、设置图片质量评价指标集,所述图片质量评价指标集包括机器学习类指标和深度学习类指标;所述机器学习类指标包括基于图像统计特性的指标、基于纹理分析的指标、以及基于图像结构相似性的指标;所述深度学习类指标包括图像内容的丰富度、边缘检测的准确性、以及图像质量评估模型的输出结果;
12、利用随机森林算法从候选图片质量评价指标集中筛选出与图片质量标记信息最相关的指定数量的图像质量评价指标,并保存筛选出的图像质量评价指标。
13、在一个可选的实施方式中,所述方法还包括:
14、收集多种图片处理技术,并将多种图片处理技术保存至图片处理集合;
15、从原始图片集中选取样本图片,并利用图片处理集合中的多种图片处理技术分别对所述样本图片进行处理,得到多张升级图片;
16、以样本图片的文件名和对应的图片处理技术标识码为相应的升级图片命名,并将命名后的升级图片保存至升级图片集,所述图片处理技术标识码为预先为各图片处理技术分配的唯一标识码;
17、遍历原始图片集;
18、利用所述图像质量评价指标对命名中具有相同样本图片文件名的升级图片进行量化评估,得到多张升级图片的质量等级;
19、选取质量等级达到设定的等级阈值的升级图片作为有效升级图片,解析有效升级图片的命名中的图片处理技术标识码,并将解析出的图片处理技术标识码对应的图片处理技术设置为图片质量提升技术。
20、在一个可选的实施方式中,基于统计技术和各二次识别结果的置信度,对多个二次识别结果进行融合,得到目标图片的最终识别结果,包括:
21、将多个二次识别结果中的不合理片段去除,得到多个待融合识别结果,所述不合理片段包括多位纯随机数字组合、多位的特殊字符组合及多位的非法字符组合;
22、统计多个待融合识别结果的重复次数,并筛选出重复次数最高的目标待融合识别结果;
23、若目标待融合识别结果的重复次数达到设定的重复阈值,则将所述目标待融合识别结果输出为最终识别结果;
24、若目标待融合识别结果的重复次数未达到设定的重复阈值,则基于投影法对目标图片进行字符分割,并基于分割结果确定字数范围;从待融合识别结果中筛选出字数符合所述字数范围的候选识别结果,统计候选识别结果的重复次数和置信度,选取重复次数和置信度的加权和大的候选识别结果作为最终识别结果。
25、在一个可选的实施方式中,所述文字识别模型为trocr模型。
26、第二方面,本发明提供一种手写体文字识别系统,包括:
27、初始识别模块,用于利用文字识别模型识别目标图片,得到识别结果和识别结果的置信度;
28、质量提升模块,用于确认所述置信度未达到预先设置的可信度阈值,利用多种图片质量提升技术对所述目标图片进行处理,得到多张衍生图片;
29、质量评价模块,用于利用预先设置的图片质量评价指标分别评估多张衍生图片的质量量化值,并筛选出质量量化值最高的指定数量的衍生图片作为中间图片;
30、二次识别模块,用于利用文字识别模型分别识别多张中间图片,得到相应的多个二次识别结果;
31、结果融合模块,用于基于统计技术和各二次识别结果的置信度,对多个二次识别结果进行融合,得到目标图片的最终识别结果。
32、在一个可选的实施方式中,图片质量评价指标的设置方法包括:
33、收集原始图片,并将原始图片保存至原始图片集;
34、对原始图片集中选取样本图片,并为样本图片标记质量标签,所述质量标签包括优、良、中、劣;
35、设置图片质量评价指标集,所述图片质量评价指标集包括机器学习类指标和深度学习类指标;所述机器学习类指标包括基于图像统计特性的指标、基于纹理分析的指标、以及基于图像结构相似性的指标;所述深度学习类指标包括图像内容的丰富度、边缘检测的准确性、以及图像质量评估模型的输出结果;
36、利用随机森林算法从候选图片质量评价指标集中筛选出与图片质量标记信息最相关的指定数量的图像质量评价指标,并保存筛选出的图像质量评价指标。
37、在一个可选的实施方式中,还包括:
38、图片收集模块,用于收集多种图片处理技术,并将多种图片处理技术保存至图片处理集合;
39、图片处理模块,用于从原始图片集中选取样本图片,并利用图片处理集合中的多种图片处理技术分别对所述样本图片进行处理,得到多张升级图片;
40、图片命名模块,用于以样本图片的文件名和对应的图片处理技术标识码为相应的升级图片命名,并将命名后的升级图片保存至升级图片集,所述图片处理技术标识码为预先为各图片处理技术分配的唯一标识码;
41、图片遍历模块,用于遍历原始图片集;
42、质量定位模块,用于利用所述图像质量评价指标对命名中具有相同样本图片文件名的升级图片进行量化评估,得到多张升级图片的质量等级;
43、技术评价模块,用于选取质量等级达到设定的等级阈值的升级图片作为有效升级图片,解析有效升级图片的命名中的图片处理技术标识码,并将解析出的图片处理技术标识码对应的图片处理技术设置为图片质量提升技术。
44、第三方面,提供一种终端,包括:
45、处理器、存储器,其中,
46、该存储器用于存储计算机程序,
47、该处理器用于从存储器中调用并运行该计算机程序,使得终端执行上述的终端的方法。
48、第四方面,提供了一种计算机存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
49、本发明的有益效果在于,本发明提供的手写体文字识别方法、系统、终端及存储介质,从图片质量提升、预处理、ocr识别到结果融合,形成一条高效的处理流程。本发明能够处理各种复杂的手写文本图片,提供高可靠性的识别结果,为手写报告的电子化处理提供了一种高效、准确的解决方案。
50、此外,本发明通过引入多种图片质量评价指标,并采用随机森林方法,从候选指标集中筛选出与图片质量标记信息最相关的指标。这一创新点确保了图片质量提升方法的有效性和针对性,能够显著改善原始图片的质量,从而提高后续ocr识别的准确性。
51、本发明采用精确的图片质量提升技术,包括图片二值化、去噪、对比度均衡化、形态学操作和锐化等,并通过筛选出的有效质量提升方法集,针对不同图片质量问题进行优化处理。这种多方向的图片质量提升策略,能够显著提升图片的清晰度和可读性,为ocr识别提供更高质量的输入。
52、本发明在ocr识别过程中,使用trocr模型对预处理后的图片进行文本内容识别,并通过设定合理阈值判断识别结果的可信度。针对不达标的识别结果,应用筛选出的质量提升方法进行二次处理,并结合基于次数统计和置信度计算的结果融合机制,显著提高了识别的准确性和可靠性。
53、本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
本文地址:https://www.jishuxx.com/zhuanli/20241021/321230.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表