技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于机器学习的OCR识别方法及系统与流程 > 正文

基于机器学习的OCR识别方法及系统与流程

国知局
2024-09-05 14:54:22

本发明涉及机器学习，具体而言，涉及一种基于机器学习的ocr识别方法及系统。

背景技术：

1、在信息技术和图像处理领域，ocr（optical character recognition，光学字符识别）技术一直是研究的热点和难点。传统的ocr技术主要基于模板匹配方法，通过比较图像中的字符与预定义的字符模板进行匹配，从而实现文字识别。然而，由于字体、尺寸、角度、光照等多种因素的影响，传统ocr技术的识别准确率存在一定的局限性。

2、随着计算机视觉技术的飞速发展，基于特征提取和模式识别的ocr方法逐渐成为主流，这类方法通过数字图像处理技术，提取字符的特征信息（如轮廓、角点等）来进行字符识别。尽管这种方法在一定程度上提高了识别准确率，但在处理复杂背景或变形字符时，仍存在一定的挑战。

3、近年来，随着深度学习技术的兴起，ocr技术迎来了新的发展机遇。深度学习模型，特别是卷积神经网络（cnn）和循环神经网络（rnn），在图像识别和自然语言处理等领域展现出了强大的能力。通过将深度学习技术应用于ocr领域，可以实现对复杂背景和变形字符的更准确识别。

4、然而，在实际应用中，待识别图像往往包含大量的业务干扰内容，如印章、签名等，这些干扰内容会对ocr识别产生负面影响。因此，如何有效地屏蔽这些业务干扰内容，成为提高ocr识别准确率的关键。

技术实现思路

1、为了至少克服现有技术中的上述不足，本技术实施例的目的在于提供一种基于机器学习的ocr识别方法及系统。

2、根据本技术的一个方面，提供一种基于机器学习的ocr识别方法，所述方法包括：

3、获取与待识别图像所对应的当前目标扫描图像块和x个过往扫描图像块；所述当前目标扫描图像块和所述x个过往扫描图像块均为预处理后的灰度图像，且所述x个过往扫描图像块中的每个过往扫描图像块均为所述当前目标扫描图像块之前的预处理后的灰度图像；

4、在提取到所述当前目标扫描图像块的y个关键业务特征节点向量时，依据所述y个关键业务特征节点向量，获取与所述当前目标扫描图像块所对应的z个单维度空间梯度和z个复合维度空间梯度；

5、提取所述每个过往扫描图像块各自对应的y个过往业务特征节点向量，依据提取到的个过往业务特征节点向量确定与所述当前目标扫描图像块所对应的业务自适应矢量；

6、将所述y个关键业务特征节点向量、所述z个单维度空间梯度、所述z个复合维度空间梯度以及所述业务自适应矢量加载到目标ocr业务屏蔽识别网络，利用所述目标ocr业务屏蔽识别网络生成所述当前目标扫描图像块对应的目标业务屏蔽窗口；所述目标业务屏蔽窗口用于屏蔽所述待识别图像中的业务干扰内容，生成所述待识别图像对应的候选识别图像。

7、在第一方面的一种可能的实施方式中，在将所述y个关键业务特征节点向量、所述z个单维度空间梯度、所述z个复合维度空间梯度以及所述业务自适应矢量加载到目标ocr业务屏蔽识别网络，利用所述目标ocr业务屏蔽识别网络生成所述当前目标扫描图像块对应的目标业务屏蔽窗口的步骤之后，所述方法还包括：

8、对所述目标业务屏蔽窗口进行插补运算，生成插补业务屏蔽窗口；所述插补业务屏蔽窗口的窗口参数与所述当前目标扫描图像块的窗口参数相同；

9、将所述插补业务屏蔽窗口与所述当前目标扫描图像块进行逐元素屏蔽融合，对逐元素屏蔽融合结果进行变换，生成对所述当前目标扫描图像块进行业务屏蔽后的目标扫描图像数据；

10、当对与所述待识别图像所对应的每个当前目标扫描图像块均进行业务屏蔽后，生成所述待识别图像对应的候选识别图像，所述候选识别图像由所述业务屏蔽后的目标扫描图像数据构成；

11、在第一方面的一种可能的实施方式中，在获取与待识别图像所对应的当前目标扫描图像块和x个过往扫描图像块的步骤之前，所述方法还包括：

12、获取与范例扫描图像数据所对应的目标范例目标扫描图像块和x个过往范例扫描图像数据，且提取所述目标范例目标扫描图像块对应的范例业务屏蔽窗口；所述目标范例目标扫描图像块和所述x个过往范例目标扫描图像块均为预处理后的灰度图像，且所述x个过往范例目标扫描图像块中的每个过往范例目标扫描图像块均为所述目标范例目标扫描图像块之前的预处理后的灰度图像；

13、在提取到所述目标范例目标扫描图像块的y个目标范例业务特征节点向量时，依据所述y个目标范例业务特征节点向量，获取与所述目标范例目标扫描图像块所对应的z个范例单维度空间梯度和z个范例复合维度空间梯度；

14、提取所述每个过往范例目标扫描图像块各自对应的y个过往范例业务特征节点向量，依据提取到的个过往范例业务特征节点向量确定与所述目标范例目标扫描图像块所对应的范例业务自适应矢量；

15、将所述y个目标范例业务特征节点向量、所述z个范例单维度空间梯度、所述z个范例复合维度空间梯度以及所述范例业务自适应矢量加载到样例ocr业务屏蔽识别网络，利用所述样例ocr业务屏蔽识别网络生成所述目标范例目标扫描图像块对应的训练业务屏蔽窗口；

16、依据所述训练业务屏蔽窗口和所述范例业务屏蔽窗口对所述样例ocr业务屏蔽识别网络进行参数优化，生成用于预测与待识别图像所对应的当前目标扫描图像块所对应的目标业务屏蔽窗口的目标ocr业务屏蔽识别网络；所述目标业务屏蔽窗口用于屏蔽所述待识别图像中的业务干扰内容，生成所述待识别图像对应的候选识别图像。

17、譬如，在第一方面的一种可能的实施方式中，所述对所述目标业务屏蔽窗口进行插补运算，生成插补业务屏蔽窗口的步骤，包括：

18、对所述目标业务屏蔽窗口进行特征分析，生成窗口特征信息，所述窗口特征信息包括所述目标业务屏蔽窗口的大小、形状、边缘锐利度以及内部空洞或断裂信息；

19、根据目标业务屏蔽窗口的形状和大小，自适应定义对应的结构元素，并使用定义好的结构元素对所述目标业务屏蔽窗口进行膨胀操作，在膨胀操作后对所述目标业务屏蔽窗口进行腐蚀操作以恢复所述目标业务屏蔽窗口的原始大小，生成自适应形态学滤波处理后的目标业务屏蔽窗口；

20、使用canny边缘检测算法或sobel算法对所述自适应形态学滤波处理后的目标业务屏蔽窗口进行边缘检测，生成边缘检测信息，所述边缘检测信息用以确定需要插补的具体位置；

21、根据所述目标业务屏蔽窗口的大小和形状，初始化一个与窗口相对应的插补网格，所述插补网格用于存储插补后的像素值；

22、在所述插补网格中，确定需要插补的目标点，所述目标点是位于所述边缘检测信息对应的窗口边缘之间的空白区域；

23、对于每个需要插补的目标点，根据所述目标点周围的已知像素值和边缘信息计算对应的插补值，其中，具体根据与该目标点相邻的边缘像素的方向和距离来加权计算插补值；

24、重复上述过程，直到所述插补网格中的所有目标点都被填充，在插补完成后，生成插补业务屏蔽窗口。

25、譬如，在第一方面的一种可能的实施方式中，所述将所述插补业务屏蔽窗口与所述当前目标扫描图像块进行逐元素屏蔽融合，对逐元素屏蔽融合结果进行变换，生成对所述当前目标扫描图像块进行业务屏蔽后的目标扫描图像数据的步骤，包括：

26、将所述插补业务屏蔽窗口与当前目标扫描图像块在大小和位置上进行对齐，如果所述插补业务屏蔽窗口和所述当前目标扫描图像块的数据类型不同，则对所述插补业务屏蔽窗口或者所述当前目标扫描图像块进行数据类型转换；

27、遍历所述插补业务屏蔽窗口中的每个像素点，并与所述当前目标扫描图像块中对应位置的像素点进行比较，其中，在插补业务屏蔽窗口中，使用二进制值来表示需要屏蔽或保留的区域；

28、对于插补业务屏蔽窗口中标记为需要屏蔽的像素点，将其在当前目标扫描图像块中对应位置的像素值设置为一个特定屏蔽值，对于标记为保留的像素点，则保持当前目标扫描图像块中对应位置的像素值不变，在屏蔽融合过程中，使用图像形态学操作对所述当前目标扫描图像块和所述插补业务屏蔽窗口的边缘进行平滑处理；

29、将逐元素屏蔽融合后的结果保存为一个新的目标扫描图像数据，该目标扫描图像数据仅包含当前目标扫描图像块中非业务干扰的内容；

30、其中，所述方法还包括：

31、使用ocr算法对所述候选识别图像中提取关键特征，所述关键特征包括字符轮廓、笔画结构；

32、将提取到的关键特征与预定义的字符模板或训练好的分类器进行匹配，实现对所述候选识别图像的字符的分类和识别。

33、依据本技术实施例的一个方面，提供了一种机器学习系统，所述机器学习系统包括处理器和机器可读存储介质，所述机器可读存储介质中存储有机器可执行指令，所述机器可执行指令由所述处理器加载并执行以实现前述任意一种可能的实施方式中的基于机器学习的ocr识别方法。

34、依据本技术实施例的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述三方面的各种可选实现方式中提供的方法。

35、在本技术的一些实施例所提供的技术方案中，本技术实施例通过综合利用当前目标扫描图像块的关键业务特征节点向量、单维度空间梯度、复合维度空间梯度以及业务自适应矢量，结合过往扫描图像块的信息，显著提高了ocr识别的准确性和效率。具体来说，通过引入过往扫描图像块和业务自适应矢量的概念，本发明能够更准确地识别待识别图像中的关键业务特征，特别是在存在业务干扰内容的场景下。目标业务屏蔽窗口的生成，有效屏蔽了业务干扰内容，提高了ocr识别的准确率。采用了目标ocr业务屏蔽识别网络，该网络能够基于提取的特征向量和梯度信息快速生成目标业务屏蔽窗口，从而减少了不必要的计算开销，优化了ocr识别的效率。本技术不仅适用于静态的待识别图像，还适用于连续扫描的动态图像序列。通过考虑过往扫描图像块的信息，能够更好地适应图像序列中的变化，提高识别的稳定性和适应性。此外，本技术实施例可以方便地集成到现有的ocr系统中，通过替换或升级目标ocr业务屏蔽识别网络，可以进一步提升识别的性能和效果。由此，通过引入过往扫描图像块和业务自适应矢量的概念，结合目标ocr业务屏蔽识别网络，实现了对业务干扰内容的有效屏蔽，提高了ocr识别的准确性和效率，具有较强的适应性和扩展性。