一种针打的士票的识别方法、装置、设备和介质与流程

2022-05-18 16:49:11 来源：中国专利 TAG：

1.本发明涉及ocr识别技术领域，特别涉及一种针打的士票的识别方法、装置、设备和介质。

背景技术：

2.ocr：optical characterrecognition，即光学字符识别。ocr在日常生活中发挥着重要的作用。ocr技术能够识别票据中的文字信息，方便信息录入。
3.现有ocr识别针对的都是通用模型，所需要识别的字体大多是白纸黑字的标准字体。但是有些票据(如的士票)存在针打字体，这对通用模型来说是一个挑战。再者ocr识别需要先定位再检测，但是由于针打的士票还存在红色盖章，这会遮挡某些重要信息导致识别失败。

技术实现要素：

4.本发明要解决的技术问题，在于提供一种针打的士票的识别方法、装置、设备和介质，对现有的ocr识别模型作相应的改进，使之能对针打的士票的特点进行顺利识别。
5.第一方面，本发明提供了一种针打的士票的识别方法，包括下述步骤：
6.s1、检测角度模型检测针打的士票图片的输入角度，若输入角度不是正确角度，则将输入角度旋转为正确角度；
7.s2、文本检测模型检测处于正确角度的所述针打的士票图片，提取所述针打的士票图片中各个包含文字的感兴趣区域，具体包括：
8.先通过主干网络提取所述针打的士票图片中的深层次信息；
9.再通过空间金字塔层得到不同尺度的特征信息；
10.将不同尺度的特征信息拼接后作为解耦的双头网络的输入，由所述双头网络决定最终保留的感兴趣区域；
11.s3、将切割出的各个感兴趣区域作为文本识别模型的输入，经过卷积、池化和激活函数后，获取更深层次的信息，得到各个感兴趣区域中的针打字体的预测结果；
12.s4、通过全连接层对预测结果进行字符级别的分类，得到各个感兴趣区域的字符串；
13.s5、根据获取得到的各个感兴趣区域的字符串，利用模板匹配的方式获取的士票中的各类信息。
14.第二方面，本发明提供了一种针打的士票的识别装置，包括：
15.检测角度模型，用于检测针打的士票图片的输入角度，若输入角度不是正确角度，则将输入角度旋转为正确角度；
16.文本检测模型，用于检测处于正确角度的所述针打的士票图片，提取所述针打的士票图片中各个包含文字的感兴趣区域，具体包括：
17.先通过主干网络提取所述针打的士票图片中的深层次信息；
18.再通过空间金字塔层得到不同尺度的特征信息；
19.将不同尺度的特征信息拼接后作为解耦的双头网络的输入，由所述双头网络决定最终保留的感兴趣区域；
20.文本识别模型，用于将切割出的各个感兴趣区域作为输入，经过卷积、池化和激活函数后，获取更深层次的信息，得到各个感兴趣区域中的针打字体的预测结果；
21.全连接层，用于对预测结果进行字符级别的分类，得到各个感兴趣区域的字符串；
22.模板匹配模块，根据获取得到的各个感兴趣区域的字符串，利用模板匹配的方式获取的士票中的各类信息。第三方面，本发明提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面所述的方法。
23.第四方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面所述的方法。
24.本发明实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：利用ocr识别技术实现对输入的针打的士票图片进行识别，先经过文本检测模型识别出各个可能存在文字的图像区域，再将感兴趣区域作为文本识别模型的输入，最后通过全连接层得出字符级别的分类，得到不同图像区域的字符串，利用模板匹配的方式获取针打的士票的各类信息。其中，通过生成图片文字的手段，生成一系列存在与针打文字类似的图片，提升文本检测模型和文本识别模型对针打的士票特殊字体的偏好。文本检测模型中将图像先经过主干网络提取特征，再经过空间金字塔层的并行分支结构得到不同尺度的特征。将不同尺度特征拼接后作为解耦的双头网络的输入，双头网络具有两个不同通道的输入，两个通道共同确定检测框，从而切割出的感兴趣区域。而文本识别模型则通过五个3*3卷积层获取更深层次的信息，即使存在红色盖章的遮挡也不会导致识别失败。
25.上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。
附图说明
26.下面参照附图结合实施例对本发明作进一步的说明。
27.图1为本发明实施例一中方法中的流程图；
28.图2为本发明文本检测模型的模型结构图；
29.图3为文本检测模型的空间金字塔层结构图；
30.图4为文本检测模型的双头网络结构图；
31.图5为本发明实施例二中装置的结构示意图；
32.图6为本发明实施例三中电子设备的结构示意图；
33.图7为本发明实施例四中介质的结构示意图。
具体实施方式
34.本技术实施例通过提供一种针打的士票的识别方法、装置、设备和介质，对现有的ocr识别模型作相应的改进，使之能对针打的士票的特点进行顺利识别。
35.本技术实施例中的技术方案，总体思路如下：利用ocr识别技术实现对输入的针打的士票图片进行识别，先经过文本检测模型识别出各个可能存在文字的图像区域，再将感兴趣区域作为文本识别模型的输入，最后通过全连接层得出字符级别的分类，得到不同图像区域的字符串，利用模板匹配的方式获取针打的士票的各类信息。其中，通过生成图片文字的手段，生成一系列存在与针打文字类似的图片，提升文本检测模型和文本识别模型对针打的士票特殊字体的偏好。文本检测模型中将图像先经过主干网络提取特征，再经过空间金字塔层的并行分支结构得到不同尺度的特征。将不同尺度特征拼接后作为解耦的双头网络的输入，双头网络具有两个不同通道的输入，两个通道共同确定检测框，从而切割出的感兴趣区域。而文本识别模型则通过五个3*3卷积层获取更深层次的信息，即使存在红色盖章的遮挡也不会导致识别失败。
36.实施例一
37.如图1所示，本实施例提供一种一种针打的士票的识别方法，包括下述步骤：
38.s1、检测角度模型检测针打的士票图片的输入角度，若输入角度不是正确角度，则将输入角度旋转为正确角度；
39.s2、文本检测模型检测处于正确角度的所述针打的士票图片，提取所述针打的士票图片中各个包含文字的感兴趣区域，具体包括：
40.先通过主干网络提取所述针打的士票图片中的深层次信息；
41.再通过空间金字塔层得到不同尺度的特征信息；
42.将不同尺度的特征信息拼接后作为解耦的双头网络的输入，由所述双头网络决定最终保留的感兴趣区域；
43.s3、将切割出的各个感兴趣区域作为文本识别模型的输入，经过卷积、池化和激活函数后，获取更深层次的信息，得到各个感兴趣区域中的针打字体的预测结果；
44.s4、通过全连接层对预测结果进行字符级别的分类，得到各个感兴趣区域的字符串；
45.s5、根据获取得到的各个感兴趣区域的字符串，利用模板匹配的方式获取的士票中的各类信息。
46.其中，作为本实施例的一种更优或更为具体的实现方式，所述文本检测模型和所述文本识别模型是预先训练过的智能模型，训练方法是：通过文字图片的生成手段，生成一系列存在与针打文字类似的文字图片，作为训练集对所述文本检测模型和所述文本识别模型进行训练，从而提升模型对针打的士票特殊字体的偏好；还可在文字图片上添加盖章，遮挡某些重要信息等，从而训练模型在复杂背景中的文本检测和文本识别能力。
47.所述文本检测模型的主干网络为darknet，所述空间金字塔层包括一系列的最大池化层和一个跳跃连接层构成的多个并行分支结构；
48.所述文本检测模型构成如下：
49.第一部分是主干网络darknet，用来提取深层次的信息；
50.第一层是输入层，输入图像；
51.第二层是卷积层，卷积核为3*3，通道数为32；
52.第三层是残差卷积层，包括一个卷积核为3*3，通道数为32的卷积层和一个卷积核为3*3，通道数为64的卷积层；
53.第四层是残差卷积层，包括一个卷积核为1*1，通道数为64的卷积层和一个卷积核为3*3，通道数为128的卷积层；
54.第五层是残差卷积层，包括一个卷积核为1*1，通道数为128的卷积层和一个卷积核为3*3，通道数为256的卷积层；
55.第六层是残差卷积层，包括一个卷积核为1*1，通道数为256的卷积层和一个卷积核为3*3，通道数为512的卷积层；
56.第七层是卷积层，卷积核为3*3，通道数为512，降低通道数，为下一层输入做准备；
57.第八层是残差卷积层，包括一个卷积核为1*1，通道数为512的卷积层和一个卷积核为3*3，通道数为1024的卷积层；
58.其中，由于一开始的图像粒度尺度较大，因此第一层残差卷积层(第三层)可选较大的卷积核，即3*3的卷积核；经过第一层残差卷积层后，粒度变小，因此后续的残差卷积层则可以选择较小的卷积核，即1*1的卷积核，从而能提取不同尺度的信息。
59.第二部分是空间金字塔层，用来整合不同尺度的信息，如图3所示，空间金字塔层包括一系列并行的最大池化层，以整合不同尺度的信息；
60.第一列是原始数据；
61.第二列是最大池化层，滑动窗口为3*3；
62.第三列是最大池化层，滑动窗口为5*5；
63.第四列是最大池化层，滑动窗口为9*9；
64.第五列是最大池化层，滑动窗口为13*13；
65.上述空间金字塔层连接第一列的原始数据以及第二列至第五列的最大池化层的池化信息，以整合不同尺度的信息。
66.空间金字塔层中，从第二列至第五列的最大池化层，其滑动窗口的尺度逐渐变大，刚开始利用小尺度的滑动窗口，可有效针对针打字体的检测，而后面的滑动窗口逐渐变大，可有效避免的士票盖章的干扰。而每一列滑动窗口具体大小的选择，可根据优化检测框的检测效果来设定。
67.第三部分拼接第二部分各卷积层输出的不同维度的数据，并输入到解耦的双头网络中，如图4所示，双头网络具有相同的网络结构，从而具有两个不同通道的输入，两个通道共同确定检测框。
68.其中一头网络的网络结构为：
69.第一层是卷积层，卷积核为1*1，通道数为256，激活函数为relu；
70.第三层是残差卷积层，包括一个卷积核为3*3，通道数为256的卷积层和一个卷积核为3*3，通道数为256的卷积层；
71.第三层是卷积层，卷积核为1*1，通道数为256，激活函数为relu，输出特征为感兴趣区域的做分类预测；
72.另一头网络的的网络结构为：
73.第一层是卷积层，卷积核为1*1，通道数为256，激活函数为relu；
74.第三层是残差卷积层，包括一个卷积核为3*3，通道数为256的卷积层和一个卷积核为3*3，通道数为256的卷积层；
75.第三层是卷积层，卷积核为1*1，通道数为256，激活函数为relu，输出特征为感兴
趣区域的做回归预测。
76.所述文本识别模型包括五个3*3卷积层，具体构成如下：
77.第一层是卷积层，卷积核为3*3，填充为1*1，步长为1*1，通道数为64；
78.第二层是最大池化层，滑动窗口为2*2，步长为2*2；
79.第三层是卷积层，卷积核为3*3，填充为1*1，步长为1*1，通道数为128；
80.第四层是最大池化层，滑动窗口为2*2，步长为2*2；
81.第五层是卷积层，卷积核为3*3，填充为1*1，步长为1*1，通道数为256；
82.第六层是卷积层，卷积核为3*3，填充为1*1，步长为1*1，通道数为256；
83.第七层是最大池化层，滑动窗口为1*2，步长为2*2；
84.第八层是卷积层，卷积核为3*3，填充为1*1，步长为1*1，通道数为512，归一化方法为bn；
85.第九层是最大池化层，滑动窗口为2*2，步长为1*1；
86.第十层是卷积层，卷积核为2*2，步长为1*1，通道数为512；
87.第十层是长短期记忆网络层，隐藏单元数为512；
88.第十一层是长短期记忆网络层，隐藏单元数为512。
89.所述步骤s5中，利用模板匹配的方式具体过程是：先通过文本检测模型同时检测出一行中相近的文字，例如在的士票中，“上车”、“下车”的具体时间以及“金额”等的具体数字都是在同一行中，故可以根据前面的具体关键字匹配得出所需的具体信息。
90.基于同一发明构思，本技术还提供了与实施例一中的方法对应的装置，详见实施例二。
91.实施例二
92.如图5所示，在本实施例中提供了一种针打的士票的识别装置，包括：
93.检测角度模型，用于检测针打的士票图片的输入角度，若输入角度不是正确角度，则将输入角度旋转为正确角度；
94.文本检测模型，用于检测处于正确角度的所述针打的士票图片，提取所述针打的士票图片中各个包含文字的感兴趣区域，具体包括：
95.先通过主干网络提取所述针打的士票图片中的深层次信息；
96.再通过空间金字塔层得到不同尺度的特征信息；
97.将不同尺度的特征信息拼接后作为解耦的双头网络的输入，由所述双头网络决定最终保留的感兴趣区域；
98.文本识别模型，用于将切割出的各个感兴趣区域作为输入，经过卷积、池化和激活函数后，获取更深层次的信息，得到各个感兴趣区域中的针打字体的预测结果；
99.全连接层，用于对预测结果进行字符级别的分类，得到各个感兴趣区域的字符串；
100.模板匹配模块，根据获取得到的各个感兴趣区域的字符串，按行检测的方式获取的士票中的各类信息。
101.其中，作为本实施例的一种更优或更为具体的实现方式，所述文本检测模型和所述文本识别模型是预先训练过的智能模型，训练方法是：通过文字图片的生成手段，生成一系列存在与针打文字类似的文字图片，作为训练集对所述文本检测模型和所述文本识别模型进行训练，从而提升模型对针打的士票特殊字体的偏好；还可在文字图片上添加盖章，遮
挡某些重要信息等，从而训练模型在复杂背景中的文本检测和文本识别能力。
102.所述文本检测模型的主干网络为darknet，所述空间金字塔层包括一系列的最大池化层和一个跳跃连接层构成的多个并行分支结构；
103.所述文本检测模型构成如下：
104.第一部分是主干网络darknet，用来提取深层次的信息；
105.第一层是输入层，输入图像；
106.第二层是卷积层，卷积核为3*3，通道数为32；
107.第三层是残差卷积层，包括一个卷积核为3*3，通道数为32的卷积层和一个卷积核为3*3，通道数为64的卷积层；
108.第四层是残差卷积层，包括一个卷积核为1*1，通道数为64的卷积层和一个卷积核为3*3，通道数为128的卷积层；
109.第五层是残差卷积层，包括一个卷积核为1*1，通道数为128的卷积层和一个卷积核为3*3，通道数为256的卷积层；
110.第六层是残差卷积层，包括一个卷积核为1*1，通道数为256的卷积层和一个卷积核为3*3，通道数为512的卷积层；
111.第七层是卷积层，卷积核为3*3，通道数为512，降低通道数，为下一层输入做准备；
112.第八层是残差卷积层，包括一个卷积核为1*1，通道数为512的卷积层和一个卷积核为3*3，通道数为1024的卷积层；
113.其中，由于一开始的图像粒度尺度较大，因此第一层残差卷积层(第三层)可选较大的卷积核，即3*3的卷积核；经过第一层残差卷积层后，粒度变小，因此后续的残差卷积层则可以选择较小的卷积核，即1*1的卷积核，从而能提取不同尺度的信息。
114.第二部分是空间金字塔层，用来整合不同尺度的信息，如图3所示，空间金字塔层包括一系列并行的最大池化层，以整合不同尺度的信息；
115.第一列是原始数据；
116.第二列是最大池化层，滑动窗口为3*3；
117.第三列是最大池化层，滑动窗口为5*5；
118.第四列是最大池化层，滑动窗口为9*9；
119.第五列是最大池化层，滑动窗口为13*13；
120.上述空间金字塔层连接第一列的原始数据以及第二列至第五列的最大池化层的池化信息，以整合不同尺度的信息。
121.空间金字塔层中，从第二列至第五列的最大池化层，其滑动窗口的尺度逐渐变大，刚开始利用小尺度的滑动窗口，可有效针对针打字体的检测，而后面的滑动窗口逐渐变大，可有效避免的士票盖章的干扰。而每一列滑动窗口具体大小的选择，可根据优化检测框的检测效果来设定。
122.第三部分拼接第二部分各卷积层输出的不同维度的数据，并输入到解耦的双头网络中，如图4所示，双头网络具有相同的网络结构，从而具有两个不同通道的输入，两个通道共同确定检测框。其残差卷积层的卷积核大小可根据输出有评价框的好坏来确定，如其确定的检测框中针打字是否完整、空白占比是否较小，与真实检测框的重叠度大小等；
123.其中一头网络的网络结构为：
124.第一层是卷积层，卷积核为1*1，通道数为256，激活函数为relu；
125.第三层是残差卷积层，包括一个卷积核为3*3，通道数为256的卷积层和一个卷积核为3*3，通道数为256的卷积层；
126.第三层是卷积层，卷积核为1*1，通道数为256，激活函数为relu，输出特征为感兴趣区域的做分类预测；
127.另一头网络的的网络结构为：
128.第一层是卷积层，卷积核为1*1，通道数为256，激活函数为relu；
129.第三层是残差卷积层，包括一个卷积核为3*3，通道数为256的卷积层和一个卷积核为3*3，通道数为256的卷积层；
130.第三层是卷积层，卷积核为1*1，通道数为256，激活函数为relu，输出特征为感兴趣区域的做回归预测。
131.所述文本识别模型构成如下：
132.第一层是卷积层，卷积核为3*3，填充为1*1，步长为1*1，通道数为64；
133.第二层是最大池化层，滑动窗口为2*2，步长为2*2；
134.第三层是卷积层，卷积核为3*3，填充为1*1，步长为1*1，通道数为128；
135.第四层是最大池化层，滑动窗口为2*2，步长为2*2；
136.第五层是卷积层，卷积核为3*3，填充为1*1，步长为1*1，通道数为256；
137.第六层是卷积层，卷积核为3*3，填充为1*1，步长为1*1，通道数为256；
138.第七层是最大池化层，滑动窗口为1*2，步长为2*2；
139.第八层是卷积层，卷积核为3*3，填充为1*1，步长为1*1，通道数为512，归一化方法为bn；
140.第九层是最大池化层，滑动窗口为2*2，步长为1*1；
141.第十层是卷积层，卷积核为2*2，步长为1*1，通道数为512；
142.第十层是长短期记忆网络层，隐藏单元数为512；
143.第十一层是长短期记忆网络层，隐藏单元数为512。
144.其中，模板匹配模块中采用的按行检测的方式具体是：通过文本检测模型同时检测出一行中相近的文字，例如在的士票中，“上车”、“下车”的具体时间以及“金额”等的具体数字都是在同一行中，故可以根据前面的具体关键字得出所需的具体信息。
145.由于本发明实施例二所介绍的装置，为实施本发明实施例一的方法所采用的装置，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该装置的具体结构及变形，故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。
146.基于同一发明构思，本技术提供了实施例一对应的电子设备实施例，详见实施例三。
147.实施例三
148.本实施例提供了一种电子设备，如图6所示，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时，可以实现实施例一中任一实施方式。
149.由于本实施例所介绍的电子设备为实施本技术实施例一中方法所采用的设备，故
而基于本技术实施例一中所介绍的方法，本领域所属技术人员能够了解本实施例的电子设备的具体实施方式以及其各种变化形式，所以在此对于该电子设备如何实现本技术实施例中的方法不再详细介绍。只要本领域所属技术人员实施本技术实施例中的方法所采用的设备，都属于本技术所欲保护的范围。
150.基于同一发明构思，本技术提供了实施例一对应的存储介质，详见实施例四。
151.实施例四
152.本实施例提供一种计算机可读存储介质，如图7所示，其上存储有计算机程序，该计算机程序被处理器执行时，可以实现实施例一中任一实施方式。
153.本技术实施例提供的方法、装置、系统、设备及介质，至少具有如下技术效果或优点：利用ocr识别技术实现对输入的针打的士票图片进行识别，先经过文本检测模型识别出各个可能存在文字的图像区域，再将感兴趣区域作为文本识别模型的输入，最后通过全连接层得出字符级别的分类，得到不同图像区域的字符串，利用模板匹配的方式获取针打的士票的各类信息。其中，通过生成图片文字的手段，生成一系列存在与针打文字类似的图片，提升文本检测模型和文本识别模型对针打的士票特殊字体的偏好。文本检测模型中将图像先经过主干网络提取特征，再经过空间金字塔层的并行分支结构得到不同尺度的特征。将不同尺度特征拼接后作为解耦的双头网络的输入，双头网络具有两个不同通道的输入，两个通道共同确定检测框，从而切割出的感兴趣区域。而文本识别模型则通过五个3*3卷积层获取更深层次的信息，即使存在红色盖章的遮挡也不会导致识别失败。
154.本领域内的技术人员应明白，本发明的实施例可提供为方法、装置或系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
155.本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
156.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
157.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
158.虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本
领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：面向分割任务的融合SwinTransformer与UNet的迁移学习方法和系统与流程

一种针打的士票的识别方法、装置、设备和介质与流程

相关文献

最热文献