一种针打的士票的识别方法、装置、设备和介质与流程

2022-05-18 16:49:11 来源：中国专利 TAG：

技术特征：
1.一种针打的士票的识别方法，其特征在于：包括下述步骤：s1、检测角度模型检测针打的士票图片的输入角度，若输入角度不是正确角度，则将输入角度旋转为正确角度；s2、文本检测模型检测处于正确角度的所述针打的士票图片，提取所述针打的士票图片中各个包含文字的感兴趣区域，具体包括：先通过主干网络提取所述针打的士票图片中的深层次信息；再通过空间金字塔层得到不同尺度的特征信息；将不同尺度的特征信息拼接后作为解耦的双头网络的输入，由所述双头网络决定最终保留的感兴趣区域；s3、将切割出的各个感兴趣区域作为文本识别模型的输入，经过卷积、池化和激活函数后，获取更深层次的信息，得到各个感兴趣区域中的针打字体的预测结果；s4、通过全连接层对预测结果进行字符级别的分类，得到各个感兴趣区域的字符串；s5、根据获取得到的各个感兴趣区域的字符串，利用模板匹配的方式获取的士票中的各类信息。2.根据权利要求1所述的一种针打的士票的识别方法，其特征在于：所述文本检测模型和所述文本识别模型是预先训练过的智能模型，训练方法是：通过文字图片的生成手段，生成一系列存在与针打文字类似的文字图片，作为训练集对所述文本检测模型和所述文本识别模型进行训练，从而提升模型对针打的士票特殊字体的偏好；所述文本检测模型的主干网络为darknet，所述空间金字塔层包括一系列的最大池化层和一个跳跃连接层构成的多个并行分支结构；所述文本识别模型包括五个3*3卷积层。3.根据权利要求1或2所述的一种针打的士票的识别方法，其特征在于：所述文本检测模型构成如下：第一部分是主干网络，用来提取深层次的信息；第一层是输入层，输入图像；第二层是卷积层，卷积核为3*3，通道数为32；第三层是残差卷积层，包括一个卷积核为3*3，通道数为32的卷积层和一个卷积核为3*3，通道数为64的卷积层；第四层是残差卷积层，包括一个卷积核为1*1，通道数为64的卷积层和一个卷积核为3*3，通道数为128的卷积层；第五层是残差卷积层，包括一个卷积核为1*1，通道数为128的卷积层和一个卷积核为3*3，通道数为256的卷积层；第六层是残差卷积层，包括一个卷积核为1*1，通道数为256的卷积层和一个卷积核为3*3，通道数为512的卷积层；第七层是卷积层，卷积核为3*3，通道数为512；第八层是残差卷积层，包括一个卷积核为1*1，通道数为512的卷积层和一个卷积核为3*3，通道数为1024的卷积层；第二部分是空间金字塔层，用来整合不同尺度的信息，空间金字塔层包括一系列并行的最大池化层，以整合不同尺度的信息；
第一列是原始数据；第二列是最大池化层，滑动窗口为3*3；第三列是最大池化层，滑动窗口为5*5；第四列是最大池化层，滑动窗口为9*9；第五列是最大池化层，滑动窗口为13*13；第三部分拼接第二部分各卷积层输出的不同维度的数据，并输入到解耦的双头网络中，双头网络具有相同的网络结构；其中一头网络的网络结构为：第一层是卷积层，卷积核为1*1，通道数为256，激活函数为relu；第三层是残差卷积层，包括一个卷积核为3*3，通道数为256的卷积层和一个卷积核为3*3，通道数为256的卷积层；第三层是卷积层，卷积核为1*1，通道数为256，激活函数为relu，输出特征为感兴趣区域的做分类预测；另一头网络的的网络结构为：第一层是卷积层，卷积核为1*1，通道数为256，激活函数为relu；第三层是残差卷积层，包括一个卷积核为3*3，通道数为256的卷积层和一个卷积核为3*3，通道数为256的卷积层；第三层是卷积层，卷积核为1*1，通道数为256，激活函数为relu，输出特征为感兴趣区域的做回归预测。4.根据权利要求1或2所述的一种针打的士票的识别方法，其特征在于：所述文本识别模型构成如下：第一层是卷积层，卷积核为3*3，填充为1*1，步长为1*1，通道数为64；第二层是最大池化层，滑动窗口为2*2，步长为2*2；第三层是卷积层，卷积核为3*3，填充为1*1，步长为1*1，通道数为128；第四层是最大池化层，滑动窗口为2*2，步长为2*2；第五层是卷积层，卷积核为3*3，填充为1*1，步长为1*1，通道数为256；第六层是卷积层，卷积核为3*3，填充为1*1，步长为1*1，通道数为256；第七层是最大池化层，滑动窗口为1*2，步长为2*2；第八层是卷积层，卷积核为3*3，填充为1*1，步长为1*1，通道数为512，归一化方法为bn；第九层是最大池化层，滑动窗口为2*2，步长为1*1；第十层是卷积层，卷积核为2*2，步长为1*1，通道数为512；第十层是长短期记忆网络层，隐藏单元数为512；第十一层是长短期记忆网络层，隐藏单元数为512。5.一种针打的士票的识别装置，其特征在于：包括：检测角度模型，用于检测针打的士票图片的输入角度，若输入角度不是正确角度，则将输入角度旋转为正确角度；文本检测模型，用于检测处于正确角度的所述针打的士票图片，提取所述针打的士票图片中各个包含文字的感兴趣区域，具体包括：先通过主干网络提取所述针打的士票图片
中的深层次信息；再通过空间金字塔层得到不同尺度的特征信息；将不同尺度的特征信息拼接后作为解耦的双头网络的输入，由所述双头网络决定最终保留的感兴趣区域；文本识别模型，用于将切割出的各个感兴趣区域作为输入，经过卷积、池化和激活函数后，获取更深层次的信息，得到各个感兴趣区域中的针打字体的预测结果；全连接层，用于对预测结果进行字符级别的分类，得到各个感兴趣区域的字符串；模板匹配模块，根据获取得到的各个感兴趣区域的字符串，利用模板匹配的方式获取的士票中的各类信息。6.根据权利要求5所述的一种针打的士票的装置，其特征在于：所述文本检测模型和所述文本识别模型是预先训练过的智能模型，训练方法是：通过文字图片的生成手段，生成一系列存在与针打文字类似的文字图片，作为训练集对所述文本检测模型和所述文本识别模型进行训练，从而提升模型对针打的士票特殊字体的偏好。7.根据权利要求5所述的一种针打的士票的装置，其特征在于：所述文本检测模型构成如下：第一部分是主干网络，用来提取深层次的信息；第一层是输入层，输入图像；第二层是卷积层，卷积核为3*3，通道数为32；第三层是残差卷积层，包括一个卷积核为3*3，通道数为32的卷积层和一个卷积核为3*3，通道数为64的卷积层；第四层是残差卷积层，包括一个卷积核为1*1，通道数为64的卷积层和一个卷积核为3*3，通道数为128的卷积层；第五层是残差卷积层，包括一个卷积核为1*1，通道数为128的卷积层和一个卷积核为3*3，通道数为256的卷积层；第六层是残差卷积层，包括一个卷积核为1*1，通道数为256的卷积层和一个卷积核为3*3，通道数为512的卷积层；第七层是卷积层，卷积核为3*3，通道数为512；第八层是残差卷积层，包括一个卷积核为1*1，通道数为512的卷积层和一个卷积核为3*3，通道数为1024的卷积层；第二部分是空间金字塔层，用来整合不同尺度的信息，空间金字塔层包括一系列并行的最大池化层，以整合不同尺度的信息；第一列是原始数据；第二列是最大池化层，滑动窗口为3*3；第三列是最大池化层，滑动窗口为5*5；第四列是最大池化层，滑动窗口为9*9；第五列是最大池化层，滑动窗口为13*13；第三部分拼接第二部分各卷积层输出的不同维度的数据，并输入到解耦的双头网络中，双头网络具有相同的网络结构；其中一头网络的网络结构为：第一层是卷积层，卷积核为1*1，通道数为256，激活函数为relu；第三层是残差卷积层，包括一个卷积核为3*3，通道数为256的卷积层和一个卷积核为
3*3，通道数为256的卷积层；第三层是卷积层，卷积核为1*1，通道数为256，激活函数为relu，输出特征为感兴趣区域的做分类预测；另一头网络的的网络结构为：第一层是卷积层，卷积核为1*1，通道数为256，激活函数为relu；第三层是残差卷积层，包括一个卷积核为3*3，通道数为256的卷积层和一个卷积核为3*3，通道数为256的卷积层；第三层是卷积层，卷积核为1*1，通道数为256，激活函数为relu，输出特征为感兴趣区域的做回归预测。8.根据权利要求5所述的一种针打的士票的装置，其特征在于：所述文本识别模型构成如下：第一层是卷积层，卷积核为3*3，填充为1*1，步长为1*1，通道数为64；第二层是最大池化层，滑动窗口为2*2，步长为2*2；第三层是卷积层，卷积核为3*3，填充为1*1，步长为1*1，通道数为128；第四层是最大池化层，滑动窗口为2*2，步长为2*2；第五层是卷积层，卷积核为3*3，填充为1*1，步长为1*1，通道数为256；第六层是卷积层，卷积核为3*3，填充为1*1，步长为1*1，通道数为256；第七层是最大池化层，滑动窗口为1*2，步长为2*2；第八层是卷积层，卷积核为3*3，填充为1*1，步长为1*1，通道数为512，归一化方法为bn；第九层是最大池化层，滑动窗口为2*2，步长为1*1；第十层是卷积层，卷积核为2*2，步长为1*1，通道数为512；第十层是长短期记忆网络层，隐藏单元数为512；第十一层是长短期记忆网络层，隐藏单元数为512。9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4任一项所述的方法。10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至4任一项所述的方法。

技术总结
本发明提供一种针打的士票的识别方法、装置、设备和介质，方法包括：通过文本检测模型检测处于正确角度的针打的士票图片，提取包含文字的感兴趣区域，具体先通过主干网络提取深层次信息；再通过空间金字塔层得到不同尺度的特征信息；将不同尺度的特征信息拼接后由所述双头网络决定最终保留的感兴趣区域；再通过文本识别模型获取各个感兴趣区域更深层次的信息，得到各个感兴趣区域中的针打字体的预测结果；然后通过全连接层对预测结果进行字符级别的分类，得到各个感兴趣区域的字符串；最后根据获取得到的各个感兴趣区域的字符串，利用模板匹配的方式获取的士票中的各类信息。从而使本发明能顺利识别针打的士票。发明能顺利识别针打的士票。发明能顺利识别针打的士票。

技术研发人员：黄家昌赖奇嵘杨辉邱道椿
受保护的技术使用者：福建亿能达信息技术股份有限公司
技术研发日：2021.12.31
技术公布日：2022/5/17

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：面向分割任务的融合SwinTransformer与UNet的迁移学习方法和系统与流程

一种针打的士票的识别方法、装置、设备和介质与流程

相关文献

最热文献