一种结构化信息的生成方法、装置和计算机可读存储介质与流程

2022-05-18 13:23:06 来源：中国专利 TAG：

技术特征：
1.一种结构化信息的生成方法，其特征在于，包括：获取模板图像，所述模板图像包括多个参照字段与多个识别区，所述识别区与所述参照字段所在的区域不同；对获取到的第一图像进行方向矫正处理，得到第二图像；对所述第二图像进行文本识别处理，得到文本识别结果；将所述文本识别结果与所述参照字段进行匹配，得到匹配结果；基于所述匹配结果对所述第二图像进行矫正，得到第三图像，所述第三图像的角度与所述模板图像的角度相同；基于所述文本识别结果、所述识别区以及所述第三图像，生成结构化信息。2.根据权利要求1所述的结构化信息的生成方法，其特征在于，所述对获取到的第一图像进行方向矫正处理，得到第二图像的步骤之前，包括：获取与所述识别区对应的识别名称字段，所述识别名称字段所在的区域与所述识别区不同；建立所述识别名称字段与所述识别区的对应关系，得到映射表。3.根据权利要求2所述的结构化信息的生成方法，其特征在于，所述文本识别结果包括多个子识别结果，所述基于所述文本识别结果、所述识别区以及所述第三图像，生成结构化信息的步骤，包括：将所述子识别结果所在的区域的位置与所述识别区的位置进行匹配，得到候选区；将所述候选区对应的子识别结果与所述映射表进行匹配，得到所述子识别结果的识别名称；将所述识别名称以及与所述识别名称对应的子识别结果，确定为所述结构化信息。4.根据权利要求3所述的结构化信息的生成方法，其特征在于，所述匹配结果包括多个匹配字段，所述基于所述匹配结果对所述第二图像进行矫正，得到第三图像的步骤，包括：判断所述子识别结果与所述参照字段的相似度是否大于预设相似度；若是，则将所述子识别结果确定为所述匹配字段；基于所述匹配字段，对所述第二图像进行透视变换，得到所述第三图像。5.根据权利要求2所述的结构化信息的生成方法，其特征在于，所述文本识别结果包括多个子识别结果，所述基于所述文本识别结果、所述识别区以及所述第三图像，生成结构化信息的步骤，包括：将所述子识别结果与所述映射表进行匹配，得到识别名称；将所述识别名称以及与所述识别名称对应的子识别结果，确定为所述结构化信息。6.根据权利要求1所述的结构化信息的生成方法，其特征在于，所述对获取到的第一图像进行方向矫正处理，得到第二图像的步骤，包括：检测所述第一图像的方向，得到第一倾斜角度；判断所述第一倾斜角度是否为预设角度；若否，则对所述第一图像进行旋转处理，得到第四图像；对所述第四图像进行矫正处理，得到所述第二图像。7.根据权利要求6所述的结构化信息的生成方法，其特征在于，所述对所述第四图像进行矫正处理，得到所述第二图像的步骤，包括：
对所述第四图像进行霍夫直线检测，得到直线检测结果；基于所述直线检测结果，对所述第四图像进行矫正处理，得到所述第二图像。8.根据权利要求7所述的结构化信息的生成方法，其特征在于，所述直线检测结果包括至少一条直线的倾斜角，所述基于所述直线检测结果，对所述第四图像进行矫正处理，得到所述第二图像的步骤，包括：对所有所述直线的倾斜角进行平均，得到第二倾斜角度；将所述第四图像旋转所述第二倾斜角度，得到所述第二图像。9.根据权利要求6所述的结构化信息的生成方法，其特征在于，所述方法包括：在所述第一倾斜角度为所述预设角度时，对所述第一图像进行矫正处理，得到所述第二图像。10.一种文档结构化装置，其特征在于，包括：获取模块，用于获取模板图像，所述模板图像包括多个参照字段与多个识别区，所述识别区与所述参照字段所在的区域不同；处理模块，与所述获取模块连接，用于对获取到的第一图像进行方向矫正处理，得到第二图像；对所述第二图像进行文本识别处理，得到文本识别结果；将所述文本识别结果与所述参照字段进行匹配，得到匹配结果；基于所述匹配结果对所述第二图像进行矫正，得到第三图像，所述第三图像的角度与所述模板图像的角度相同；生成模块，与所述处理模块连接，用于基于所述文本识别结果、所述识别区以及所述第三图像，生成结构化信息。11.一种文档结构化装置，其特征在于，包括互相连接的存储器和处理器，其中，所述存储器用于存储计算机程序，所述计算机程序在被所述处理器执行时，用于实现权利要求1-9中任一项所述的结构化信息的生成方法。12.一种计算机可读存储介质，用于存储计算机程序，其特征在于，所述计算机程序在被处理器执行时，用于实现权利要求1-9中任一项所述的结构化信息的生成方法。

技术总结
本申请公开了一种结构化信息的生成方法、装置和计算机可读存储介质，该方法包括：获取模板图像，模板图像包括多个参照字段与多个识别区，识别区与参照字段所在的区域不同；对获取到的第一图像进行方向矫正处理，得到第二图像；对第二图像进行文本识别处理，得到文本识别结果；将文本识别结果与参照字段进行匹配，得到匹配结果；基于匹配结果对第二图像进行矫正，得到第三图像，第三图像的角度与模板图像的角度相同；基于文本识别结果、识别区以及第三图像，生成结构化信息。通过上述方式，本申请能够提升效率，且适应性较广。且适应性较广。且适应性较广。

技术研发人员：游照林熊剑平陈媛媛
受保护的技术使用者：浙江大华技术股份有限公司
技术研发日：2021.12.24
技术公布日：2022/5/17

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种多税控设备集中式共享开票数据处理方法与流程

一种结构化信息的生成方法、装置和计算机可读存储介质与流程

相关文献

最热文献