技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于OCR的票据信息识别方法、装置、设备及存储介质与流程 > 正文

基于OCR的票据信息识别方法、装置、设备及存储介质与流程

国知局
2024-07-31 23:26:40

本申请涉及文字识别，尤其涉及一种基于ocr的票据信息识别方法、装置、设备及存储介质。

背景技术：

1、传统ocr技术在识别文档pdf或者图片中，只保证图片中有的字符，能高度还原成为文本，并不能保证文本的含义和每行、每个表格的意义。但是单证识别过程中，不但需要识别字符所在图片的坐标，还需要知道字符所代表的业务意义。所以就要求单证模型在训练和标注过程中需要标注坐标信息和业务含义信息。

2、现有技术的不足包括：只能识别字符，没有格式和表格，识别出来的字符信息也不能进行业务消费；传统ocr只能识别字符，不能理解字段业务信息。

技术实现思路

1、本申请提供了一种基于ocr的票据信息识别方法、装置、设备及存储介质，进而采用ocr技术和layoutlmv3模型，提高了票据信息识别和分类的准确率。

2、本申请第一方面提供了一种基于ocr的票据信息识别方法，所述基于ocr的票据信息识别方法包括：

3、获取多个初始样本票据图像，并通过label-studio数据标注工具分别对所述多个初始样本票据图像进行字段信息拆分标注，得到多个目标样本票据图像；

4、将所述多个目标样本票据图像输入预置的初始ocr模型进行字符识别训练，得到多个样本票据文本数据和目标ocr模型；

5、将所述多个样本票据文本数据输入预置的多个layoutlmv3模型进行票据分类训练，得到票据信息分类模型；

6、获取第一待识别票据图像，并对所述第一待识别票据图像进行预处理，得到第二待识别票据图像；

7、将所述第二待识别票据图像输入所述目标ocr模型进行文字识别，得到目标票据文本数据；

8、将所述目标票据文本数据输入所述票据信息分类模型进行票据信息分类，得到票据信息分类结果。

9、本申请第二方面提供了一种基于ocr的票据信息识别装置，所述基于ocr的票据信息识别装置包括：

10、获取模块，用于获取多个初始样本票据图像，并通过label-studio数据标注工具分别对所述多个初始样本票据图像进行字段信息拆分标注，得到多个目标样本票据图像；

11、识别训练模块，用于将所述多个目标样本票据图像输入预置的初始ocr模型进行字符识别训练，得到多个样本票据文本数据和目标ocr模型；

12、分类训练模块，用于将所述多个样本票据文本数据输入预置的多个layoutlmv3模型进行票据分类训练，得到票据信息分类模型；

13、预处理模块，用于获取第一待识别票据图像，并对所述第一待识别票据图像进行预处理，得到第二待识别票据图像；

14、文字识别模块，用于将所述第二待识别票据图像输入所述目标ocr模型进行文字识别，得到目标票据文本数据；

15、信息分类模块，用于将所述目标票据文本数据输入所述票据信息分类模型进行票据信息分类，得到票据信息分类结果。

16、本申请第三方面提供了一种计算机设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述计算机设备执行上述的基于ocr的票据信息识别方法。

17、本申请的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的基于ocr的票据信息识别方法。

18、本申请提供的技术方案中，通过自动化的方式获取和处理票据图像，大幅减少了人力资源的需求和人为错误的可能性，尤其是在高负载和高频率的票据处理场景中尤为重要。利用高级ocr模型和layoutlmv3模型的结合，不仅能够识别图像中的文本，还能理解文本在票据中的具体业务意义和上下文关系。这种多模态的识别方式，能够准确地分类和解析复杂的票据布局，如表格、标题和段落等，从而提高了数据提取的准确率和可靠性。用多种数据集和多模型融合策略，这不仅提升了模型的泛化能力，也确保了在不同类型和质量的票据图像上都能保持较高的识别准确性。

技术特征：

1.一种基于ocr的票据信息识别方法，其特征在于，所述基于ocr的票据信息识别方法包括：

2.根据权利要求1所述的基于ocr的票据信息识别方法，其特征在于，所述获取多个初始样本票据图像，并通过label-studio数据标注工具分别对所述多个初始样本票据图像进行字段信息拆分标注，得到多个目标样本票据图像，包括：

3.根据权利要求2所述的基于ocr的票据信息识别方法，其特征在于，所述对每个目标模型对应的初始标签预测结果进行融合，得到带有目标融合策略的标注模型，包括：

4.根据权利要求1所述的基于ocr的票据信息识别方法，其特征在于，所述将所述多个目标样本票据图像输入预置的初始ocr模型进行字符识别训练，得到多个样本票据文本数据和目标ocr模型，包括：

5.根据权利要求4所述的基于ocr的票据信息识别方法，其特征在于，所述根据所述初始票据文本数据确定每个目标样本票据图像的票据关键词，得到多个样本票据文本数据，包括：

6.根据权利要求1所述的基于ocr的票据信息识别方法，其特征在于，所述将所述多个样本票据文本数据输入预置的多个layoutlmv3模型进行票据分类训练，得到票据信息分类模型，包括：

7.根据权利要求6所述的基于ocr的票据信息识别方法，其特征在于，所述对所述多个第一票据分类模型进行强化学习训练和模型集成，生成票据信息分类模型，包括：

8.一种基于ocr的票据信息识别装置，其特征在于，所述基于ocr的票据信息识别装置包括：

9.一种计算机设备，其特征在于，所述计算机设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-7中任一项所述的基于ocr的票据信息识别方法。

技术总结本申请涉及文字识别技术领域，公开了一种基于OCR的票据信息识别方法、装置、设备及存储介质。所述方法包括：获取多个初始样本票据图像并进行信息标注，得到多个目标样本票据图像；通过初始OCR模型进行字符识别训练，得到多个样本票据文本数据和目标OCR模型；通过多个LayoutLMv3模型进行票据分类训练，得到票据信息分类模型；获取第一待识别票据图像并进行预处理，得到第二待识别票据图像；将第二待识别票据图像输入目标OCR模型进行文字识别，得到目标票据文本数据；将目标票据文本数据输入票据信息分类模型进行票据信息分类，得到票据信息分类结果，本申请采用OCR技术和LayoutLMv3模型，提高了票据信息识别和分类的准确率。技术研发人员：苏治,丁军,张煜,陶旭光,喻祥,范耀军受保护的技术使用者：优顶特技术有限公司技术研发日：技术公布日：2024/7/29