技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种结构化文档理解模型建立方法  >  正文

一种结构化文档理解模型建立方法

  • 国知局
  • 2024-07-31 22:49:33

本发明涉及文档智能,具体为一种结构化文档理解模型建立方法。

背景技术:

1、结构化文档理解(structured document understanding,sdu)是文档智能处理的重要组成部分,它旨在阅读和分析扫描/数字化文档中包含的文本和结构化信息。具体涉及从表单和收据等视觉丰富的文档中进行语义实体识别(semantic entity recognition,ser)任务。随着数字化进程的加快,它已被金融、医疗、保险等各个领域广泛应用。

2、结构化文档理解的研究是自然语言处理和计算机视觉的交叉领域,可以按照模态交互模式分类为单流结构和双流结构,之前的方法多使用单流结构,如layoutlm以及后续的模型如structurallm、bros和formnet等将布局信息视为二维空间坐标,将其转化为向量与多模态预训练模型的文本嵌入在嵌入层融合送入单个自注意力编码器中。然而单流模型使用自注意力机制从底层学习模态之间的排列,不同模态信息的处理是同样的,容易忽视不同模态的信息对模型理解文档的重要性。双流模型很好地解决了这个问题,selfdoc模型对文本信息和图像信息进行了不同的处理,分别使用了不同模型处理图像区域进行了特征抽取并编码为特征向量。lilt在预训练阶段解耦了文本信息和布局信息,提出了一种新的双向注意互补机制biacm来加强两个模态的交互,之后再进行简单的拼接进行微调。

3、然而目前双流模型对单个模态信息的处理使用自注意力层,模态特征由于经过多次非线性变换糅合,容易存在不重要信息的冗余和重要信息的丢失,造成模态之间的信息相互干扰和效果的损失。此外,双流模型对多种模态信息的融合采用简单拼接策略,没有更深层次地促进文本信息和布局信息更好地融合。

4、因此需要对以上问题提出一种新的解决方案。

技术实现思路

1、本发明的目的在于提供一种结构化文档理解模型建立方法,解决上述背景技术中提出的技术问题。

2、为实现上述目的,本发明提供如下技术方案:一种结构化文档理解模型建立方法,至少包括以下步骤:

3、s1:将数据集中的图像通过ocr技术提取出文本信息和布局信息后,使用两个自注意力编码器分别单独处理每个模态的信息;

4、s2:采用结合了残差思想的门控模块筛选每个模态的信息;

5、s3:引入交叉注意力机制,通过sca模块融合文本特征和布局特征;

6、s4:通过数据集对gcaf网络进行预训练。

7、进一步地,所述s1至少包括以下步骤:

8、将数据集中的图像通过ocr系统,使得图像中所有文本字符串首先经过分词提取出词单元,再通过从左上到右下对相应的文本边界框排序将文本词连接为序列st以及其他处理得到文本特征;

9、构建一个与文本序列st长度相同的二维位置序列sl得到布局特征;

10、之后将文本特征和布局特征分别送入自编码器进行学习;

11、编码器将输入的文本特征和布局特征分别训练生成高级特征。

12、进一步地,所述编码器通过biacm模块同时学习文本信息和布局信息,用于加强两个编码器的跨模态交互。

13、进一步地,所述s2至少包括以下步骤:

14、通过结合了resnet中残差结构保留初始信息和门控机制筛选信息的思想提出的残差门控对文本特征和布局特征进行层级之间交叉特征的学习,来动态筛选交互后的文本和布局特征层间重要信息并确保无损输入到融合模块中,残差门控函数定义如下:

15、

16、进一步地,所述s3中的sca模块基于跳过连接策略,为n个注意力块中的s个添加交叉注意力层,交叉注意力层由自注意层(sa)、交叉注意层(ca)和前馈网络(ffn)组成的,所述sca模块融合文本特征和布局特征的步骤为:

17、首先将输入的布局特征ln-1送到自注意层得到

18、然后将文本特征tn-1通过交叉注意层注入布局特征中,得到

19、将自注意和交叉注意的输出相加,输入到ffn层,得到融合了布局特征和文本特征的表示ln;

20、所述sca模块表达式如下:

21、

22、

23、

24、其中,ln是层归一化的缩写。

25、进一步地,所述s4中通过数据集对gcaf网络进行预训练的步骤为:

26、通过文档理解数据集funsd对gcaf网络进行预训练;

27、将富文本文档数据集中199张文档,划分为训练集和测试集

28、与现有技术相比,本发明的有益效果是:

29、本发明提供的方法用于建立一种基于门控机制和交叉注意力的结构化文档理解模型,通过引入交叉注意力机制的sca模块更好地融合了文档图像的布局特征和文本特征;同时提出新的残差门控模块动态提取每个模态的重要信息。

技术特征:

1.一种结构化文档理解模型建立方法,其特征在于:至少包括以下步骤:

2.根据权利要求1所述的一种结构化文档理解模型建立方法,其特征在于:所述s1至少包括以下步骤:

3.根据权利要求2所述的一种结构化文档理解模型建立方法,其特征在于:所述编码器通过biacm模块同时学习文本信息和布局信息,用于加强两个编码器的跨模态交互。

4.根据权利要求1所述的一种结构化文档理解模型建立方法,其特征在于:所述s2至少包括以下步骤:

5.根据权利要求1所述的一种结构化文档理解模型建立方法,其特征在于:所述s3中的sca模块基于跳过连接策略,为n个注意力块中的s个添加交叉注意力层,所述sca模块融合文本特征和布局特征的步骤为:

6.根据权利要求1所述的一种结构化文档理解模型建立方法,其特征在于:所述s4中通过数据集对gcaf网络进行预训练的步骤为:

技术总结本发明公开了一种结构化文档理解模型建立方法,涉及文档智能技术领域。本发明至少包括S1:将数据集中的图像通过OCR技术提取出文本信息和布局信息后,使用两个自注意力编码器分别单独处理每个模态的信息;S2:采用结合了残差思想的门控模块筛选每个模态的信息;S3:引入交叉注意力机制,通过SCA模块融合文本特征和布局特征;S4:通过数据集对GCAF网络进行预训练。本发明提供的方法用于建立一种基于门控机制和交叉注意力的结构化文档理解模型,通过引入交叉注意力机制的SCA模块更好地融合了文档图像的布局特征和文本特征;同时提出新的残差门控模块动态提取每个模态的重要信息。技术研发人员:姜彬,张蕾,王勇受保护的技术使用者:重庆理工大学技术研发日:技术公布日:2024/7/29

本文地址:https://www.jishuxx.com/zhuanli/20240730/194830.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。