技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于人工智能的公文文档校验方法及系统与流程  >  正文

一种基于人工智能的公文文档校验方法及系统与流程

  • 国知局
  • 2024-10-09 15:04:10

本发明涉及文档校验,具体为一种基于人工智能的公文文档校验方法及系统。

背景技术:

1、人工智能ai技术近年来在各个领域中迅速发展,其在文本处理和自然语言处理nlp中的应用尤其广泛。在具体的应用领域中,基于人工智能的公文文档校验系统是一项重要的创新。这种系统旨在通过ai技术对各种格式的公文文档进行智能解析、文本转换和敏感信息检测,从而实现文档的自动化校验与管理。通过对不同格式的文档进行统一处理,确保文档内容的准确性和安全性,尤其是在企业中,这种技术应用可以显著提高工作效率和数据安全。

2、现阶段许多组织仍然依赖人工方式进行文档校验和敏感信息检测,这种方式不仅耗时耗力,而且容易出错。现有的自动化工具大多只能处理特定格式的文档,缺乏对多种格式文档的一致性支持。

3、此外,传统的敏感信息检测方法通常基于关键词匹配,无法准确识别复杂的上下文关系,导致检测结果存在较高的误报率或漏报率。这些不足之处限制了文档管理系统的整体效能,使得敏感信息的保护难以达到预期的效果。

技术实现思路

1、针对现有技术的不足,本发明提供了一种基于人工智能的公文文档校验方法及系统,解决了背景技术中提到的问题。

2、为实现以上目的,本发明通过以下技术方案予以实现:包括以下步骤:

3、s1、提取和解析不同格式的文档,并将不同格式的文档转换为统一的文本格式,再根据文本的结构信息对文本分块,获取文本序列t;

4、s2、使用人工智能识别模型捕捉文本分块中的单词和短语的上下文关系,基于文本序列t生成文本特征向量h,再提取源数据metadata,将源数据metadata转换向量,获取源数据特征向量m;

5、s3、将所获取的文本特征向量h和源数据特征向量m进行相结合,生成综合特征向量f,再使用孤立森林进行敏感信息的异常检测,获取异常得分a,识别潜在敏感信息;

6、s4、将所获取的文本特征向量h、源数据特征向量m和异常得分a,进行综合相关联计算,获取文档敏感风险评分r,再根据文档的具体文档文本序列t,进行计算获取风险阈值o;

7、s5、依据所获取的风险阈值o与获取的文档敏感风险评分r,进行对比评估,获取校验报告。

8、优选的,所述s1包括以下步骤;

9、s11、使用文档格式解析库将不同文档转换为txt文本格式,去除文档中的字体、大小、颜色、特效字体和格式控制字符,并清理文档中的噪声数据,所述噪声数据包括多余的空行和空格等,再将字符编码转换为utf-8编码;

10、s12、统一文本格式后,再使用自然语言nlp对txt文本中的段落标记、标题样式和空行特征分为逻辑段落,并识别txt文本中的标题、章节和附录文本结构元素,并使用正则表达式匹配文档结构元素,提取txt文本中的日期格式、编号列表和引用标记内容;

11、s13、建立txt文本的分块结构,所述分块结构包括标题结构、子标题结构、正文结构和附录结构,获取文本序列t。

12、优选的,所述s2包括以下步骤;

13、s21、构建人工智能识别模型,选择transformers神经网络作为人工智能识别模型结构,transformers是一种基于自注意力机制的神经网络结构,擅长处理自然语言任务,再将txt文本,传输到人工智能识别模型中,人工智能识别模型捕捉输入的txt文本的上下文关系,即每个单词在句子中的含义如何受周围单词的影响,人工智能识别模型通过自注意力机制来计算每个单词与其他单词的关系,从而生成更加准确的上下文表示,这一机制允许模型关注文本中的重要部分,并忽略不相关的信息;

14、s211、基于所捕捉的上下文,人工智能识别模型生成文本特征向量h,所述文本特征向量h通过以下算法公式获取;

15、;

16、式中,t表示txt文本的文本序列,selfattention(t)表示自注意力机制,聚焦于文本的局部上下文,globalattention(t)表示全局注意力机制,捕捉文本的整体上下文关系,layernorm表示层归一化,用于稳定网络的训练过程防止梯度爆炸。

17、优选的,s22、读取文档的源数据字段,包括创建时间、作者、修改时间、文件类型、版本号和访问控制信息,再使用apache元数据提取工具加载txt文本,自动提取txt文本中的源数据metadata;

18、s221、再将源数据metadata转为向量,并与txt文本特征向量进行结合,获取源数据特征向量m,所述源数据特征向量m通过以下方式转换;;式中,f表示转换函数,multiheadattention表示多头注意力机制,处理元数据字段间的复杂交互关系,表示第k个源数据字段将不同元数据字段映射到特征空间的转换函数,表示对第i个元数据字段进行进一步变换的函数;

19、具体转换内容包括:

20、将创建时间转换为距今的天数;

21、将作者名编码为类别变量,使用数值表示不同的作者;

22、文件类型编码为类别变量,使用数值表示不同的文件类型;

23、将版本号转换为数值表示,通常为浮点数,并将主要版本号和次要版本号分开表示;

24、将访问权限级别转换为数值或类别变量,将不同的访问权限类型编码为二进制向量;

25、将访问权限转化为级别标识。

26、优选的,所述s3包括以下步骤;

27、s31、将所获取的源数据特征向量m与文本特征向量h,进行相结合获取综合特征向量f,所述综合特征向量f通过以下算法公式进行相结合;

28、;式中,表示基于注意力机制的融合方法,增强关键特征的表示,表示特征向量的连接操作,和分别表示第一权重参数和第二权重参数,控制特征融合的不同方式;

29、s32、使用孤立森林对所获取的综合特征向量f进行训练和检测,获取txt文本的异常得分a,识别出异常txt文本;

30、所述异常得分a通过以下算法公式计算获取;

31、;式中,isolationforest表示孤立森林算法,用于对综合特征向量f进行异常检测。

32、优选的,所述s4包括以下步骤;

33、s41、将所获取的文本特征向量h、源数据特征向量m和异常得分a,进行综合相关联计算获取文档敏感风险评分r;

34、所述文档敏感风险评分r通过以下算法公式计算获取;

35、;式中,mlp表示多层感知机,ai表示第i类异常的异常得分,wi表示第i类异常得分的权重,u表示用户权限等级特征向量,表示张量积符号,表示特征之间的高阶交互,表示对高阶交互项进行聚合的函数,表示多特征之间的复杂非线性组合,使用人工智能模型来捕捉特征之间的复杂关系,n表示异常得分的类别数量,m表示文档总数量,j表示文档总数量,j表示第j个txt文档。

36、优选的,s42、基于文本序列t,计算获取风险阈值o,进行动态调整风险阈值;

37、所述风险阈值o通过以下算法公式计算获取;

38、;式中,表示基准阈值,history表示历史数据,tj表示第j个txt文档的文本序列t,log表示对数函数,lstm表示长短时记忆网络,表示时间序列模型影响系数,表示归一化系数,表示历史分析评分影响系数,wk表示第k个历史文档的风险评分权重,timedecay(tk)表示时间衰减函数,risklevelk表示第k个历史文档的风险评分,k表示历史文档的数量。

39、优选的,所述s5包括以下步骤;

40、s51、针对不同txt文本动态调整所获取的风险阈值o与所获取的文档敏感风险评分r,进行分析对比评估,分析txt文本内容的敏感性;

41、具体评估方案如下:

42、当文档敏感风险评分r>风险阈值o时,表示识别出当前文档包含潜在的敏感信息,此时需要对文档进行当前txt文本进行详细校验,并输出校验报告;

43、当文档敏感风险评分r≤风险阈值o时,表示当前文档不包含潜在敏感信息,此时校验完毕,将文档进行归档。

44、优选的,s511、所述校验报告通过从文档中提取并列出被检测出的敏感信息,所述敏感信息包括但不限于个人信息、财务信息、账号信息和健康信息,并对所输出的校验报告进行加密处理,再对敏感信息进行掩盖,设置访问权限,限制校验报告查看和编辑权限,设定授权人员能够访问。

45、一种基于人工智能的公文文档校验系统,包括文档处理模块、敏感信息特征提取模块、文档异常分析模块、综合分析模块和评估运维模块;

46、所述文档处理模块通过提取和解析不同格式的文档,并将不同格式的文档转换为统一的文本格式,再根据文本的结构信息对文本分块,获取文本序列t;

47、所述敏感信息特征提取模块通过使用人工智能识别模型捕捉文本分块中的单词和短语的上下文关系,基于文本序列t生成文本特征向量h,再提取源数据metadata,将源数据metadata转换向量,获取源数据特征向量m;

48、所述文档异常分析模块用于将所获取的文本特征向量h和源数据特征向量m进行相结合,生成综合特征向量f,再使用孤立森林进行敏感信息的异常检测,获取异常得分a,识别潜在敏感信息;

49、所述综合分析模块用于将所获取的文本特征向量h、源数据特征向量m和异常得分a,进行综合相关联计算,获取文档敏感风险评分r,再根据文档的具体文档文本序列t,进行计算获取风险阈值o;

50、所述评估运维模块通过依据所获取的风险阈值o与获取的文档敏感风险评分r,进行对比评估,获取文档敏感性等级,并生成报告与处理建议。

51、本发明提供了一种基于人工智能的公文文档校验方法及系统。具备以下有益效果:

52、(1)该方法通过使用文档格式解析库,将不同格式的文档转换为统一的txt文本格式,并进行结构化处理,支持多种文档格式的转换,极大地提高了系统对多种文档格式的兼容性,克服了现有工具只能处理特定格式文档的局限性。

53、(2)该方法能够捕捉文档内容中的复杂上下文关系,生成更加精准的文本特征向量h,相比传统的基于关键词匹配的敏感信息检测方法,可以降低误报率和漏报率,提高敏感信息识别的准确性和可靠性。

54、(3)该方法通过综合分析文档文本特征向量h、源数据特征向量m和异常得分a,能够计算出文档的敏感风险评分r,并基于历史数据和动态调整机制,计算出适应性强的风险阈值o,最终生成的校验报告不仅可以明确指出文档中的潜在敏感信息,还提供了安全可靠的文档处理建议,从而提升了文档管理系统的整体效能。

本文地址:https://www.jishuxx.com/zhuanli/20241009/307495.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。