技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于深度学习的电子档案智能归类方法及装置与流程  >  正文

基于深度学习的电子档案智能归类方法及装置与流程

  • 国知局
  • 2024-09-05 15:05:27

本发明涉及数据处理,尤其涉及一种基于深度学习的电子档案智能归类方法及装置。

背景技术:

1、随着数字化转型的加速,企业和组织产生的电子文档数量急剧增加,这些文档包括但不限于法律文件、财务报告、内部通信、生产记录等。传统的人工归档方法不仅效率低下,而且容易出错,无法满足快速增长的文档处理需求。此外,电子档案的多样性和复杂性要求归类系统不仅要有高准确度,还要具备良好的扩展性和鲁棒性。现有的归类技术多依赖于简单的关键词匹配或规则引擎,这些方法在处理语义丰富、格式多样的电子文档时往往效果较差。同时,数据标注和特征提取的自动化程度不高,导致模型训练和优化过程繁琐且耗时。

技术实现思路

1、有鉴于此,本发明的目的在于提供一种基于深度学习的电子档案智能归类方法及装置,能够快速、准确进行文档归类。

2、第一方面,本发明实施例提供一种基于深度学习的电子档案智能归类方法,其中,该方法包括:获取待归类文档;将待归类文档转换为词汇表,基于词汇表,构建待归类文档的向量化表示;将向量化表示输入至预设的特征提取模型中,输出向量化表示对应的关键特征;其中,训练特征提取模型的训练样本集使用生成对抗网络通过量子逻辑门操作构建;且,特征提取模型基于鲸鱼优化算法优化训练样本集对应的特征权重,以及,基于优化的特征权重对特征提取模型的模型参数进行更新;将关键特征输入至预先构建的分类器模型中,输出关键特征对应的分类结果;其中,分类器模型基于极限学习机分类算法作为分类器算法,极限学习机采用量子态演化理论更新连接权重;基于分类结果,对待归类文档进行归类。

3、结合第一方面,本发明实施例还提供第一方面的第一种实施方式,其中,基于分类结果,对待归类文档进行归类的步骤,包括:获取分类结果所指示的文档类型;基于文档类型,对待归类文档进行归类。

4、结合第一方面,本发明实施例还提供第一方面的第二种实施方式,其中,待归类文档中包括多个文档;将待归类文档转换为词汇表,基于词汇表,构建待归类文档的向量化表示的步骤,包括:采用词袋模型构建待归类文档对应的词汇表;计算词汇表中的每个词在待归类文档中的逆文档频率,以及,每个词在对应文档中的术语频率;基于逆文档频率和术语频率,计算每个文档中的每个词对应的tf-idf值;基于tf-idf值,构建待归类文档的向量化表示。

5、结合第一方面,本发明实施例还提供第一方面的第三种实施方式,其中,分类器模型的构建方法,包括:初始化极限学习机的连接权重;其中,连接权重对应有量子位;通过量子门操作对极限学习机的连接权重进行量子态演化,以更新连接权重;将预设的训练样本集输入至极限学习机中进行前向传播,基于前向传播对应的输出误差,对量子门操作的量子门参数进行调整;直至极限学习机满足预设的训练条件,基于极限学习机构建分类器模型。

6、结合第一方面,本发明实施例还提供第一方面的第四种实施方式,其中,特征提取模型的构建方法,包括:将预设的训练样本集输入至初始神经网络中,对训练样本集进行多粒度处理,生成每个粒度分别对应的数据集;将每个粒度的数据集分别输入至初始神经网络的对应的神经网络模块中,输出提取特征,且,使用鲸鱼优化算法搜索每个粒度分别对应的特征权重;基于特征权重,对每个粒度的提取特征进行融合,并计算初始神经网络的损失函数;基于损失函数,对初始神经网络的参数进行优化;直到初始神经网络达到预设的训练条件,基于初始神经网络构建特征提取模型。

7、结合第一方面,本发明实施例还提供第一方面的第五种实施方式,其中,该方法还包括:将关键特征输入至自编码神经网络模型中,通过自编码神经网络模型的编码器将关键特征映射到隐藏特征空间,得到隐藏层激活特征;通过非局域网络模块计算隐藏层激活特征对应的特征关系,基于特征关系,生成目标特征表示;通过自编码神经网络模型的解码器对目标特征表示进行解码,生成关键特征对应的重构特征。

8、结合第一方面,本发明实施例还提供第一方面的第六种实施方式,其中,方法还包括:在自编码神经网络模型的训练过程中,使用梯度下降法对自编码神经网络模型的编码器的参数、解码器的参数,以及,非局域网络模块的参数进行优化。

9、结合第一方面,本发明实施例还提供第一方面的第七种实施方式,其中,训练样本集的构建方法,包括:从多个电子档案系统中获取档案样本;对档案样本进行标注,构建初始样本集;其中,标注的标签用于指示档案样本的档案类别;使用预先构建的生成对抗网络通过量子逻辑门操作生成初始样本集对应的量子态扩充样本;将量子态扩充样本与初始样本集合并,构建训练样本集。

10、结合第一方面,本发明实施例还提供第一方面的第八种实施方式,其中,使用预先构建的生成对抗网络通过量子逻辑门操作生成初始样本集对应的量子态扩充样本的步骤,包括:使用生成对抗网络的生成器通过量子逻辑门操作生成初始扩充样本;对初始扩充样本进行量子态扩散,生成量子态扩散样本;通过生成对抗网络的判别器计算量子态扩散样本的量子态重叠度,基于量子态重叠度,确定量子态扩散样本对应的鉴别概率;当鉴别概率满足预设条件时,将量子态扩散样本作为初始样本集对应的量子态扩充样本。

11、第二方面,本发明实施例还提供一种基于深度学习的电子档案智能归类装置,其中,该装置包括:数据获取模块,用于获取待归类文档;数据处理模块,用于将待归类文档转换为词汇表,基于词汇表,构建待归类文档的向量化表示;特征提取模块,用于将向量化表示输入至预设的特征提取模型中,输出向量化表示对应的关键特征;其中,训练特征提取模型的训练样本集使用生成对抗网络通过量子逻辑门操作构建;且,特征提取模型基于鲸鱼优化算法优化训练样本集对应的特征权重,以及,基于优化的特征权重对特征提取模型的模型参数进行更新;执行模块,用于将关键特征输入至预先构建的分类器模型中,输出关键特征对应的分类结果;其中,分类器模型基于极限学习机分类算法作为分类器算法,极限学习机采用量子态演化理论更新连接权重;输出模块,用于基于分类结果,对待归类文档进行归类。

12、本发明实施例带来了以下有益效果:本发明提供的一种基于深度学习的电子档案智能归类方法及装置,基于待归类文档的词汇表对文档进行向量化处理后,通过特征提取模型进行特征提取,并由训练好的分类器模型对关键特征进行分类。特征提取模型基于鲸鱼优化算法优化训练样本集对应的特征权重,以及,基于优化的特征权重对特征提取模型的模型参数进行更新,能够使特征提取模型提取不同层次的特征,有助于捕捉更丰富的数据特征。训练特征提取模型的训练样本集使用生成对抗网络通过量子逻辑门操作构建,可以生成更多高维、复杂分布的数据样本。分类器模型基于极限学习机分类算法作为分类器算法,极限学习机采用量子态演化理论更新连接权重,能够减少因梯度消失或爆炸导致的学习停滞问题。基于此,本发明能够对待归类文档进行自动化归类,实现数据的自动标注,且,不依赖于简单的关键词匹配或规则引擎,能够更好处理语义丰富、格式多样的电子文档。

13、本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。

14、为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

本文地址:https://www.jishuxx.com/zhuanli/20240905/289504.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。