一种基于信息检索的合同管理方法、设备及介质与流程
- 国知局
- 2024-11-21 12:04:49
本说明书涉及合同管理,尤其涉及一种基于信息检索的合同管理方法、设备及介质。
背景技术:
1、随着经济的发展和社会的进步,合同已是商业活动中不可或缺的法律文本,近年来合同签署数量也呈指数级攀升。通过人工筛选的方式,在海量的合同中检索出相似的合同需要耗费巨大的人力、物力等资源,导致相关从业人员无法充分掌握并利用现有的合同数据,一定程度上影响了相关业务的高效推进。合同信息检索是智慧合同管理中必不可少的一部分,通过多模态合同数据的模态内及跨模态检索,可以识别相似合同,相似合同的识别有助于快速分类和归档,使得合同管理人员能够更高效地处理大量合同。
2、对于合同信息的相似性检索来说,传统的检索技术只能发掘出浅层的语义关系,并不能获取合同图像与合同文本数据之间的复杂语义关联信息。此外,传统的检索方法为了保持精度,通常将多模态信息转化为实值表示,然后利用余弦距离等计算公式衡量多模态数据之间的相似度,进而完成相似合同检索任务。值得注意的是,当待检索的相似合同数据规模较大时,遍历合同数据库的会耗费极大的计算开销,因此不适用于大规模的相似合同检索场景。近年来,随着机器学习的发展,基于最近邻搜索的哈希学习因其存储耗费低、计算效率高等优点,被广泛应用于多媒体之间的检索匹配。现有的无监督哈希方法更多地关注哈希编码的学习阶段,忽略了特征提取阶段,而特征提取对相似合同的检索是至关重要的。
3、因此,在大规模相似合同的场景下,传统合同数据的信息检索耗费极大的计算开销,相似合同的识别效率无法满足大量合同的场景需求,导致合同管理效率有待提高。
技术实现思路
1、本说明书一个或多个实施例提供了一种基于信息检索的合同管理方法、设备及介质,用于解决如下技术问题:在大规模相似合同的场景下,传统合同数据的信息检索耗费极大的计算开销,导致相似合同的识别效率无法满足大量合同的场景需求,合同管理效率有待提高。
2、本说明书一个或多个实施例采用下述技术方案:
3、本说明书一个或多个实施例提供一种基于信息检索的合同管理方法,所述方法包括:获取待管理合同对应的多模态合同样本数据,其中,所述多模态合同样本数据包括合同图像数据和合同文本数据中的任意一项或多项;对所述多模态合同样本数据进行深度特征提取,通过鲁棒协同矩阵分解,确定所述多模态合同样本数据对应的目标函数;基于所述目标函数,确定所述多模态合同样本数据对应的信息检索指标,在预先构建的多模态合同样本库中,通过所述信息检索指标进行合同信息相似度匹配,确定所述待管理合同与所述多模态合同样本库的多个现有合同的相似度序列;根据所述待管理合同与所述多模态合同样本库的多个现有合同的相似度序列,对所述待管理合同进行管理操作。
4、进一步地,对所述多模态合同样本数据进行深度特征提取,通过鲁棒协同矩阵分解,确定所述多模态合同样本数据对应的目标函数,具体包括:通过图像编码器和/或文本编码器,对所述多模态合同样本数据进行深度特征提取,以生成深度图像特征和/或深度文本特征;根据所述深度图像特征和/或深度文本特征,通过鲁棒协同矩阵分解,确定所述多模态合同样本数据对应的目标函数。
5、进一步地,通过鲁棒协同矩阵分解,确定所述多模态合同样本数据对应的目标函数,具体包括:对所述多模态合同样本数据进行鲁棒协同矩阵分解,以学习多模态合同样本数据的实值公共表示;基于所述实值公共表示,引入正交矩阵和非对称策略,确定所述多模态合同样本数据对应的目标函数。
6、进一步地,基于所述实值公共表示,引入正交矩阵和非对称策略,确定所述多模态合同样本数据对应的目标函数,具体包括:通过引入正交矩阵,对所述实值公共表示与哈希编码之间的量化误差进行最小化处理,以将在鲁棒公共子空间中学习的语义信息传递到汉明空间;根据所述深度图像特征和/或深度文本特征,构造模态内和模态间的相似度矩阵,并对所述相似度矩阵进行二阶相似,确定模态间联合相似矩阵;采用非对称策略,将所述模态间联合相似矩阵嵌入到哈希编码的学习过程中,以将模型提取的模态内语义信息和模态间互补信息传递到汉明空间,生成哈希编码。
7、进一步地,基于所述目标函数,确定所述多模态合同样本数据对应的信息检索指标,具体包括:根据所述目标函数确定对应的哈希函数,基于所述哈希函数对所述多模态合同样本数据进行投影,生成对应的检索哈希编码。
8、进一步地,在预先构建的多模态合同样本库中,通过所述信息检索指标进行合同信息相似度匹配,确定所述待管理合同与所述多模态合同样本库的多个现有合同的相似度序列,具体包括:确定所述信息检索指标,并获取所述多模态合同样本库中多个现有合同对应的样本信息检索指标;根据所述信息检索指标和多个所述样本信息检索指标,确定所述信息检索指标与每个所述样本信息检索指标之间的相似度指标;按照所述相似度指标,对所述多个现有合同进行排序,确定所述相似度序列。
9、进一步地,当所述信息检索指标为检索哈希编码时,根据所述信息检索指标和多个所述样本信息检索指标,确定所述信息检索指标与每个所述样本信息检索指标之间的相似度指标,具体包括:计算所述检索哈希编码与每个所述现有合同对应的样本哈希编码之间的汉明距离,得到多个所述汉明距离,以确定所述信息检索指标与每个所述样本信息检索指标之间的相似度指标。
10、进一步地,根据所述待管理合同与所述多模态合同样本库的多个现有合同的相似度序列,对所述待管理合同进行管理操作,具体包括:根据所述待管理合同与所述多模态合同样本库的多个现有合同的相似度序列和预设相似度阈值,确定所述待管理合同对应的管理操作,其中,所述管理操作包括合同入库操作和合同更新操作;当所述相似度序列中存在至少一个指定相似度大于预设相似度阈值时,确定所述指定相似度对应的相似现有合同的相似样本模态数据,其中,所述样本模态数据包括图像样本和文本样本中的任意一项;确定多模态合同样本数据的模态信息,其中,所述模态信息包括图像和文本中的任意一项;当所述相似样本模态数据中存在与所述多模态合同样本数据的模态信息相同模态的相似现有合同时,确定所述待管理合同对应的确定所述管理操作为合同更新操作;当所述相似样本模态数据中不存在与所述多模态合同样本数据的模态信息相同模态的相似现有合同,或,当所述相似度序列中相似度均不大于预设相似度阈值时,确定所述待管理合同对应的确定所述管理操作为合同入库操作。
11、本说明书一个或多个实施例提供一种基于信息检索的合同管理设备,包括:
12、至少一个处理器;以及,
13、与所述至少一个处理器通信连接的存储器;其中,
14、所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述方法。
15、本说明书一个或多个实施例提供的一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:执行上述方法。
16、本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:通过上述技术方案,通过同时考虑合同图像数据和合同文本数据(甚至可能包括更多模态的数据),系统能够捕捉到更丰富、更全面的合同信息,从而提高信息检索的准确性;利用深度学习技术提取多模态数据的深度特征,这些特征比传统的手工特征更能代表数据的本质,有助于更精确地表示合同内容;在训练阶段,通过整合协同鲁棒矩阵分解模型、非对称策略、融合相似度矩阵和低秩约束,获得公共语义表示和双重哈希函数,离散地优化训练数据的哈希编码;整个流程高度自动化和智能化,减少了人工干预,提高了合同管理的效率和准确性;基于相似度序列的管理操作决策更加精准,避免了不必要的重复工作,同时确保了合同信息的及时更新和入库;由于采用了高效的特征提取和相似度匹配算法,系统能够迅速响应用户的合同管理请求,提升了用户体验;通过考虑不同用户的合同管理需求,系统可以提供更加个性化的服务,满足不同场景下的合同管理要求;具有良好的可扩展性,能够适应大规模合同样本库的处理需求,有效提高了合同管理效率。
本文地址:https://www.jishuxx.com/zhuanli/20241120/334165.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。