一种基于多模态数据归档数据包的结构设计方法与流程
- 国知局
- 2024-08-05 11:48:53
本发明涉及数据归档,具体为一种基于多模态数据归档数据包的结构设计方法。
背景技术:
1、数据归档指把不再积极使用的数据转移到单独的数据存储设备用于长期保留的过程。数据档案通常包括仍然重要并且需要用于将来参考的较旧的数据,以及必须为法规遵从、审计跟踪的目的而保持的数据,或者基于历史数据可以从中得到业务概况的资源。通常,数据档案是有索引的并且具有查找功能,使得文件及文件的部分能够被容易地定位和检索。
2、而现有的数据形式较多,如图像数据或文本等数据,在对多模态的数据进行归档时不能很好的对其进行分类归档,增加数据处理工作量,还容易导致冗余数据,在检索查询时影响效率,同时还影响归档质量和灵活性,因此需要提出一种基于多模态数据归档数据包的结构设计方法,以解决上述背景技术中提出的问题。
技术实现思路
1、本发明的目的在于提供一种基于多模态数据归档数据包的结构设计方法,以解决上述背景技术中提出的问题。
2、为实现上述目的,本发明提供如下技术方案:一种基于多模态数据归档数据包的结构设计方法,包括以下步骤:
3、s01:将多模态数据通过数据模态识别模块对不同模态的数据进行识别和分类,识别不同网络模态的数据包;
4、s02:再配合处理终端和数据分布模块将不同模态的数据映射到共同空间中,实现跨模态的数据检索,弥合跨不同模态数据间的语义鸿沟;
5、s03:通过数据保护模块对数据进行加密归档,确保数据的安全性,再建立具有多结构表示的数据集合,将数据集和视角作为两个层面,分别处理;
6、s04:将处理后的数据通过数据归档模块进行归档操作;
7、s05:对数据进行检索读取时,通过数据索引模块对多模态数据进行查询,采用混合索引结构,并通过数据保护模块解密,数据读取模块对索引和解密后的多模态数据进行调阅读取。
8、优选的,数据模态识别模块中多模态数据识别模型库的建立包括以下步骤:
9、s21:数据预处理,将多模态建模数据进行清洗、转换以及数据增强;
10、s22:选择合适的模型架构和算法,对模型进行训练,训练过程中将多模态建模数据输入到模型架构内,通过算法进行计算评估和学习,不断调整模型参数,以最小化损失函数作为约束提高模型的准确率和泛化能力;
11、s23:模型评估与调优,模型训练完成后,对其进行评估,以验证其在未知数据上的表现,训练合格后可部署应用到数据模态识别模块中使用。
12、优选的,步骤s21中,数据清洗去除重复或错误的数据,数据转换将数据转换为模型能够接受的格式,数据增强增加数据的多样性,以提高模型的泛化能力。
13、优选的,步骤s22中,模型架构采用深度残差网络用于图像识别,采用gpt系列模型用于自然语言处理任务,知识图谱嵌入采用db4trans,算法采用adam优化算法。
14、优选的,对于数据保护模块来说,数据的加密和解密包括以下步骤:
15、s31:选择加密算法进行加密,选用对称加密算法生成对应的密钥,对待加密的数据进行加密操作,生成密文;
16、s32:数据解密,使用相同或相对应的密钥和选定的解密算法,对密文进行解密操作,还原为原始的明文。
17、优选的,数据分布模块可采用跨模态哈希方法,包括以下步骤:
18、s41:在跨模态哈希中,对不同模态的数据进行特征提取,根据提取的特征构建相似性矩阵;
19、s42:利用哈希函数将特征向量映射为二进制的哈希码,通过计算哈希码之间的距离来确定数据间的相似性,进而执行跨模态检索。
20、优选的,数据归档模块中归档数据包为电子文件和元数据归档接口格式,归档时,业务系统按照接口格式导出应归档的电子文件和元数据,形成归档数据包,电子档案管理系统则按照接口格式读取归档数据包,完成电子文件和元数据的归档工作。
21、优选的,数据归档模块中文件包形式是将电子文件和元数据分别保存为格式文件。
22、优选的,数据归档模块封装包形式是利用标准的、与软硬件无关的xml语言将电子文件与其元数据按照规范结构封装在一个数据包中。
23、优选的,数据索引模块采用mmh-index的混合索引结构,其具体步骤包括:
24、s71:需要准备好待索引的多模态数据,多模态数据数据可以是文本、图像、音频不同形式的数据;
25、s72:从每种模态的数据中提取特征,并且构建一个统一的词典,将不同模态的特征映射到一个共同的标识符集合中;
26、s73:对于词典中的每个词条,构建倒排表,记录所有包含该词条的数据项及其位置信息,并将构建好的词典和倒排表存储在磁盘上,以便后续查询时能够快速读取;
27、s74:根据输入的查询条件,在词典中查找对应的词条,然后在倒排表中找到包含这些词条的数据项,最后按照一定的排序策略返回结果。
28、与现有技术相比,本发明的有益效果是:
29、1、本发明能够同时处理多种数据模型,如关系型数据、文档型数据等,从而提高了数据处理的效率和灵活性,这种设计使得在归档过程中,可以更高效地管理和处理来自不同来源和格式的数据;
30、2、多模态数据融合技术能够将多个模态的信息进行有效整合,汲取不同模态的优点,完成对信息的整合,使得归档数据更加丰富和完整,能够提供更全面的信息支持;
31、3、多模态数据支持多种数据模型,不仅可以保证数据一致性,还能满足多种应用场景的需求,使得归档系统能够适应不同的业务需求,提供更加广泛的应用价值,能够将不同模态的信息相互补充,提高模型的预测能力和准确性,在归档过程中可以更好地理解和分析数据,从而提高归档质量和效果。
技术特征:1.一种基于多模态数据归档数据包的结构设计方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的一种基于多模态数据归档数据包的结构设计方法,其特征在于:所述数据模态识别模块中多模态数据识别模型库的建立包括以下步骤:
3.根据权利要求2所述的一种基于多模态数据归档数据包的结构设计方法,其特征在于:步骤s21中,数据清洗去除重复或错误的数据,数据转换将数据转换为模型能够接受的格式,数据增强增加数据的多样性,以提高模型的泛化能力。
4.根据权利要求3所述的一种基于多模态数据归档数据包的结构设计方法,其特征在于:步骤s22中,模型架构采用深度残差网络用于图像识别,采用gpt系列模型用于自然语言处理任务,知识图谱嵌入采用db4trans,算法采用adam优化算法。
5.根据权利要求1所述的一种基于多模态数据归档数据包的结构设计方法,其特征在于:数据保护模块中数据的加密和解密包括以下步骤:
6.根据权利要求1所述的一种基于多模态数据归档数据包的结构设计方法,其特征在于:数据分布模块采用跨模态哈希方法训练,包括以下步骤:
7.根据权利要求1所述的一种基于多模态数据归档数据包的结构设计方法,其特征在于:数据归档模块中归档数据包为电子文件和元数据归档接口格式,归档时,业务系统按照接口格式导出应归档的电子文件和元数据,形成归档数据包,电子档案管理系统则按照接口格式读取归档数据包,完成电子文件和元数据的归档工作。
8.根据权利要求7所述的一种基于多模态数据归档数据包的结构设计方法,其特征在于:所述数据归档模块中文件包形式是将电子文件和元数据分别保存为格式文件。
9.根据权利要求8所述的一种基于多模态数据归档数据包的结构设计方法,其特征在于:数据归档模块封装包形式是利用标准的、与软硬件无关的xml语言将电子文件与其元数据按照规范结构封装在一个数据包中。
10.根据权利要求1所述的一种基于多模态数据归档数据包的结构设计方法,其特征在于:所述数据索引模块采用mmh-index的混合索引结构构建,步骤包括:
技术总结本发明公开了一种基于多模态数据归档数据包的结构设计方法,将多模态数据通进行识别和分类;将不同模态的数据映射到共同空间中;对数据进行加密归档,再建模具有多结构表示的数据集合;将处理后的数据进行归档操作;对数据进行检索读取,并通过数据保护模块解密,对索引和解密后的多模态数据进行调阅读取。本发明能够同时处理多种数据模型,如关系型数据、文档型数据,从而提高了数据处理的效率和灵活性,这种设计使得在归档过程中,可以更高效地管理和处理来自不同来源和格式的数据,能够将不同模态的信息相互补充,提高模型的预测能力和准确性,在归档过程中可以更好地理解和分析数据,从而提高归档质量和效果。技术研发人员:张雷,赖家先,刘兆攀,阙兢兢受保护的技术使用者:杭州易康信科技有限公司技术研发日:技术公布日:2024/8/1本文地址:https://www.jishuxx.com/zhuanli/20240802/259554.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。