技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于迁移学习的跨领域多模态工业数据抽取与融合方法与流程 > 正文

基于迁移学习的跨领域多模态工业数据抽取与融合方法与流程

国知局
2024-10-15 10:24:27

本发明属于数据处理，具体涉及一种基于迁移学习的跨领域多模态工业数据抽取与融合方法。

背景技术：

1、当前的工业数据分析领域中，各行业的数据抽取与融合技术各具特点，不同领域的技术手段很难直接复用。传统的机器学习方法依赖大量领域的数据进行训练，但在实际工业应用中，领域之间的差异性极大，导致单一模型难以通用。此外，受限于数据的可获得性和隐私政策，不同行业的数据存在隔离状态，难以共享，因此，需要一种能够跨领域应用，快速适应新环境的数据处理技术。

2、类似的现有技术有公开号为cn117150031a的中国专利申请，公开了一种面向多模态数据的处理方法及系统，基于知识迁移的多模态知识抽取方法，采用知识迁移的思想，基于文本模态抽取的结果并融合图像和视频模态来共同完成实体和关系的抽取。基于统一语义表示的跨模态知识融合方法，通过统一语义表示学习方法将各个模态的知识元素映射到潜在的语义子空间，然后通过跨模态知识链接方法，将多模态知识链接到多模态知识图谱中。基于多模态知识图谱的分析与推理方法，以多模态知识为驱动对多模态数据进行深层语义分析与理解。还有公开号为cn114692624a的中国专利申请，公开了一种基于多任务迁移的信息抽取方法、装置及电子设备，方法包括：获取不同任务的文本，对文本进行编码，生成文本的语义表征序列；将语义表征序列输入共性特征抽取网络，输出不同任务的共有特征；将语义表征序列输入私有特征抽取网络，输出不同任务的私有特征；将共有特征和私有特征进行融合，通过序列解码获取序列中每个位置的类别信息，完成信息抽取。该发明实施例减少了中算法模型在特定信息抽取任务上对数据量的过度依赖；减少人工标注大量数据的人力和时间成本；提高了信息抽取效率。

3、然而，上述现有技术中仅对语义文本进行分析和融合，在实际情况中，需要进行多模态数据处理。

技术实现思路

1、为解决上述问题，本发明提供了基于迁移学习的跨领域多模态工业数据抽取与融合方法，以解决现有技术中的问题。

2、为了达到上述的发明目的，本发明提出基于迁移学习的跨领域多模态工业数据抽取与融合方法，包括：

3、s1：收集多领域的工业数据，生成多个数据集，构建数据抽取模型，所述数据抽取模型获取所述数据集中的特征集，基于所述特征集在所述数据集中抽取关键信息，基于所述关键信息生成标准数据；

4、s2：将任一数据集对应的所述标准数据设定为训练集，基于所述训练集构建数据迁移模型，将目标数据库中对应的数据集的所述关键信息设定为目标标签，所述数据迁移模型基于所述目标标签将源数据库对应的所述标准数据迁移至所述目标数据库，生成迁移数据；

5、s3：比较所述源数据库与所述目标数据库中同一所述标准数据之间的数据相似度，生成所述数据迁移模型的第一准确率，基于所述第一准确率校正剩余数据集中所述标准数据对应的所述关键信息，生成数据标签；

6、s4：构建多模态融合模型，基于所述多模态融合模型将所述目标数据库中对应的所述标准数据与所述迁移数据进行融合生成融合数据，重复执行此步骤，至所有数据集对应的所述标准数据均融合至所述目标数据库中，生成多领域的融合数据集。

7、进一步地，所述基于所述关键信息生成标准数据包括以下步骤：

8、在多个数据集中任意抽取两个数据集，分别设定为第一数据集和第二数据集，获取所述第一数据集对应的第一特征集和所述第二数据集对应的第二特征集，将所述第一特征集和所述第二特征集均设定为特征集，比较所有特征集之间的特征相似度，基于所述特征相似度分别在所述第一特征集和所述第二特征集中均抽取相似特征，并将剩余的特征集设定为差异特征，将同一特征集中所述相似特征输入预设的分类预测模型中，输出同一所述特征集对应的预测标签，基于所述预测标签和同一所述特征集中所述差异特征解码计算生成还原数据；

9、重复执行此步骤至所有数据集均被抽取，分别将所有所述预测标签均设定为对应的所述数据集的所述关键信息，并依次将所有所述还原数据均设定为对应的所述数据集的所述标准数据。

10、进一步地，计算所述特征相似度包括以下步骤：

11、建立训练数据集，所述训练数据集包括目标模态数据和学习模态数据，提取所述训练数据集的数据特征，所述数据特征包括目标模态特征和学习模态特征，将所述数据特征与多个规范特征映射至相同的规范特征空间中，生成所述数据特征对应的映射特征，基于所述映射特征计算映射误差，基于所述映射误差建立映射模型，所述映射模型将所述数据特征映射至共享空间中，重复此步骤，至所述映射模型分别将所述目标模态特征与所述学习模态特征映射在所述共享空间中的距离最小；

12、将所有特征集映射至所述映射模型，生成多个映射点，计算任一第一特征集与任一第二特征集对应的映射点之间的映射距离，将最小映射距离的倒数设定为所述特征集之间的所述特征相似度。

13、进一步地，所述构建数据抽取模型包括：

14、所述数据抽取模型基于误差反向传播方法学习所有所述关键信息与所述标准数据之间的分类误差，生成调节参数，基于所述调节参数调整所述数据抽取模型，重复执行此步骤，至所述分类误差小于第一预设值，以生成新的所述数据抽取模型，其中，将所述标准数据与对应的所述数据集之间的数据相关度，设定为所述分类误差。

15、进一步地，所述构建多模态融合模型包括以下步骤：

16、设置一个多任务学习框架的技术模型，基于数据生成类型同时处理多种模态的数据，并优化资源分配，通过所述技术模型的解构分散策略和神经架构搜索技术，自动设定最优的技术模型配置，引入注意力机制和图卷积网络，并设置元学习技术，获取所述技术模型的收敛指数，基于所述收敛指数模拟和合成数据生成技术，以训练所述技术模型，将训练后的所述技术模型设定为所述多模态融合模型。

17、进一步地，生成所述融合数据包括以下步骤：

18、将所述目标数据库中包含的所述标准数据和所述迁移数据均设定为待融合数据，基于所述多模态融合模型提取所述待融合数据的所述数据生成类型和时间信息，将所述待融合数据基于所述时间信息分类为第一类数据和第二类数据，若所述融合数据存在所述时间信息，则分类为所述第一类数据，否则，分类为所述第二类数据；

19、在所述第一类数据中基于变分近似方法分别生成与相同数据生成类型包含的所述时间信息对应的潜在变量分布，标记所述多模态融合模型的隐藏状态，基于所述潜在变量分布更新所述隐藏状态，将更新后的所述隐藏状态和所述潜在变量分布输入所述多模态融合模型中，基于所述神经架构搜索技术输出所述潜在变量分布对应的结果数据，将所有所述结果数据设定为所述第一类数据对应的第一融合数据；

20、将所述第二类数据基于所述数据生成类型和所述关键信息依次汇总生成第二融合数据，将所述第一融合数据与所述第二融合数据组合设定为所述融合数据。

21、进一步地，基于预训练的transformer模型作为迁移学习的起点，将所述训练集输入所述transformer模型中，训练生成适配的神经网络模型，将所述神经网络模型设定为所述数据迁移模型。

22、进一步地，所述生成数据标签包括以下步骤：

23、基于数据库操作语令生成所述源数据库中所述标准数据与所述目标数据库中所述迁移数据之间的数据差异值，并设定为所述数据相似度，将所述数据相似度设定为所述第一准确率，若所述第一准确率大于第二预设值，则所述数据迁移模型基于所述目标标签预测生成所述数据标签，否则，调整所述数据迁移模型的参数至所述第一准确率大于所述第二预设值。

24、与现有技术相比，本发明的有益效果至少如下所述：

25、通过本发明的技术方案，可以显著提高工业数据抽取与融合的效率和准确性。通过数据迁移模型能够在少量样本上快速适应新领域，不仅节约了数据标注成本，还提升了模型的泛化能力。多模态数据处理和信息融合使得多模态融合模型能够综合多种数据特性，更加精确地识别工业过程的特征。优化机制确保了模型在实时环境中的高性能，而模型可解释工具则增强了模型与工业领域之间的互动。总体上，本方案为工业数据分析提供了一种新的、高效的技术途径，具有广阔的应用前景。通过本发明可以提高具有不同特征的多个数据集进行迁移学习的准确性，同时提高数据融合的完整性。