基于图文信息交互的事件检测方法和装置与流程
- 国知局
- 2024-08-05 12:05:17
本发明涉及人工智能,尤其涉及一种基于图文信息交互的事件检测方法和装置。
背景技术:
1、手机、平板等移动智能终端普及,微博、抖音、公众号等社交平台飞速发展,越来越多的网民在平台上获取信息,发布、转发所见所闻,发表自己的看法,网络成为越来越重要的信息渠道。如何快速精确地收集分析特定事件的相关内容,对事件进行正确分类,是网络内容分析与安全的重要研究方向。
2、传统的事件检测通常为单模态事件检测,即特征学习单独以文本、图像为输入,利用深度模型分别学习各自的语义特征。通过这种方法训练出来的模型基础知识并不可靠,如果数据量不足或有偏差,模型的泛化能力会很差。此外,由于只有少数用户会自带“话题”标签,过度依赖标签的训练会消耗大量的人力物力,产生昂贵的费用,且现有方法容易学习到针对特定事件的特征,然而这些特征不一定会出现在新出现的事件中。
3、综上所述,如何设计一个兼顾图文特征、知识可迁移的事件检测模型是本领域函需解决的问题。
技术实现思路
1、有鉴于此,本发明提供一种基于图文信息交互的事件检测方法和装置,以解决上述提及的至少一个问题。
2、为了实现上述目的,本发明采用以下方案:
3、根据本发明的第一方面,提供一种基于图文信息交互的事件检测方法,所述方法包括:分别提取多模态社交数据中的图像数据和文本数据;将所述图像数据导入宽残差网络模型中以获取图像各个区域的图像特征;将所述文本数据导入长短期记忆网络模型中以获取文本中各个单词的文本特征;将所述图像特征和所述文本特征输入至跨模态注意力模块进行特征融合;将融合后的图文特征嵌入到基于生成对抗网络的端到端框架edgan中,得到预测的事件类型结果。
4、作为本发明的一个实施例,上述方法中将所述图像数据导入宽残差网络模型中以获取图像各个区域的图像特征包括:将图像数据导入wideresnet模型中,并对其进行归一化处理;将图像边界区域的左上角和右下角的坐标以及图像区域的覆盖占比作为图像编码的5个维度来实现图像空间位置的编码;通过映射将图像编码维数与视觉特征的维数相匹配,并进行求和,以获取图像各区域的特征向量表示序列。
5、作为本发明的一个实施例,上述方法中将所述文本数据导入长短期记忆网络模型中以获取文本中各个单词的文本特征包括:对所述文本数据进行清洗和分词处理;将分词后的文本输入到bert模型,得到每个单词的上下文相关的词向量;将所述上下文相关的词向量作为长短期记忆网络模型的输入得到各个单词的文本特征。
6、作为本发明的一个实施例,上述方法中将所述图像特征和所述文本特征输入至跨模态注意力模块进行特征融合包括:将所述图像特征和所述文本特征输入到跨模态注意力模块,经过权值矩阵得到各自的q、k、v特征;利用图像特征自身的q和来自文本特征的k、v计算图像特征的输出值;利用文本特征自身的q和来自图像特征的k、v计算文本特征的输出值。
7、作为本发明的一个实施例,上述方法中将所述图像特征和所述文本特征输入至跨模态注意力模块进行特征融合包括:计算所述图像特征对所述文本特征的第一注意力权重;计算所述文本特征对所述图像特征的第二注意力权重;将所述第一注意力权重盒所述第二注意力权重进行加权融合,得到融合后的图文特征。
8、作为本发明的一个实施例,上述方法中将融合后的图文特征嵌入到基于生成对抗网络的端到端框架edgan中包括:端到端框架edgan中的事件检测器和事件鉴别器;将融合后的图文特征输入至事件检测器中得到事件检测类型;将融合后的图文特征输入至事件鉴别器中,识别和删除特定于事件的特征同时保留事件间的共享特征。
9、作为本发明的一个实施例,上述方法还包括端到端框架edgan的优化过程,具体包括:所述事件检测器和所述事件鉴别器在联合训练过程中通过最小化事件检测器的损失和最大化事件鉴别器的损失来优化参数。
10、根据本发明的第二方面,一种基于图文信息交互的事件检测装置,所述装置包括:数据提取单元,用于分别提取多模态社交数据中的图像数据和文本数据;图像特征获取单元,用于将所述图像数据导入宽残差网络模型中以获取图像各个区域的图像特征;文本特征获取单元,用于将所述文本数据导入长短期记忆网络模型中以获取文本中各个单词的文本特征;特征融合单元,用于将所述图像特征和所述文本特征输入至跨模态注意力模块进行特征融合;事件检测单元,用于将融合后的图文特征嵌入到基于生成对抗网络的端到端框架edgan中,得到预测的事件类型结果。
11、作为本发明的一个实施例,上述图像特征获取单元包括:归一化模块,用于将图像数据导入wideresnet模型中,并对其进行归一化处理;编码模块,用于将图像边界区域的左上角和右下角的坐标以及图像区域的覆盖占比作为图像编码的5个维度来实现图像空间位置的编码;图像特征获取模块,用于通过映射将图像编码维数与视觉特征的维数相匹配,并进行求和,以获取图像各区域的特征向量表示序列。
12、作为本发明的一个实施例,上述文本特征获取单元包括:预处理模块,用于对所述文本数据进行清洗和分词处理;相关词向量获取模块,用于将分词后的文本输入到bert模型,得到每个单词的上下文相关的词向量;文本特征获取模块,用于将所述上下文相关的词向量作为长短期记忆网络模型的输入得到各个单词的文本特征。
13、作为本发明的一个实施例,上述特征融合单元包括:特征获取模块,用于将所述图像特征和所述文本特征输入到跨模态注意力模块,经过权值矩阵得到各自的q、k、v特征;第一计算模块,用于利用图像特征自身的q和来自文本特征的k、v计算图像特征的输出值;第二计算模块,用于利用文本特征自身的q和来自图像特征的k、v计算文本特征的输出值。
14、作为本发明的一个实施例,上述特征融合单元包括:第一权值获取模块,用于计算所述图像特征对所述文本特征的第一注意力权重;第二权值获取模块,用于计算所述文本特征对所述图像特征的第二注意力权重;加权融合模块,用于将所述第一注意力权重盒所述第二注意力权重进行加权融合,得到融合后的图文特征。
15、作为本发明的一个实施例,所述事件检测单元将融合后的图文特征嵌入到基于生成对抗网络的端到端框架edgan中包括:定义端到端框架edgan中的事件检测器和事件鉴别器;将融合后的图文特征输入至事件检测器中得到事件检测类型;将融合后的图文特征输入至事件鉴别器中,识别和删除特定于事件的特征同时保留事件间的共享特征。
16、作为本发明的一个实施例,所述装置还包括优化单元,用于优化端到端框架edgan,所述优化单元具体用于:在所述事件检测器和所述事件鉴别器的联合训练过程中通过最小化事件检测器的损失和最大化事件鉴别器的损失来优化参数。
17、根据本发明的第三方面,提供一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,处理器执行所述计算机程序时实现上述方法的步骤。
18、根据本发明的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
19、由上述技术方案可知,本发明所提供的基于图文信息交互的事件检测方法和装置,一方面,对图文信息进行融合,加强了图文关联,另一方面,由于使用了生成对抗网络的框架,模型在训练中会试图区分数据中是否具有特定事件的特征,而不仅仅依赖于带标签的数据。这样,即使在训练过程中缺乏完整的标签数据,本技术也能够通过事件鉴别器的指导来学习和识别新出现的事件,从而提高了对新事件的检测水平。最后,本技术使用的端到端框架edgan可以被视为一种通用的架构,可以轻松应用于不同类型的数据集和任务中,这意味着训练好的模型可以很容易地迁移到不同的数据集上进行使用,而不需要重新设计整个系统。
本文地址:https://www.jishuxx.com/zhuanli/20240802/261024.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。