一种基于互信息与改进图自编码器的多模态推荐方法
- 国知局
- 2024-07-31 23:21:47
本发明属于推荐系统领域,尤其是涉及一种基于互信息与改进图自编码器的多模态推荐方法。
背景技术:
1、最近,推荐系统已经成为web应用的关键工具,帮助用户从大量可用的在线信息中有效地发现相关内容。与物品相关的多模态信息,如图像、文本和视频的激增,使用户能够更全面地了解自己的兴趣,从而进一步丰富了用户体验。这种丰富的多模态信息对用户偏好有重大影响,从而产生了新兴的多模态推荐领域(mmrec),它利用多种模态的信息来提供更个性化和有效的推荐。
2、如公开号为cn117216553a的中国专利文献公开了一种推荐模型的预训练方法、调整方法、推荐方法及相关产品,采用了至少两种不同模态的信息,使各种模态的信息可以相互补充,以构建充分的训练数据集,从而使得预训练后得到的模型可以更具备稳健性。
3、公开号为cn115860861a的中国专利文献公开了一种基于多模态融合的产品推荐方法及装置,通过收集用户的多模态信息,分析用户在与应用进行交互时的实时情感状态,根据其情感状态收集待优化点以进行产品推荐,从而实现主动改善用户体验的效果。
4、近年来,研究人员越来越倾向于使用图神经网络(gnn)来捕获高阶的用户-物品连通性,因为用户行为数据可以自然地表示为用户-物品交互图。例如,mmgcn将各种模态信息合并到多个用户项视图中,并通过连接学习到的模态表示来建模用户偏好。dualgnn通过引入从用户-项图中提取的额外的用户-用户相关图,增强了gnn中用户的表示。mgcn引入了一个行为引导的净化器和一个行为感知的融合器来细化从多视图gnn中学习到的表示。这些基于gnn的方法已经取得了显著的成功,并展示了最先进的性能。
5、但是,目前的这些方法存在以下问题:
6、1)首先,这些方法直接利用从预先训练好的网络中获得的多模态特征,而没有去过滤或细化这些特征中的噪声信息。在实际的推荐场景中,物品形态信息总是包含噪声。因此,当前的mmrec方法可能导致在学习过程中引入模态噪声,最终导致学习表征质量差。
7、2)其次,现有的方法在实例水平上遵循了自监督表示学习的思想,而忽略了特征冗余的影响。
8、3)此外,这些方法在基于模态和基于cf的信息的融合方面缺乏足够的对齐。这些限制可能导致用户和物品表示不佳。
技术实现思路
1、本发明提供了一种基于互信息与改进图自编码器的多模态推荐方法,可以有效解决多模态推荐任务中的模态噪声问题、特征冗余问题、表示对齐问题,从而大幅度地提升多模态推荐系统的性能。
2、一种基于互信息与改进图自编码器的多模态推荐方法,包括以下步骤:
3、(1)基于视觉编码器(vgg)和文本编码器(sentence-bert)对物品所对应的图像和文本信息进行处理来得到物品的模态特征,然后构造物品-物品共现图和物品前k相似度图,并将这两种物品图归一化;
4、(2)通过改进的图自编码器学习有效的物品模态特征,具体为:
5、为了使不同模态特征具有相同的特征空间,利用物品模态特征降维技术对物品的模态特征降维,并利用一个转换函数f(·)将不同的模态特征从不同的空间映射到相同的特征空间;
6、采用低通编码器和高通解码器对上述步骤中获得的物品图的模态特征进行编码和解码;最后采用一种信息相关减少机制取来约束低通编码器和高通解码器来去除特征中的噪音信息,并学习具有辨别性的模态特征;
7、(3)通过聚合用户所交互物品的模态表示来获得对应的用户模态特征;然后,使用l层gnn在交互图上传播和聚合用户/物品的模态特征以捕捉协同关系,来进一步完善用户和物品的模态特征;
8、(4)采用两个层次的互信息约束,包括特性级互信息最小化和实例级的互信息最大化,以减少步骤(3)中获得模态特征的冗余性以及对齐不同特征,
9、(5)采用内积来预测用户i和物品j之间的交互概率作为推荐的依据;然后,采用多任务训练方法来训练模型,联合优化推荐任务;
10、(6)最后,利用训练好的模型进行推荐的应用。
11、进一步地,步骤(1)中,构造物品-物品共现图的过程如下:
12、计算物品之间的共出现次数,如果两个物品在一个用户行为中同时出现,则它们的共现计数将增加1,进而得到对应的共现图。
13、步骤(1)中,构造物品前k相似度图的过程如下:
14、基于视觉编码器(vgg)和文本编码器(sentence-bert)提取出的物品模态特征,利用余弦函数计算物品之间的相似性;然后,构造物品-物品图的邻接矩阵,从邻居中获取最相关的特征,只保留每个物品前k相似的边。
15、步骤(2)中,在低通编码器中,使用步骤(1)归一化后的物品图,来聚合相邻物品的表示来更新目标物品表示;在高通解码器中,使用高通滤波从目标节点中去除相邻节点的信息,进行特征重建。
16、步骤(2)中,采用一种信息相关减少机制取来约束低通编码器和高通解码器来去除特征中的噪音信息,具体过程为:
17、给定视觉模态物品表示和文本模态物品表示首先计算交叉模态相关矩阵s∈rj*j中的元素,如下:
18、
19、其中,为第i个物品的视觉模态表示,mv为视觉模态;为第j个物品的文本模态表示,mt为文本模态;si,j∈[-1,1]表示视觉视图中第i个项表示与文本视图中第j个项表示的余弦相似度,j为物品的总数;
20、然后,使交叉模态相关矩阵s去逼近一个单位矩阵i,公式为:
21、
22、其中第一项鼓励s中的对角元素等于1,这意味着两种形式的表示被强制彼此一致;第二项使s中的非对角线元素等于0,以最小化在两种模式中对不同物品的表示之间的一致性。
23、步骤(3)中,通过聚合用户所交互物品的模态表示来获得对应的用户模态特征,表示为:
24、
25、其中,ai,j是用户-物品交互矩阵a中的元素,表示用户i和物品j是否发生过交互,如果等于1则代表有交互行为;du和dv分别为a关于用户和物品的度矩阵,其中,表示用户i交互过的物品总数,表示物品j被交互过的用户总数;是模态m中的用户i的表示。
26、步骤(3)中,使用l层gnn在交互图上传播和聚合用户/物品的模态特征,具体过程为:
27、第l个gnn层的定义为:
28、
29、其中,为归一化的交互矩阵,和分别表示矩阵中的第i行和第j列;和表示用户i和物品j在模态m下的第l层输出表示;这里用tm和xm去初始化和然后将所有gnn层的输出表示进行加和,得到最终的用户/物品表示,描述为:
30、
31、其中,和分别为用户i和物品j基于模态m={mv,mt}的表示。
32、步骤(4)中,特性级互信息最小化指的是:在特征层面对模态的特征进行互信息最小化约束,以获得更加有效的特征;实例级的互信息最大化指的是:将这些不同模态表示集成起来,并将它们与基于协同过滤的表示对齐。
33、与现有技术相比,本发明具有以下有益效果:
34、1、本发明设计了一种改进的图自动编码器(iga),它包含低通编码器、高通解码器和信息相关减少(icr)策略来过滤不同项之间的噪声信息,从而解决了模态噪声问题。
35、2、本发明提出了一种在特征层次和实例层次上的双重互信息驱动(dmi)学习方法。在特征层面上,通过最小化跨维数的互信息来减少特征间的冗余,以获得更多的区别性特征;在实例层面,最大化了实例对的互信息,以有效地对齐和融合基于模式的表示与基于cf的表示,获得更无偏和鲁棒的表示,从而解决特征冗余和表示对齐问题。
36、3、本发明构建了两种基于gnn的物品视图用来进行模态表示学习,从模态水平捕获物品之间的关系。
本文地址:https://www.jishuxx.com/zhuanli/20240730/197204.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表