技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于多跳机制的扩散图谱推荐方法及系统 > 正文

一种基于多跳机制的扩散图谱推荐方法及系统

国知局
2024-11-25 15:09:03

本发明属于深度学习、知识图谱与推荐系统，具体涉及一种基于多跳机制的扩散图谱推荐方法及系统。

背景技术：

1、随着信息技术的快速发展和互联网应用的广泛普及，用户在日常生活中面临着海量的信息和选择，在这个信息爆炸的时代，为了准确获取用户感兴趣的信息，兴趣点常被用作描述用户信息、偏好等个人信息。兴趣点推荐作为推荐系统的一个重要分支，旨在根据用户的兴趣、偏好和历史行为等信息，为用户推荐其可能感兴趣的内容，从而帮助用户更高效地获取有用信息，推荐算法便应运而生。随着知识图谱技术的兴起，基于知识图谱的兴趣点推荐算法逐渐受到关注。知识图谱是一种语义网络，能够描述现实世界中的概念、实体以及它们之间的关系，为推荐系统提供了丰富的语义信息和上下文信息。通过将知识图谱与推荐算法相结合，可以更准确地理解用户的兴趣和需求，提高推荐的准确性和多样性。

2、近年来，个性化推荐系统与知识图谱在学术界和工业界都取得了显著的进展。传统的推荐算法主要基于用户的历史行为数据进行推荐，如协同过滤、内容过滤等。现有技术中引入了评分偏好模型和时间权重因子，重建用户-物品矩阵，对传统协同过滤算法进行了优化，但依然存在用户偏好挖掘不全面的问题。针对此类问题，李翔锟等提出了一种融合重叠社区正则化及隐式反馈的协同过滤方法(ocrif)，该方法考虑了用户在社区网络中的社区结构以及用户评分信息与社交信息的隐式反馈，进一步提高了协同过滤类算法的性能。然而，这些方法在处理复杂的语义信息和上下文信息时存在局限性，无法充分理解用户的兴趣和需求，存在常见的高阶建模难和用户特征建模不充分等问题。

技术实现思路

1、为解决上述问题，本发明提出了一种基于多跳机制的扩散图谱推荐方法，以端到端的方法挖掘知识图谱中高阶语义信息，涵盖知识图谱构建、特征提取网络构建及多跳机制扩散模型构建三部分，具体包括：

2、构建包含各类兴趣点基本信息及融入语义信息与社会关系的知识图谱；

3、以图卷积神经网络为基础构建poi-gcn特征提取网络，捕获所述知识图谱中的深层次语义信息；

4、基于所述poi-gcn特征提取网络提取的特征，引入水波扩散与多跳机制构建diffussion-poi推荐模型，生成推荐序列。

5、进一步的，所述知识图谱的构建方法为：

6、将爬取的yelp2018数据集、gowalla数据集、公开商业地址数据以及利用meituan-poi接口获取的开放平台商户数据组成知识图谱数据集，所述知识图谱数据集由结构化兴趣点数据和非结构化、半结构化数据组成，为后续的模型训练提供高质量的数据；

7、对所述知识图谱数据集中的数据进行数据预处理；

8、根据预处理后的文本结果构建组成知识图谱的三元组<实体，关系，属性>。

9、进一步的，所述的poi-gcn特征提取网络包括词嵌入层、网络层、gcn层和隐藏层；

10、对于每个兴趣点，从其所在的三元组中提取出包括兴趣点的名称、位置、类别、评分在内的特征，然后将这些特征映射为固定长度的向量输入所述词嵌入层，得到实体的嵌入向量，作为所述网络层的输入；

11、所述网络层中加入注意力机制进行权重分配，计算公式如下：

12、

13、其中，aij代表注意力权重；softplus为激活函数；eij表示用户i和物品j之间的相似度，公式如下：

14、eij＝elu(at|whr||whi|) (2)

15、

16、其中，elu为激活函数；w是线性变换矩阵，形状是w∈rf×f′，f是输入特征的维度，f'是输出特征的维度；whr表示w矩阵中第h行第r列的元素；whi表示w矩阵中第h行第i列的元素；a代表参数向量；f(x)代表elu激活函数，通过非线性变换调整相似度值eij，以更好地进行注意力权重的计算；exp表示自然指数函数；γ是缩放因子；

17、权重分配后输出加权后的实体嵌入向量，然后进行消息聚合，得到聚合特征；

18、所述gcn层对得到的聚合特征进行特征融合，输出融合特征的实体特征向量；

19、所述隐藏层使用relu激活函数对所述融合特征的实体特征向量进行非线性变换处理，得到融合全部实体信息的特征向量。

20、进一步的，引入水波扩散与多跳机制构建所述diffussion-poi推荐模型，生成推荐序列的过程如下：

21、s10：根据所述poi-gcn特征提取网络提取的特征向量提取知识图谱特征

22、s101：对知识图谱中的实体进行实体链接，得到匹配后的实体；

23、s102：从实体链接后的知识图谱中抽取出子图；

24、s103：对所述子图中的实体引入上下文文本化特征：

25、context(n)＝{nm|(n,r,nm)∈g or(nm,r,n)∈g}

26、其中，context(n)为用于描述实体n的上下文特征的函数；g代表图谱；r为节点间关系；nm表示第m个实体；(n,r,nm)代表三元组，实体n、关系r与另一个实体nm；

27、s20：进行图谱的信息传递

28、s201：将引入上下文文本化特征后的所有实体节点的初始值设置为0，将种子节点的初始值设置为1；

29、s202：迭代更新每个实体节点的值，在每次迭代中，对于任一实体节点v，计算它的邻居节点x对它的贡献值d(x,v)，然后将v的值更新为d(x,v)的总和，以此不断扩散；

30、s203：重复上述迭代更新过程，直到所有实体节点的值不再发生变化或达到预设的最大迭代次数，输出所有实体的特征表示；

31、s30：进行多跳推荐

32、s301：进行一跳推理：输入所述实体的特征表示、融合全部实体信息的特征向量和用户历史行为并转化为嵌入向量；随机在子图中选取一个节点作为起始节点，计算从起始节点到其直接邻居节点的关系的转移概率；计算用户嵌入向量与子图中实体嵌入向量之间的相似度；随后使用转移概率对相似度进行加权；然后通过迭代进行扩散，模拟用户在子图中的随机游走；经过多轮迭代后，找出一跳后与用户历史行为高度相关的实体集合；

33、s302：进行二跳推理：随机从得到的实体集合中选取新的起始点；接着计算二跳转移概率，结合用户嵌入向量和二跳转移概率，找出二跳后的与用户历史行为更深层次关联的实体集合；

34、s303：重复上述过程，经过多次迭代后，得到与用户历史行为关联程度不同的多个实体集合，对所述多个实体集合进行加权求和，得到加权后的实体集合，对权重值排序在前的实体生成推荐序列，实现个性化推荐。

35、进一步的，所述数据预处理包括：

36、进行数据清洗，去除无关信息；

37、对清洗后的数据进行中文分词；

38、对中文分词后的数据进行实体识别，识别出的地名即为兴趣点，得到兴趣点实体数据：其中，对于结构化的数据，基于bi-lstm-crf算法抽取地名实体；对半结构化的数据，采用基于规则的方法对具体地址信息进行分类和标注；

39、基于空间地理信息对识别到的地名实体进行实体消除歧义、实体抽取和实体对齐，得到兴趣点语料；

40、基于依存句法分析对所述兴趣点语料进行关系抽取，对兴趣点关系进行划分，得到最终的语料文本数据。

41、进一步的，采用基于双数组字典树的ac自动机进行中文分词。

42、进一步的，采用bert-bilstm-crf神经网络算法进行实体抽取与对齐，采用kmp算法提高实体对齐的效率。

43、进一步的，所述兴趣点关系分为：主谓宾、动补结构、状动结构、状动补结构、定语后置关系、介宾关系、宾语前置结构。

44、本发明还提供了一种基于多跳机制的扩散图谱推荐系统，包括知识图谱构建模块、poi-gcn特征提取网络和diffussion-poi推荐模型；

45、所述知识图谱构建模块，用于构建包含各类兴趣点基本信息及融入语义信息与社会关系的知识图谱；

46、所述poi-gcn特征提取网络，用于捕获所述知识图谱中的深层次语义信息；

47、所述diffussion-poi推荐模型，用于根据所述poi-gcn特征提取网络提取的特征，结合水波扩散与多跳机制进行个性化推荐，生成推荐序列。

48、本发明的有益效果：本发明提供了一种基于多跳机制的扩散图谱推荐方法及系统，主要由知识图谱构建、特征提取网络构建及多跳机制扩散模型构建组成；将不同类型的poi特征分别输入到不同的特征提取隐藏层中，并对它们进行不同的权重分配、嵌入映射和非线性变换等操作，可以更好地捕捉不同类型兴趣点的特征差异，从而提高模型的表达能力和泛化能力；通过图谱的信息传递，可以丰富用户画像、发现潜在关联并进行个性化推荐；水波扩散算法能够使模型具备寻找更多实体的能力，以提高其泛化性能；多跳模型能逐步扩展和丰富用户的兴趣点集合，挖掘更多与用户历史行为相关的潜在兴趣点，有效利用用户和知识图谱中的关系信息，实现个性化、多样化推荐。