圈层人群的识别方法、装置、设备及计算机可读介质
- 国知局
- 2024-09-19 14:31:18
本技术涉及数据处理,尤其涉及一种圈层人群的识别方法、装置、设备及计算机可读介质。
背景技术:
1、在数字化和网络化日益深化的今天,社交网络已成为现代人类社会交流的不可或缺的组成部分。这些网络不仅改变了人们的沟通方式,也成为了收集和分析大数据的重要源泉。从用户的日常互动到分享的内容,社交网络提供了一个独特的视角,通过它可以洞察到社会行为、市场动态甚至公共政策的反响。然而,随着数据量的激增和网络结构的复杂化,如何有效地从这些海量且多样化的数据中提取有价值的信息,成为了一个迫切需要解决的问题。社交网络数据的商业价值在于其对市场趋势的反映以及消费者行为的揭示。利用这些数据,企业可以进行更精准的市场分析、消费者行为预测和产品定位。在精准营销和个性化推广等新兴营销策略中,社交网络数据的作用尤为显著。然而,当前的社交网络分析工具和技术往往难以处理大规模、高维度的数据,并且在理解复杂社交网络结构方面存在限制。
2、目前,相关技术中,网络拓扑结构、语义信息被用于社群检测,传统的社群发现算法可以分为下面几种主要类别:
3、1.graph partitioning(图的划分)
4、与社区发现最早相关的数学概念是图的划分。图的划分问题是将图(包含节点和边)内的节点划分成k个groups,使得在groups之间的边数(cut size)最小。典型方法是kernighan-lin算法。
5、2.hierarchical clustering (层次聚类)
6、层次聚类方法以三种方式发现分层群落结构(即树状图):分裂、聚集和混合。girvannewman(gn)算法通过连续删除边,从而产生新的社区,从而以分裂的方式找到社区结构。
7、快速模块化(fastq)是一种聚合算法,它逐渐合并节点,每个节点最初被视为一个社区,社区基于结构相似性的检测算法(cdass)以混合方式共同应用分裂和聚集策略。
8、3.statistical inference (统计推断)
9、这类方法主要用统计推断的理论来进行社区发现,给出最大可能性的社区划分。一般都需要指定社区类别数。随机块模型(sbm)是一种广泛应用的生成模型,通过将节点分配到社区中并控制其可能性。
10、4.spectral clustering(谱聚类)
11、网络谱反映了社群结构。一般来说,谱聚类的方法和基于划分的聚类一样,都要先将一组对象映射到度量空间中的点集,其坐标为特征向量中的元素。但是相比于相似度度量,谱聚类能够通过特征向量表示使得原始节点中的聚类特征更加明显,它的适用范围也更为广泛。
12、谱聚类在归一化拉普拉斯矩阵和正则化邻接矩阵上对网络进行划分,并在伪似然算法中拟合sbm。siemon等在归一化拉普拉斯矩阵的谱图上,整合了宏观和微观神经脑网络中的社区,得到了聚类。
13、5.density-based algorithms(基于密度的算法)
14、重要的聚类算法包括基于密度的噪声应用空间聚类(dbscan)、网络结构聚类算法(scan)和定位社区检测结构中心(lccd)。他们通过测量实体的密度来识别社区、中心和异常值。
15、6.dynamical methods(动态方法)
16、随机游走用于动态检测社区。例如,walktrap 中的随机游走计算节点距离和社区成员的概率。信息映射(infomap)采用最小长度编码,将社区发现和节点信息进行编码后的长度结合,越短的编码长度意味着越好的社区划分,编码序列生成的方式则采用图上的随机游走。标签传播算法(lpa)通过信息传播机制识别扩散群落。
17、7.optimizations(优化)
18、社区检测通常使可能性最大化。模块度modularity(q)是继fastq 之后最经典的优化函数,起初是为了找到gn算法的一个终止准则,即什么样的社区划分是一个好的划分。后来逐渐成为了许多聚类问题中必不可少的一环。
19、louvain是另一种著名的优化算法,它采用节点移动策略来优化模块化。此外,贪婪优化的扩展包括模拟退火、极值优化和频谱优化。
20、以上这些传统模型不太适用于实际应用,因为真实世界网络包括复杂拓扑和高维特征,它们的计算成本很高,并且存在对复杂网络结构无法适配等问题。
21、针对当前社交网络分析工具难以适配复杂网络结构,难以处理高维特征的问题,目前尚未提出有效的解决方案。
技术实现思路
1、本技术提供了一种圈层人群的识别方法、装置、设备及计算机可读介质,以解决当前社交网络分析工具难以适配复杂网络结构,难以处理高维特征的技术问题。
2、根据本技术实施例的一个方面,本技术提供了一种圈层人群的识别方法,包括:构建标准社交网络数据,其中,所述标准社交网络数据中包括关键意见领袖-话题-用户的网络结构;将所述标准社交网络数据输入圈层识别模型,以利用所述圈层识别模型基于所述关键意见领袖-话题-用户的网络结构,识别出社交网络中各个圈层分类的人群。
3、可选地,所述构建标准社交网络数据包括:接入社交网络数据源,其中,所述社交网络数据源包括用户数据、发帖数据、关注数据、互动评论数据至少之一;从至少一个所述社交网络数据源拉取原始数据;对所述原始数据进行预处理,得到中间数据,其中,所述预处理包括数据清洗、数据整合以及数据转换至少之一;基于所述中间数据构建出所述关键意见领袖-话题-用户的网络结构,得到所述标准社交网络数据。
4、可选地,所述基于所述中间数据构建出所述关键意见领袖-话题-用户的网络结构包括:从所述中间数据中识别并提取出话题信息和实体信息;根据所述实体信息的属性数据确定实体标签,其中,所述实体标签包括关键意见领袖和用户;根据所述关键意见领袖、所述用户以及所述话题信息构建网络节点;根据所述关键意见领袖和所述用户的发帖关系、关注关系以及话题提及,确定各个所述网络节点的关联边,得到所述关键意见领袖-话题-用户的网络结构。
5、可选地,所述利用所述圈层识别模型基于所述关键意见领袖-话题-用户的网络结构,识别出社交网络中各个圈层分类的人群包括:提取所述关键意见领袖-话题-用户的网络结构中的元路径;利用所述圈层识别模型对所述元路径进行内聚合和间聚合,以分类输出用户节点作为识别出的各个圈层分类的人群。
6、可选地,所述提取所述关键意见领袖-话题-用户的网络结构中的元路径包括以下至少之一:提取用户-关键意见领袖-用户的元路径来表示多个用户对同一个关键意见领袖的共同关注关系;提取用户-话题-用户的元路径来表示多个用户对同一话题的共同提及关系;提取用户-话题-关键意见领袖-话题-用户的元路径来表示多个用户对关键意见领袖涉及多个话题的共同参与关系。
7、可选地,所述分类输出用户节点作为识别出的各个圈层分类的人群还包括:利用所述圈层识别模型根据所述共同关注关系、所述共同提及关系以及所述共同参与关系对用户节点进行分类输出。
8、可选地,所述识别出社交网络中各个圈层分类的人群之后,所述方法还包括:确定各个圈层分类的人群中具有发帖行为的第一人群;根据每个圈层分类中所述第一人群的发帖内容确定对应所述圈层分类下所有人群的圈层标签。
9、根据本技术实施例的另一方面,本技术提供了一种圈层人群的识别装置,包括:标准数据构建模块,用于构建标准社交网络数据,其中,所述标准社交网络数据中包括关键意见领袖-话题-用户的网络结构;圈层人群识别模块,用于将所述标准社交网络数据输入圈层识别模型,以利用所述圈层识别模型基于所述关键意见领袖-话题-用户的网络结构,识别出社交网络中各个圈层分类的人群。
10、根据本技术实施例的另一方面,本技术提供了一种电子设备,包括存储器、处理器、通信接口及通信总线,存储器中存储有可在处理器上运行的计算机程序,存储器、处理器通过通信总线和通信接口进行通信,处理器执行计算机程序时实现上述方法的步骤。
11、根据本技术实施例的另一方面,本技术还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,程序代码使处理器执行上述的方法。
12、本技术实施例提供的上述技术方案与相关技术相比具有如下优点:
13、本技术应用于数据能力领域进行数据运营分析。
14、本技术提供了一种圈层人群的识别方法,包括:构建标准社交网络数据,其中,所述标准社交网络数据中包括关键意见领袖-话题-用户的网络结构;将所述标准社交网络数据输入圈层识别模型,以利用所述圈层识别模型基于所述关键意见领袖-话题-用户的网络结构,识别出社交网络中各个圈层分类的人群。本技术基于社交网络数据构建了关键意见领袖-话题-用户的社交网络结构,使得模型能够适应各种复杂的社交网络结构,能够处理各种复杂的社交网络结构中的高维特征,从而更准确、高效地识别出社交网络中不同圈层的人群,解决了当前社交网络分析工具难以适配复杂网络结构,难以处理高维特征的技术问题。
本文地址:https://www.jishuxx.com/zhuanli/20240919/298600.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表