基于数据挖掘的用户数据分析方法与流程
- 国知局
- 2024-07-31 22:35:38
本申请涉及数据处理,具体涉及基于数据挖掘的用户数据分析方法。
背景技术:
1、在数字化时代,企业积累了大量的客户数据,包括交易记录、在线行为、社交媒体互动等。数据挖掘和数据分析是现代商业决策中不可或缺的一部分,它帮助企业从海量数据中提取有价值的信息,以支持更精确的市场定位和决策制定。通过对用户的网页数据进行分析,并提取其中的客户行为特征,可以为网页浏览用户提供更相关和感兴趣的内容,尤其是电子商务和其他销售为导向的网站,个性化的网页排序可提高用户的购买意愿,从而提高转化率。
2、数据挖掘技术是一系列用于从大量数据中发现模式、趋势和关系的方法和过程。其中,pagerank算法在评估网页重要性方面非常有效,能够很好地反映网页的流行度和权威性,从而在网页排序和搜索引擎优化中发挥关键作用。然而,pagerank算法中的阻尼系数过大或过小,都可能削弱数据分析结果的准确性。
技术实现思路
1、鉴于以上内容,有必要提供基于数据挖掘的用户数据分析方法,结合用户浏览网页的主要内容特征获取阻尼系数,避免pagerank算法中的阻尼系数过大或过小,影响用户数据分析结果的准确性。
2、本申请一个实施例提供了基于数据挖掘的用户数据分析方法,所述方法包括:
3、根据用户浏览的各网页中采集的所有文本数据,结合神经网络模型,获取各网页的所有语句、每条语句的所有单词以及每个单词的语义向量;对各网页每条语句的单词进行词性标记,获取各网页中每一条语句各单词出现的频数以及tf-idf分数;
4、根据各网页每条语句中任意两个单词的词性、频数分布及距离分布,获取各网页每条语句所述任意两个单词的第一特征值;基于各网页每条语句所有所述第一特征值的分布,获取各网页每条语句的网页关键词性特征系数;
5、根据各网页相邻语句所述网页关键词性特征系数的数值特征,结合各网页每条语句所有单词的tf-idf分数,获取各网页每条语句的第二特征值;根据各网页每条语句与后一语句之间中所有单词的语义向量的分布差异,获取各网页每条语句的第三特征值;根据各网页所有语句的第二特征值与第三特征值,获取各网页的主题内容连贯指数;
6、根据用户浏览的网页之间的单词的分布相似程度,结合所述主题内容连贯指数,获取用户的核心内容关联指数;基于用户的核心内容关联指数,获取用户在pagerank算法的阻尼系数;结合pagerank算法,获取用户浏览网页的数据分析结果。
7、其中一种实施例中,所述获取各网页每条语句所述任意两个单词的第一特征值,具体步骤包括:
8、基于每条语句,根据任意两个单词的词性之间的差异,获取所述任意两个单词的差异权重;
9、将每条语句所述任意两个单词的频数之和与差异权重的乘积作为每条语句所述任意两个单词的第一特征值的分子;将所述任意两个单词在对应语句中词序的差距作为每条语句所述任意两个单词的第一特征值的分母。
10、其中一种实施例中,所述获取所述任意两个单词的差异权重,具体步骤包括:
11、基于每条语句,若任意两个单词的词性相同,则将第一预设值作为所述任意两个单词的差异权重;否则,将第二预设值作为所述任意两个单词的差异权重。
12、其中一种实施例中,所述各网页每条语句的网页关键词性特征系数具体为将每条语句中所有任意两个单词的第一特征值的正向融合结果。
13、其中一种实施例中,所述获取各网页每条语句的第二特征值,具体为:
14、将各网页每条语句与其前后相邻语句的网页关键词性特征系数的和值作为各网页每条语句的局部特征;
15、将所述局部特征与对应语句中的所有单词的tf-idf分数均值的正向融合结果作为每条语句的第二特征值。
16、其中一种实施例中,所述获取各网页每条语句的第三特征值,具体为:
17、将各网页每条语句中所有单词的语义向量之间相同位置元素的均值作为每条语句的均值向量;将各网页每条语句的均值向量与后一条语句的均值向量的相关性系数,作为各网页每条语句的第三特征值。
18、其中一种实施例中,所述各网页的主题内容连贯指数具体为各网页中所有语句的第二特征值和第三特征值的正向融合结果。
19、其中一种实施例中,所述获取用户的核心内容关联指数,具体步骤包括:
20、对于各网页,选取预设数量个单词组成各网页的重要单词字符序列;
21、计算任意两个网页的主题内容连贯指数的相加结果;获取所述任意两个网页的重要单词字符序列的距离度量;
22、基于所述任意两个网页所述相加结果以及所述距离度量,获取任意两个网页的关联因子;其中,所述关联因子与所述相加结果为递增关系,与所述距离度量为递减关系;
23、将用户浏览的所有网页两两组合后得到的关联指数的分布趋势值,作为用户的核心内容关联指数。
24、其中一种实施例中,所述用户在pagerank算法的阻尼系数具体为用户的核心内容关联指数的归一化值。
25、其中一种实施例中,所述获取用户浏览网页的数据分析结果,具体步骤包括:
26、将用户浏览的所有网页作为pagerank算法的输入,结合阻尼系数,获取用户浏览的各网页的pagerank值,作为用户数据分析结果。
27、本申请至少具有如下有益效果:
28、本申请首先对网页采集的文本数据进行处理,获取所有语句以及语句中的所有单词,为后续用户对网页的数据分析提供分析基础;并获取单词的词性、频数,为网页主要内容的特征提取提供数据基础,获取单词的tf-idf分数,衡量单词对网页文本数据的重要程度;获取第一特征值,衡量网页中各语句的文本特征,有效评估语句的单词之间的关联程度;构建网页关键词性特征系数,衡量每条语句的词性分布,基于词性衡量每条语句包含核心内容的可能性;获取第二特征值,衡量每条语句的局部词性变化特征以及包含单词的重要程度;获取第三特征值,描述单词之间的语义差异程度;构建主题内容连贯指数,判断用户对网页的感兴趣程度;构建核心内容关联指数,衡量用户浏览的网页之间内容的关联程度;获取阻尼系数,结合pagerank算法,获取用户浏览网页的数据分析结果,有效避免pagerank算法中的阻尼系数过大或过小,并提高用户数据分析结果的准确性。
技术特征:1.基于数据挖掘的用户数据分析方法,其特征在于,该方法包括以下步骤:
2.如权利要求1所述的基于数据挖掘的用户数据分析方法,其特征在于,所述获取各网页每条语句所述任意两个单词的第一特征值,具体步骤包括:
3.如权利要求2所述的基于数据挖掘的用户数据分析方法,其特征在于,所述获取所述任意两个单词的差异权重,具体步骤包括:
4.如权利要求1所述的基于数据挖掘的用户数据分析方法,其特征在于,所述各网页每条语句的网页关键词性特征系数具体为将每条语句中所有任意两个单词的第一特征值的正向融合结果。
5.如权利要求1所述的基于数据挖掘的用户数据分析方法,其特征在于,所述获取各网页每条语句的第二特征值,具体为:
6.如权利要求1所述的基于数据挖掘的用户数据分析方法,其特征在于,所述获取各网页每条语句的第三特征值,具体为:
7.如权利要求1所述的基于数据挖掘的用户数据分析方法,其特征在于,所述各网页的主题内容连贯指数具体为各网页中所有语句的第二特征值和第三特征值的正向融合结果。
8.如权利要求1所述的基于数据挖掘的用户数据分析方法,其特征在于,所述获取用户的核心内容关联指数,具体步骤包括:
9.如权利要求1所述的基于数据挖掘的用户数据分析方法,其特征在于,所述用户在pagerank算法的阻尼系数具体为用户的核心内容关联指数的归一化值。
10.如权利要求1所述的基于数据挖掘的用户数据分析方法,其特征在于,所述获取用户浏览网页的数据分析结果,具体步骤包括:
技术总结本申请涉及数据处理技术领域,具体涉及基于数据挖掘的用户数据分析方法,该方法包括:获取用户浏览的网页文本数据,对文本数据进行预处理,获取网页中所有语句以及对应的单词;基于网页文本数据中单词的词频及词性分布状态,构建网页关键词性特征系数;基于单词对于网页的重要程度及语句之间的语义相似程度,构建主题内容连贯指数;基于网页之间的内容相关性构建核心内容关联指数,获取阻尼系数,结合PageRank算法,获取用户浏览网页的数据分析结果。本申请旨在结合用户浏览网页的主要内容特征获取阻尼系数,避免PageRank算法中的阻尼系数过大或过小,影响用户数据分析结果的准确性。技术研发人员:李向上受保护的技术使用者:西安银信博锐信息科技有限公司技术研发日:技术公布日:2024/7/25本文地址:https://www.jishuxx.com/zhuanli/20240731/193763.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表