一种商品评级分布预测方法、装置及存储介质
- 国知局
- 2024-07-31 23:20:36
本发明涉及计算机数据挖掘领域,尤其涉及一种商品评级分布预测方法、装置及存储介质。
背景技术:
1、随着全球化的加速发展,零售业已经成为一个估值数千亿美元的国际性业务领域。该行业的快速增长伴随着数以千计的新产品每年进入市场,但这些产品的成功率却参差不齐。从制造商的角度来看,生产成本的上升和市场竞争的激烈加剧了其面临的投资风险。而消费者则面临另一方面的挑战:广告和营销活动的泛滥使得他们难以在众多产品中做出符合个人需求的选择。在这个背景下,能够在产品设计阶段甚至之前,准确预测消费者对即将上市零售商品的态度和偏好成为了双方迫切需要解决的问题。
2、机器学习技术的进步为这一挑战提供了有效的解决方案。通过利用基于机器学习的预测模型,我们现在可以对消费者对商品的反应进行早期预测,从而为产品调整和市场策略的制定提供科学依据。在这方面,消费者对于商品的评级分数尤为重要,它作为一个关键指标,反映了商品可能的市场接受度和购买潜力。
3、然而,传统的预测方法多侧重于通过数学统计方法评估消费者对商品的平均评级分数,以此作为衡量商品质量的标准。尽管这种方法可以反映消费者对商品的整体感知质量,但它忽视了商品评级的分布性质,从而遗漏了丰富的语义信息。
技术实现思路
1、为至少一定程度上解决现有技术中存在的技术问题之一,本发明的目的在于提供一种基于维数约简和标签分布学习的商品评级分布预测方法、装置及存储介质。
2、本发明所采用的第一技术方案是:
3、一种商品评级分布预测方法,包括以下步骤:
4、数据获取与预处理:对获取得到的某类商品的包装图片、商品属性进行预处理,获得预处理后的数据集;
5、构建模糊加权无向图:在预处理后的数据集基础上,对每个数据点,根据其与邻近点的距离,构建一个局部邻域图;该局部邻域图为一个模糊加权无向图,其中节点代表数据点,边的权重反映了点与点之间的相似度或接近程度;
6、构建初始低维表示:通过谱嵌入,利用图的拉普拉斯矩阵特征值和特征向量来寻找最优的低维嵌入,以在保持高维空间中数据点之间的局部距离关系;
7、优化加权模糊交叉熵:使用加权模糊交叉熵作为损失函数,使用随机梯度下降法逐步调整低维空间中的数据点位置,以最小化输入空间和低维空间的图的差异,获得原始输入空间的低维表示;
8、对商品评级分布进行预测:将原始输入空间的低维表示和商品的标签分布作为标签分布支持向量回归器的输入,实现对商品评级分布的精确预测。
9、进一步地,所述对获取得到的某类商品的包装图片、商品属性进行预处理,获得预处理后的数据集,包括:
10、提取颜色直方图以形成颜色特征向量,获取和编码商品属性,以及对所有特征进行归一化处理,最终得到数据集x={x1,x2,...,xn}。
11、进一步地,所述商品评级分布预测方法还包括以下步骤:
12、采用计算评级的频率分布方法获取用户对商品的评级分布:
13、定义一个评级等级集合s={s1,s2,...,sm},其中m是评级等级的总数;
14、对每个商品xi,有一个评级集合其中nj是商品pj的评级总数;
15、评级等级si在商品pj的评级分布频率fji的计算公式为:
16、
17、其中,fji表示评级等级si占商品xi总评级的比例,进而将商品xi的评级分布表示为一个向量fj=(fj1,fj2,...,fjm),直观地反映了各评级等级分布f的情况。
18、进一步地,所述在预处理后的数据集基础上,对每个数据点,根据其与邻近点的距离,构建一个局部邻域图,包括:
19、在数据集x={x1,x2,...,xn}中,每个点xi通过k最近邻搜索找到其k个最近邻居ti={ti1,...,til,...,tik},并计算xi与每个邻居til之间的距离dil,形成一个集合di={di1,...,dil,...,dik},包含xi与其每个k最近邻居之间的距离;
20、在计算数据集中每个点与其k最近邻居的距离后,构建一个模糊单纯集来表示对象间的相似度,根据相似度构建局部邻域图。
21、进一步地,所述构建一个模糊单纯集来表示对象间的相似度,根据相似度构建局部邻域图,包括:
22、对于每个对象,确定一个最小距离ρi,ρi是从该对象到其最近邻居的距离集di中的最小值;
23、通过二分搜索找到一个σi,使得下面的公式成立:
24、
25、使用确定的ρi和σi,为每个对象构建了向量其各元素μij通过下列公式计算,表示对象间的相似度:
26、
27、如果两个对象不是邻居,则相似度设置为0;这样,每个对象xi对应一个稀疏向量编码了它与数据集中其他对象间的模糊相似性,构建了一个稀疏加权邻接矩阵代表了一个编码对象间成对相似性的模糊加权有向图;
28、通过下列公式对非对称矩阵m进行对称化,得到一个表示对象间成对相似度的对称矩阵:
29、μij←μij+μji-μijμji。
30、进一步地,所述通过谱嵌入,利用图的拉普拉斯矩阵特征值和特征向量来寻找最优的低维嵌入,包括:
31、将邻接矩阵m转换为转换矩阵c,其中每个元素cij表示i到点j的转换概率;这一转换包括标准化步骤,使得每一行的元素和为1,即∑jcij=1;
32、对转换矩阵c进行特征分解,找到其m个最大的非零特征值及对应的特征向量{λ1,λ2,...,λm}和这些特征向量构成了数据在m维空间中的初始嵌入,形成了初始嵌入矩阵
33、进一步地,所述使用加权模糊交叉熵作为损失函数,使用随机梯度下降法逐步调整低维空间中的数据点位置,以最小化输入空间和低维空间的图的差异,获得原始输入空间的低维表示,包括:
34、基于原始高维数据集x,计算得到一个初始嵌入矩阵表示n个对象在m维空间中的初始位置;使用加权模糊交叉熵作为损失函数,并采用随机梯度下降法对其进行优化;损失函数定义为:
35、
36、其中,m是对称邻接矩阵,编码了对象间的成对模糊相似度;μij、μik是原始数据集中对象间的模糊相似度;vij是低维空间中对象间的模糊相似度;
37、通过以下公式计算低维空间中的相似度vij:
38、
39、其中,dij是低维空间中两对象之间的欧几里得距离,a和b是通过拟合选择的系数;通过迭代更新y矩阵,得到数据点在低维空间上的新坐标,并将数据划分成训练集和测试集。
40、进一步地,所述标签分布支持向量回归器通过以下方式训练获得:
41、通过下面的目标函数学习从特征到分数分布的映射函数:
42、
43、其中,表示权重矩阵,表示偏置向量,w和b都是模型参数,wj表示的是w的第j行的转置,而l(ri)是针对第i个实例所定义的损失函数,定义为:
44、
45、
46、
47、将训练集和测试集作为标签分布支持向量回归器的输入,用于对商品的分数分布进行预测;
48、其中,使用chebyshev距离、clark距离、kl散度、余弦相似度作为评价指标。
49、本发明所采用的第二技术方案是:
50、一种商品评级分布预测装置,包括:
51、至少一个处理器;
52、至少一个存储器,用于存储至少一个程序;
53、当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上所述方法。
54、本发明所采用的第三技术方案是:
55、一种计算机可读存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。
56、本发明的有益效果是:本发明通过对商品数据进行预处理并构建模糊加权无向图,利用谱嵌入获得数据的低维表示,采用加权模糊交叉熵优化低维表示,最后通过标签分布支持向量回归器进行商品评级分布预测,能够有效处理高维、多标签数据集,不仅显著降低了计算成本,而且提高了预测的精度和效率。
本文地址:https://www.jishuxx.com/zhuanli/20240730/197098.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表