一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于统计学与机器学习相结合的异常商品信息识别方法

2022-10-26 02:01:32 来源:中国专利 TAG:


1.本发明涉及互联网下的电子商务领域,尤其涉及一种基于统计学与机器学习相结合的异常商品信息识别方法。


背景技术:

2.近年来,互联网技术发展迅速,电子商务行业也踏上了发展的快车道。“网购”因其方便快捷、省时省力、送货上门的特点越来越受到人们的青睐。在各平台规模不断扩大、商品数不断增加的同时,一些不正当经营行为,例如虚标价格、恶意刷单行为也随之出现,严重违反了电商法。
3.为了规范引导电子商务发展,我们也出台了多项相应法律法规,如电子商务法等。
4.人工检查筛选作为一项传统技术,在应用到数据量如此庞大的网络零售商品平台的商品交易时,面临着诸多问题。例如,人工筛选工作量巨大,速度慢,效率低;人工筛选每个人的标准难以统一,对于一项数据是否是异常面临着无法判断的问题;人工筛选需要极高的精力集中,并且容易受到精神状态的影响,因此难免会出现遗漏和错误的情况。
5.因此,实现一套智能高效识别海量网售异常商品的自动化软件系统,不仅是网售平台公平有序的有力保证,更是对于国家规划的积极响应。
6.综合以上信息,需要设计一种智能化的方法,在海量商品数据中寻找异常商品数据。


技术实现要素:

7.发明目的:针对上述现有技术存在的问题和不足,本发明的目的是提供一种基于统计学与机器学习相结合的异常商品信息识别方法,解决现有方法在处理大量商品数据时效率低、速度慢以及依赖人工的问题。
8.技术方案:为实现上述发明目的,本发明提出了一种基于统计学与机器学习相结合的异常商品信息识别方法,包括如下步骤:
9.(1)用户通过系统接口提交电商平台商品数据文件,所述电商平台商品数据文件包括商品名称、商品价格、商品销量、1级类目名称、2级类目名称以及3级类目名称信息,作为步骤(2)的输入;
10.(2)预处理所述电商平台商品数据文件数据:将输入的电商平台商品数据文件的编码方式转换为可供系统使用的utf-8的编码方式,扫描商品数据,当读入空缺或乱码数据时,作为无效数据删除,并将删除无效数据后的商品数据按照标准进行划分处理,划分成多个文件,作为输出文件输入到步骤(3)(4)(5)(6);
11.(3)对于所述输出文件的商品数据进行关键信息筛选:利用构建的异常关键词库对商品数据匹配识别,判断商品数据是否异常,获得经过关键词筛选的异常商品数据,将所述异常商品数据作为步骤(7)的第一输入;
12.(4)建立统计学模型,处理识别商品异常数据:对同类目下的商品,基于统计学
3sigma法则以及箱线图模型,构建模型识别筛选离群异常值,获得经过统计学模型筛选的异常商品数据,将所述异常商品数据作为步骤 (7)的第二输入;
13.(5)建立回归预测模型,处理识别商品异常数据:基于线性回归模型,综合商品的多个属性权重预测同类目下所有商品的价格,得到同一类目下商品的预测价格,根据实际价格与预测价格的偏移量判断异常,获得经过回归预测模型筛选的异常商品数据,将所述异常商品数据作为步骤(7)的第三输入;
14.(6)建立分类器预测模型,处理识别商品异常数据:基于逻辑回归模型、支持向量机模型,综合包括价格、品牌名称、名称中关键词以及销量特征,构建一个判断异常的二分类分类器,对商品数据识别异常,获得经过二分类分类器筛选的异常商品数据,将所述异常商品数据作为步骤(7) 的第四输入;
15.(7)对所述异常商品数据中的特殊商品进行筛除:对于所述第一输入、第二输入、第三输入和第四输入,对价格异常判断中误判的奢侈品进行筛除,根据筛出特殊商品后的各模型结果,对所有模型的筛选结果进行整合,得出筛选的最终结果。
16.进一步地,所述步骤(2)中,将商品数据的前两级类目拼接作为划分的类名,并统计所有的类名,然后为每个商品目录创建输出文件,以类名对文件进行命名。
17.进一步地,所述步骤(3)中,关键信息筛选包括以下两种方法:查看商品名称是否包含必须关键词,如果不包含,则将商品数据判断为异常并输出;查看商品名称是否包含禁止关键词,如果包含,则将商品数据判断为异常并输出。
18.进一步地,所述步骤(4)中,对于3sigma法则处理,由用户输入设定标准差的缩放系数;对于箱线图模型,由用户输入设定四分位距(iqr)的缩放系数。
19.进一步地,所述步骤(5)中,实现回归预测模型时,从数据中获取能够直接处理的属性,使用独热编码(one-hot编码)方式进行编码;逐个读取商品名称,并将所述商品名称按照词语进行拆分,统计其中的词频,截取高频词的一部分,将其是否还有所述高频词作为特征(包含为1,不包含为0);采用线性回归模型(linearregression)对样本进行拟合;采用线性回归模型对商品价格进行预测,将预测价格和实际价格进行比较,将价格异常的商品输出。
20.进一步地,所述步骤(6)中,选用特征时将数值特征进行归一化,非数值特征使用one-hot编码处理;逐个读取商品名称,并将所述商品名称按照词语进行拆分,统计其中词频;截取高频词的一部分,加入高频词词库,将商品名称是否含有所述高频词词库中词频作为特征;人工筛选部分异常数据,作为训练集训练模型;使用基于python语言的机器学习库(sklearn) 中特征筛选(selectfrommodel)方法筛选所有特征得到其中的重要特征;采用逻辑回归模型和支持向量机模型构建的二分类分类器对所述重要特征和商品价格进行拟合。根据拟合值判断商品是否异常,输出1为异常,0则正常。
21.进一步地,所述步骤(7)中,通过对所述步骤(3)(4)(5)(6)中的相应方法进行测试,根据测试结果给每种方法设置一个重要程度;通过以下公式:
22.score=∑xipi23.计算每个商品的异常得分:其中xi是其是否在第i种方法异常的指示变量,pi为第i种方法的异常程度,i为所述步骤(3)(4)(5)(6)中的相应方法;将得分超过设置临界值的商品判断为异常,作为最终的结果输出。
24.有益效果:本发明能够在机器学习场景下,通过一种基于统计学与机器学习相结合的异常商品信息识别方法,有效解决人工筛选效率低、易出错、标准不统一的问题:第一,本发明提供了一套电商平台异常商品信息的识别方法,无需人工筛选,可通过系统模型自动识别。第二,本发明实现了多种模型整合方法,支持自适应模型对异常商品信息进行识别,识别准确率高。
附图说明
25.图1为本发明的总体流程示意图;
26.图2为本发明在电商平台2021年6月商品信息数据集上,其中图2(a)(b) (c)分别为本发明统计预测模型筛选效果实例,回归预测模型筛选效果实例,分类预测模型筛选效果实例。
具体实施方式
27.下面结合附图和具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本技术所附权利要求所限定的范围。
28.本发明提出了一种基于统计学与机器学习相结合的异常商品信息识别方法,主要解决了网络零售商品平台人工检查筛选异常商品工作量大、速度慢、效率低的问题。本发明的完整流程分为数据处理准备阶段、商品异常分析阶段、模型整合优化阶段。下面以包含商品基本信息(id、名称、品牌、价格、销量等)和多级类目(默认五级)的字符串存储的商品信息表为例,说明本发明的实施方式。
29.数据处理准备阶段对应技术方案步骤(1)(2),其主要作用是保证商品数据的有效性并简化商品数据的种类,以提高后续阶段处理速度和精准度。
30.具体实施方式为:用户通过系统接口提交电商平台商品数据文件,将数据重新整理为数据表的形式,统一以utf-8编码输出保存。
31.接着从数据表中按指定编码格式读取一行商品数据,检查数据的列数是否正确,每一列的数据是否包含乱码,每一列数据的格式是否正确(如商品名称为字符串、价格为浮点数、销量为整数等)。对于不满足要求的异常数据直接舍去,不再参与后续的处理。其它数据则传给后续部分进行处理。然后将商品数据的前两级类目拼接作为划分的类名,并统计所有的类名。然后为每个商品目录创建输出文件,以类名对文件进行命名。
32.最后,遍历所有的商品数据,根据商品数据的前两级类目将其输出到对应的输出文件,默认根据前两级类目进行划分,完成文件的划分。
33.异常识别阶段对应技术方案步骤(3)、(4)、(5)、(6),该阶段商品数据使用多种独立的方法进行分析,各自输出可能异常的结果。这些方法包括关键信息筛选、3sigma法则筛选、箱线图模型筛选、回归预测识别和分类预测识别。本阶段使用上一阶段划分后的数据,故各方法都默认前两级类目相同。具体实施方式为:
34.(1)关键信息筛选通过查看商品名称是否具有某些关键词来判断异常。具体实施方法为:对于某个商品,查看商品名称是否包含必须关键词(如鞋类,应当包含“鞋”“拖”中的一个),如果不包含,则将其判断为异常并输出。再查看其商品名称是否包含禁止关键词
(如“链接”等隐含不正当交易的词语),如果包含,则将其判断为异常并输出。关键词的选取依赖于商品种类的特征,根据人工经验为每个类目选择并添加合适的关键词。
35.(2)3sigma法则筛选是利用统计学中的3sigma法则进行筛选。本方法假设同类商品的价格符合正态分布,计算商品数据的均值μ和标准差σ,由3sigma法则可知,数据落在(μ-3σ,μ 3σ)的概率极小,故可以将其判断为异常。该区间可以根据实际需求进行缩放。
36.具体实施方法为:首先,根据细分类目等级(默认为三级类目,可根据实际情况调整)将商品进行进一步细分,并记录所有的类目名称。接着,计算并存储每个类目商品数据的均值μ和标准差σ。最后,遍历数据中的每一个商品,查询商品类目的均值和方差,查看商品价格是否在区间(μ-s*σ, μ s*σ)内,若不在,则判断为异常并输出,其中s为可调控的系数。
37.(3)箱线图模型筛选是利用统计学中的箱线图模型进行筛选,通过对数据构建箱线图将其中的离群数据作为异常数据。采用箱线图识别异常价格,需要计算商品价格对应的上四分位数q3和下四分位数q1,以及它们的距离iqr,一般认为,[q1-1.5iqr,q3 1.5iqr]包含了大部分数据,其中的数据为正常数据,而其它数据属于离群数据,将离群数据视作异常数据。
[0038]
具体实施方法为:首先,根据细分类目等级(默认为三级类目,可根据实际情况调整)将商品进行进一步细分,并记录所有的类目名称。然后,计算并存储每个类目商品数据的q1和q3,并计算iqr。最后,遍历数据中的每一个商品,查询商品所属类目的q1、q3和iqr,查看商品价格是否在区间[q1-s*iqr,q3 s*iqr],若不在,则判断为异常并输出,其中s为可调控的系数。
[0039]
(4)回归预测识别方法是利用商品数据构建回归预测模型,对商品的价格进行预测,通过比较预测价格和实际价格来判断是否异常。其中构建模型所使用的特征是与价格密切相关的特征,如三级类目、四级类目、品牌以及名称中的关键词,采用线性回归模型进行拟合。
[0040]
具体实施方法为:读取所有商品数据,将三级类目、四级类目、品牌用独热编码(one-hot编码)进行编码作为特征。接着,依次读取所有商品名称,将所述商品名称按照词语进行拆分,统计其中词频,选取高频词中的一部分,加入高频词词库,将商品名称是否含有所述高频词词库中词频作为特征。然后采用线性回归模型对特征和商品价格进行拟合,获得商品的预测价格。最后,将预测价格和实际价格比较,如果max(预测价格/ 实际价格,实际价格/预测价格)》a且|预测价格-实际价格|》b,则判断为异常并输出,其中a,b为可调控系数。
[0041]
(5)分类预测识别方法是利用已有的训练集构建分类预测模型,用模型直接判断商品异常的方法。对于本方法,需要人工对部分商品进行标记作为训练集,其中正常为0,异常为1。采用的特征为影响商品价格或能够反映商品是否异常的特征,包括价格、三级类目、四级类目、品牌、名称中的关键词、销量。使用了两种可选的模型,分别是逻辑回归模型和支持向量机。
[0042]
具体实施方法为:首先,读取所有商品数据和训练集,对三级类目、四级类目、品牌用独热编码(one-hot编码)进行编码,将价格、销量进行归一化处理。接着,依次读取所有商品名称,将商品名称按照词语进行拆分,统计其中的词频,选取高频词中的一部分,加入高
频词词库,将商品名称是否含有所述高频词词库中词频作为特征。使用基于python语言的机器学习库(sklearn)中特征筛选(selectfrommodel)方法筛选所有特征得到其中的重要特征;采用逻辑回归模型和支持向量机模型构建的二分类分类器对上述重要特征和商品价格进行拟合。根据拟合值判断商品是否异常,输出1为异常,0则正常。
[0043]
模型整合优化阶段对应技术方案步骤(7),该阶段是对之前异常处理的结果的综合,以增强结果的合理性和准确性。该阶段主要包括特殊商品筛选和多种模型整合出两个步骤,其具体实施方式如下:
[0044]
(1)特殊商品筛选是筛除结果中的特殊商品,对于最终的结果,某些商品可能正常但因为其特殊性而被判断为异常商品,需要将这些正常的商品从结果中剔除。这些商品主要是奢侈品,故通过添加一些白名单对商品进行筛选。
[0045]
具体实施方法为:遍历结果中的所有商品,查看商品名称或品牌中是否包含人工构建词库中的品牌,如果包含,则将该商品判断为正常,将该商品从结果中删除;否则仍判断为异常,保留在结果中。
[0046]
(2)多种模型整合是对异常分析中多种方法结果的整合。每个方法相互独立、互不影响,其侧重点并不同,结果也有差异,通过将多种方法的结果综合到一起,可以提高模型的准确度。
[0047]
具体实施方法为:从文件读取数据,依次调用关键信息筛选、统计预测模型、回归预测模型和分类预测模型进行测试,根据测试结果给每种方法设置一个重要程度,然后,通过以下公式计算每个商品的异常得分score:
[0048]
score=σxipi[0049]
其中xi是该商品是否被第i种方法判断为异常的指示变量,pi是第i种方法的重要程度,i为所述步骤(3)(4)(5)(6)中的相应方法。最后,查询每个商品的异常得分,超出阈值的判断为异常并输出。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献