一种大数据智能分析系统及方法与流程
- 国知局
- 2024-09-05 14:23:03
本发明涉及企业智能化管理领域,具体涉及一种大数据智能分析系统及方法。
背景技术:
1、企业画像又称企业角色,作为一种勾画目标企业、联系企业诉求与设计方向的有效工具,企业画像在各领域得到了广泛的应用。我们在实际操作的过程中往往会以最为浅显和贴近生活的话语将企业的属性、行为与期待的数据转化联结起来。作为实际企业的虚拟代表,企业画像所形成的企业角色并不是脱离产品和市场之外所构建出来的,形成的企业角色需要有代表性,能代表产品的主要受众和目标群体。
2、现有的企业画像智能分析系统及方法存在效率低、复杂、准确度不高的技术问题。本发明提供一种大数据智能分析系统及方法,用以解决上述技术问题。
技术实现思路
1、本发明所要解决的技术问题是现有技术中存在的效率低、复杂、准确度不高的技术问题。提供一种新的大数据智能分析系统及方法,该大数据智能分析系统及方法具有效率高、简单、准确度高的特点。
2、为解决上述技术问题,采用的技术方案如下:
3、一种大数据智能分析系统,所述大数据智能分析系统包括:
4、分布并联设置的主观数据采集处理单元和客观数据采集处理单元,主观数据采集处理单元和客观数据采集处理单元均连接到企业画像数据存储单元,企业画像数据存储单元连接云数据存储单元和企业画像智能分析单元,企业画像智能分析单元连接企业画像输出单元;
5、客观数据采集处理单元包括数据预处理单元,身份特征关联单元;
6、数据预处理子单元用于预处理处理根据作为企业身份标识特征的统一社会信用代码,采集的与企业身份标识相关的身份数据;身份数据包括企业名称、法定代表人、企业成员;客观数据采集处理单元还用于采集处理与企业身份标识特征关联的企业客观数据,企业客观数据包括注册资本、成立时间、注册地址、经营范围;
7、主观数据采集处理单元用于采集企业自主主观行为数据,所述企业自主主观行为数据为企业自主行为产生的主观行为数据,其中包括自我主观行为数据和非我主观行为数据;
8、企业画像数据存储单元,包数据分类子单元依据数据存储子单元,分类子单元用于将企业客观数据,企业自主主观行为数据中的自我主观行为数据和非我主观行为数据进行分类;数据存储子单元用于根据分类结果分开存储数据;
9、企业画像智能分析单元包括企业分类归集子单元、二级数据集、一级数据集、企业画像智能分析算法模型以及组合加权子单元;
10、企业分类归集子单元用于调用待画像企业的企业客观数据,在企业画像历史库中进行企业分类归集;
11、二级数据库存储的是初级企业画像智能分析结果,包括与待画像企业同类企业的历史画像智能分析结果,和企业画像智能分析算法模型的实时分析结果;
12、企业画像智能分析算法模型中,与待画像企业关联的企业产生的非我主观行为数据、待画像企业的企业自主主观行为数据作为收入,输出为企业画像智能分析实时结果;
13、组合加权子单元用于将二级数据库的初级企业画像智能分析结果进行加权计算,得出最终的企业画像智能分析结果。
14、本发明的工作原理:本发明将用于企业画像的数据分为客观数据和主观行为数据,将客观数据分为身份数据和其他客观数据。身份数据包括企业统一社会信用代码,在对企业统一社会信用代码进行数据采集时,就内部解析,判断该企业的登记部门、企业类型、行政区域、以及身份标识码。同时,接受企业关于其他能够锚定企业身份的数据,比如企业成员、企业名称、企业简称等。在此,将企业身份数据统一虚化为一个虚拟的身份标签。
15、同时,为了减少企业画像的数据传输失密和数据传输的网络开销,本发明将采用边缘计算存储、云服务计算存储的架构结合。将企业画像数据存储单元设置在企业端,利用企业本身的存储设备和数据库。在云服务器端,设置了云存储器用作企业画像的历史画像结果存储,以及当前画像的数据调用,在画像结束后,可以按照倒序将接收时间靠前的数据丢弃,减少存储压力。
16、本发明对于企业行为数据进行分类,分为自我主观行为数据和非我主观行为数据,在企业被定义为待画像企业时,云服务器可以调用全部数据。但在企业被定性为配合其他企业进行企业画像时,仅需要被调用涉他数据即可。
17、本发明在企业画像历史库中进行企业分类归集,并在企业分类归集的基础上,将同类企业的历史画像智能分析结果作为二级数据集;调用待画像企业的企业自主主观行为数据,以及与待画像企业关联的其他企业产生的非我主观行为数据组成数据集,根据企业画像智能分析模型,对待画像企业进行企业画像智能分析,得到企业画像智能分析实时结果,将企业画像智能分析实时结果加入二级数据集,根据二级数据集做加权计算,得到企业画像智能分析结果,能够提供较高精度的企业画像分析结果。
18、上述方案中,为优化,进一步地,对待画像企业进行企业画像智能分析,得到企业画像智能分析实时结果,将企业画像智能分析实时结果加入二级数据集,根据二级数据集做加权计算包括:
19、步骤a,采用m种企业画像智能分析方法,得到m个企业画像智能分析实时结果;
20、步骤b,采用n种加权计算方法对步骤a中的m个企业画像智能分析实时结果进行组合加权计算,得到n个组合分析结果;
21、步骤c,将n个组合分析结果与m个企业画像智能分析实时结果进行相似度计算,选择相似度最高的组合分析结果定义为最优结果,作为企业画像智能分析结果。
22、优选方案更进一步地提高了企业画像结果的精度,同时为了防止组合加权计算的失真,将采用多种组合,并将组合结果与原始多种画像结果相似率、相似度最高的加权结果作为最优的企业画像结果,用以输出。
23、进一步地,所述与待画像企业关联的其他企业判定包括:
24、(1)判定待画像企业与任一其他企业的企业客观数据之间的关联性程度;
25、(2)判定待画像企业与任一其他企业的企业非我主观行为数据的交集性程度;
26、(3)综合加权计算待画像企业与任一其他企业相关度;
27、(4)对相关性程度值进行排序,将相关性程度值排序高于阈值的企业判定为与待画像企业关联。
28、在判定待画像企业的关联企业时,既要保证广度,又要防止不恰当的广度带来的额外流量消耗和分析效率减低。本发明通过从客观数据和主观数据二重严重的角度出发,既将客观关系存在交叉的企业纳入,又将业务或者是行为数据交叉超过阈值的企业纳入关联企业范畴。兼顾了分析精度和效率。
29、进一步地,主观数据采集处理单元采集企业自主主观行为数据包括:
30、(a)采用滑动窗口对企业自主主观行为数据进行采集,定义n个窗口样本数据点为xi(i=1,...,n),计算窗口样本数据点为xi与其他n-1个窗口样本数据点之间的欧式距离dij=‖xi-xj‖,确定与xi距离排序值由小到大排序小于预定义阈值的k个点作为其紧邻点xj(i=1,...,k);
31、(b)计算数据点xi(i=1,...,n)与紧邻点xj之间的权重wij;
32、定义函数计算出εmin(w)的最小值作为最优权值矩阵w;
33、qi=qi+r·i,qi为奇异矩阵,r为正则化参数,i为一个k×k的单位矩阵,n为正整数;
34、(c)测试当前窗口样本数据的本征维度dw,根据历史数据中的窗口样本数据的本征维度采用本征维数估计算法估计临近本征维度计算临近本征维度与本征维度dw之间的差值,差值小于预设的阈值则采用临近本征维度否则将本征维度dw更新为临近本征维度后,执行步骤(d);
35、(d)定义yi是xi的输出向量,通过求解映射函数将矩阵mij最小的个非零特征值所对应的特征向量作为yi;
36、其中,ε(y)为损失函数值,矩阵m=(1-w)t(1-w),ii为m×m的单位矩阵,为yi的转置运算。
37、企业自主行为数据具有时效性,本发明通过窗口模式对该种数据进行时序采集,并实时处理存储。这种方式能够大大降低数据处理的难度,提高效率。同时将多源异构数据进行降维统一化,满足企业画像的高效需要。
38、本发明还提供一种大数据智能分析方法,所述方法基于前述系统,方法包括:
39、步骤一,客观数据采集处理单元采集处理作为企业身份标识特征的统一社会信用代码,并采集与企业身份标识相关的身份数据进行处理,将身份数据与统一社会信用代码进行关联处理后存储在企业画像数据存储单元;
40、步骤二,主观数据采集处理单元采集企业自主主观行为数据,企业自主主观行为数据是由企业自主行为产生的主观行为数据,其中包括自我主观行为数据和非我主观行为数据;企业画像数据存储单元时,将企业客观数据,企业自主主观行为数据中的自我主观行为数据和非我主观行为数据分类存储;
41、步骤三,企业画像智能分析单元调用待画像企业的企业客观数据,在企业画像历史库中进行企业分类归集,并在企业分类归集的基础上,将同类企业的历史画像智能分析结果作为二级数据集,存在云数据存储单元;
42、步骤四,企业画像智能分析单元调用待画像企业的企业自主主观行为数据,以及与待画像企业关联的其他企业产生的非我主观行为数据组成数据集,根据企业画像智能分析模型,对待画像企业进行企业画像智能分析,得到企业画像智能分析实时结果,存在云数据存储单元;将企业画像智能分析实时结果并入二级数据集,对更新后二级数据集做加权计算,得到企业画像智能分析结果。
43、进一步地,步骤四包括:
44、步骤a,采用m种企业画像智能分析方法,得到m个企业画像智能分析实时结果;
45、步骤b,采用n种加权计算方法对步骤a中的m个企业画像智能分析实时结果进行组合加权计算,得到n个组合分析结果;
46、步骤c,将n个组合分析结果与m个企业画像智能分析实时结果进行相似度计算,选择相似度最高的组合分析结果定义为最优结果,作为企业画像智能分析结果。
47、进一步地,与待画像企业关联的其他企业的判定包括:
48、(1)判定待画像企业与任一其他企业的企业客观数据之间的关联性程度;
49、(2)判定待画像企业与任一其他企业的企业非我主观行为数据的交集性程度;
50、(3)综合加权计算待画像企业与任一其他企业相关度;
51、(4)对相关性程度值进行排序,将相关性程度值排序高于阈值的企业判定为与待画像企业关联。
52、进一步地,采集企业自主主观行为数据包括:
53、(a)采用滑动窗口对企业自主主观行为数据进行采集,定义n个窗口样本数据点为xi(i=1,...,n),计算窗口样本数据点为xi与其他n-1个窗口样本数据点之间的欧式距离dij=‖xi-xj‖,确定与xi距离排序值由小到大排序小于预定义阈值的k个点作为其紧邻点xj(i=1,...,k);
54、(b)计算数据点xi(i=1,...,n)与紧邻点xj之间的权重wij;
55、定义函数计算出εmin(w)的最小值作为最优权值矩阵w;
56、qi=qi+r·i,qi为奇异矩阵,r为正则化参数,i为一个k×k的单位矩阵,n为正整数;
57、(c)测试当前窗口样本数据的本征维度dw,根据历史数据中的窗口样本数据的本征维度采用本征维数估计算法估计临近本征维度计算临近本征维度与本征维度dw之间的差值,差值小于预设的阈值则采用临近本征维度否则将本征维度dw更新为临近本征维度后,执行步骤(d);
58、(d)定义yi是xi的输出向量,通过求解映射函数将矩阵mij最小的个非零特征值所对应的特征向量作为yi;
59、其中,ε(y)为损失函数值,矩阵m=(1-w)t(1-w),ii为m×m的单位矩阵,为yi的转置运算。
本文地址:https://www.jishuxx.com/zhuanli/20240905/286124.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。