技术新讯 > 计算推算,计数设备的制造及其应用技术 > 数据刻度对齐方法及数据源融合选取方法与流程  >  正文

数据刻度对齐方法及数据源融合选取方法与流程

  • 国知局
  • 2024-08-22 14:48:17

本发明属于大数据处理,尤其涉及数据刻度对齐方法及数据源融合选取方法。

背景技术:

1、现有的算法如xgboost,lightgbm等算法,专注于对特征进行建模。在实际业务过程中,我们往往会接触到多个数据源进行建模。因为层面,数据源之间大多会对自己的数据进行一定程度的保护,例如不输出底层的特征,而是输出一个样本的预测分。

2、通常数据源会拒绝提供底层具体的数据,而是将他们底层的数据做一个模型,使用模型对样本进行评估,输出样本的预测分,这样的输出就是一个此数据源的预测分集合,在建模的过程中,很多个数据源就会提供很多个预测分集合。

3、在业务场景中,由于每个数据源标准不同,评估模型不同,预测分的结果也千差万别。有的预测分的取值范围在[0,100],有的预测分取值则为[0,1]。

4、如果不对预测分进行刻度对齐,那么难以将不同数据源下的样本数据融合使用。

技术实现思路

1、本发明所要解决的技术问题在于针对上述现有技术中的不足,提供数据刻度对齐方法及数据源融合选取方法,能够对不同数据源下的样本的评分进行刻度对齐。

2、本发明第一方面公开了一种数据刻度对齐方法,包括以下步骤:

3、步骤1、对数据源进行区块的划分,使得每一个区块满足两个条件:

4、条件一:此区块的样本数量占比在整个数据集中为1/n;

5、条件二:区块中总样本数大于特定阈值;

6、步骤2、对每一个区块执行步骤2-1和步骤2-2,获得n个[预测分-响应比]的组合对:

7、步骤2-1、取区块中样本预测分的平均值为该区块的预测分;

8、步骤2-2、获取该区块的响应比;

9、步骤3、基于相邻的两个区块的[预测分-响应比]的组合对构建对应的线性函数,获得n-1个线性函数;

10、步骤4、基于n-1个线性函数,获得从预测分转化为响应比的函数rr=r1(s),rr代表响应比,r1是预测分转响应比的函数,s表示预测分;

11、步骤5、构建标准分转化为响应比的函数rr=r2(ts),ts表示标准分,基于函数rr=r2(ts),获得响应比转化为标准分的函数为ts=r2-1(rr),进一步获得预测分转化为标准分的函数ts=r2-1(r1(s));

12、步骤6、基于函数ts=r2-1(r1(s)),将数据源中样本的预测分转化为标准分。

13、上述数据刻度对齐方法,步骤4中,对于预测分处于[区块预测分i,区块预测分i+1]范围的样本,函数r1为n-1个线性函数中的第i个函数,i为正整数,区块预测分i指第i个区块的预测分。

14、本发明第二方面公开了另一种数据刻度对齐方法,数据刻度对齐方法,包括以下步骤:

15、step1、按第一方面所述的数据刻度对齐方法,将多个数据源中的样本预测分转化为标准分;

16、step2、对每个数据源中的没有预测分的异常样本进行以下处理:

17、对数据源中每种情况下的异常样本集,均执行step2-1至step2-3;

18、step2-1、判断当前数据源中相同情况的异常样本数量是否达标,若达标,则进入step2-2,若不达标,则进入step2-3;

19、step2-2、获取该情况下异常样本集的响应比,根据响应比转化为标准分的函数为ts=r2-1(rr),计算出所述异常样本集的标准分,将该标准分赋值给所述异常样本集中的样本;

20、step2-3、获取当前数据源的响应比,根据响应比转化为标准分的函数为ts=r2-1(rr),计算出当前数据源的标准分,将该标准分赋值给所述异常样本集中的样本。

21、本发明第三方面公开了数据源融合选取方法,包括以下步骤:

22、步骤a、按第二方面所述的数据刻度对齐方法,得到多个数据源中样本的标准分;一个数据源中的样本id对应任意另一个数据源中的样本id;

23、步骤b、获取多个数据源的所有组合方式,对每个组合方式执行以下步骤:

24、步骤b-1、获取每个样本id的评价指标y,若为好样本,则y=0,若为坏样本,则y=1;

25、步骤b-2、获取求解目标g,g=∑(yi-ri)2,yi为第i个样本id的评价指标,ri为第i个样本id的融合分,i为正整数,i∈[1,k],k为样本id的总数;

26、ri=∑amtsm,tsm为第i个样本id在第m个数据源的标准分,am为第m个数据源的系数,m为正整数,m∈[1,z],z为当前组合方式下数据源的数量;

27、以g最小为目标,求解出z个数据源各自的系数a;

28、步骤c、基于数据源在各个组合方式中表现的系数a,选取组合方式,进行数据源融合。

29、上述数据源融合选取方法,还包括步骤b-3、对于每种组合方式,获取该组合方式在训练集上的评价指标;

30、步骤c中,基于数据源在各个组合方式中表现的系数a和各个组合方式在训练集上的评价指标,选取组合方式,进行数据源融合。

31、上述数据源融合选取方法,还包括步骤b-3、对于每种组合方式,获取该组合方式在测试集上的评价指标;

32、步骤c中,基于数据源在各个组合方式中表现的系数a和各个组合方式在测试集上的评价指标,选取组合方式,进行数据源融合。

33、上述数据源融合选取方法,还包括步骤b-3、对于每种组合方式,获取该组合方式在测试集上的评价指标和获取该组合方式在训练集上的评价指标;;

34、步骤c中,基于数据源在各个组合方式中表现的系数a、各个组合方式在测试集上的评价指标、以及各个组合方式在训练集上的评价指标,选取组合方式,进行数据源融合。

35、本发明与现有技术相比具有以下优点:

36、1.本发明公开的数据刻度对齐方法,通过将预测分对应到响应比上,再将响应比对应到标准分上,利用构建的转换函数,巧妙的将不同数据源的样本的预测分均转换为标准分,使不同数据源下的样本能够刻度对齐,方便后续将不同数据源的样本放在一起进行融合使用。

37、2.本发明公开的数据源融合选取方法,通过将多个数据源划分为不同的组合方式,再通过构建特定的函数,反向求解出各个数据源在各个组合方式中表现出的系数,方便编程人员从系数判断出,数据源在组合方式中的重要程度,系数越高说明对应数据源的重要性越高。

38、3.本发明公开的数据源融合选取方法,因为数据源都是进行数据刻度对齐后的,所以可以方便进行数据源的替换,例如一个组合方式中某一数据源的系数表现很低,完全可以将其替换为另一个数据源。

39、下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。

技术特征:

1.数据刻度对齐方法,其特征在于,包括以下步骤:

2.按照权利要求1所述的数据刻度对齐方法,其特征在于,步骤4中,对于预测分处于[区块预测分i,区块预测分i+1]范围的样本,函数r1为n-1个线性函数中的第i个函数,i为正整数,区块预测分i指第i个区块的预测分。

3.数据刻度对齐方法,其特征在于,包括以下步骤:

4.数据源融合选取方法,其特征在于,包括以下步骤:

5.按照权利要求4所述的数据源融合选取方法,其特征在于,还包括步骤b-3、对于每种组合方式,获取该组合方式在训练集上的评价指标;

6.按照权利要求4所述的数据源融合选取方法,其特征在于,还包括步骤b-3、对于每种组合方式,获取该组合方式在测试集上的评价指标;

7.按照权利要求4所述的数据源融合选取方法,其特征在于,还包括步骤b-3、对于每种组合方式,获取该组合方式在测试集上的评价指标和获取该组合方式在训练集上的评价指标;;

技术总结本发明公开了数据刻度对齐方法及数据源融合选取方法,数据刻度对齐方法,包括以下步骤:对数据源进行区块的划分,获得n个[预测分‑响应比]的组合对;基于相邻的两个区块的[预测分‑响应比]的组合对构建对应的线性函数,获得n‑1个线性函数;基于n‑1个线性函数,获得从预测分转化为响应比的函数rr=R1(s),rr代表响应比,R1是预测分转响应比的函数,s表示预测分;构建标准分转化为响应比的函数rr=R2(ts),ts表示标准分,基于函数rr=R2(ts),获得响应比转化为标准分的函数为ts=R2<supgt;‑1</supgt;(rr),进一步获得预测分转化为标准分的函数ts=R2<supgt;‑1</supgt;(R1(s));基于函数ts=R2<supgt;‑1</supgt;(R1(s)),将数据源中样本的预测分转化为标准分。本发明能够对不同数据源下的样本的评分进行刻度对齐。技术研发人员:熊智翔,孟亮受保护的技术使用者:百维金科(上海)信息科技有限公司技术研发日:技术公布日:2024/8/20

本文地址:https://www.jishuxx.com/zhuanli/20240822/279944.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。