一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种实现样本扩增的方法和装置与流程

2022-02-20 04:48:53 来源:中国专利 TAG:


1.本技术涉及机器学习技术领域,尤其涉及一种实现样本扩增的方法和装置。


背景技术:

2.信贷业务是商业银行一项重要的资产业务,通过放款收回本金和利息,扣除成本后获得利润,所以信贷是商业银行的主要赢利手段。由于放款脱离了银行的控制,不能按时收回本息的风险较大,所以信贷业务会对用户进行风险评估,评估用户逾期还款的风险有多大,是偏向短时逾期还款还是长时间逾期还款。所以信贷业务在开展新产品或者新渠道的拓展业务时,会面临冷启动问题,对于该拓展业务的用户的评估需要一段时间的积累,导致有效的用户样本数目比较少,不能建立准确的信贷风险模型,对用户进行准确地风险评估。
3.现有的技术中,利用在某个场景下训练得到的风险模型,评估历史样本与目标场景下样本的风险性,然后基于历史样本与目标样本之间的风险相似性构建目标场景下的新样本,从而拓展新业务。但是在某个特定场景下的风险模型不具有通用性,历史场景下的风险模型并不适用于其他的业务场景,所以对目标样本的风险评估也并不准确,基于风险相似性得到的目标样本也不准确。


技术实现要素:

4.本技术实施例提供了一种实现样本扩增的方法和装置,以便提高目标样本的准确性。
5.第一方面,本技术实施例提供了一种实现样本扩增的方法,所述方法包括:
6.对照目标样本的画像属性对历史样本进行筛选,获得候选样本;所述目标样本为目标场景下的用户,所述历史样本为已有业务场景下的用户;
7.以样本的行为数据作为深度学习模型的输入,获得所述深度学习模型的全连接层输出向量,将所述全连接层输出向量作为所述样本的行为向量;利用所述样本的行为向量计算所述候选样本和所述目标样本之间的相似度;所述样本包括所述候选样本和所述目标样本;
8.将所述候选样本按照所述相似度从大到小进行排序,将所述相似度在前n个的所述候选样本添加到所述目标样本中;其中n为正整数。
9.在一些可能的实施方式中,所述对照目标样本的画像属性对历史样本进行筛选,包括:
10.对照目标样本的性别、年龄、申请时间和申请时收入水平中的至少一种,对历史样本进行筛选。
11.在一些可能的实施方式中,所述对照目标样本的画像属性对历史样本进行筛选,获得候选样本包括:
12.对照目标样本的画像属性对历史样本进行筛选,获得初步候选样本,在初步候选
样本中随机抽选预设个数的样本,获得候选样本。
13.在一些可能的实施方式中,所述利用所述样本的行为向量计算所述候选样本和所述目标样本之间的相似度包括:
14.计算所述候选样本的行为向量和所述目标样本的行为向量之间的距离,计算所述距离的倒数得到所述候选样本和所述目标样本之间的相似度。
15.在一些可能的实施方式中,所述利用所述样本的行为向量计算所述候选样本和所述目标样本之间的相似度包括:
16.当所述行为数据的种类大于一种时,每种所述行为数据对应输出一个行为向量,计算所述候选样本的行为向量和对应的所述目标样本的行为向量之间的距离,将每个距离乘以特定的权重后求和,计算所述和的倒数得到所述候选样本和所述目标样本之间的相似度。
17.在一些可能的实施方式中,所述行为数据包括:
18.在电商平台的购买行为、查看广告行为和浏览信息行为中的至少一种。
19.在一些可能的实施方式中,所述深度学习模型包括:
20.深度神经网络dnn模型。
21.第二方面,本技术实施例提供了一种实现样本扩增的装置,所述装置包括筛选单元、计算单元以及排序单元:
22.所述筛选单元,用于:对照目标样本的画像属性对历史样本进行筛选,获得候选样本;所述目标样本为目标场景下的用户,所述历史样本为已有业务场景下的用户;
23.所述计算单元,用于:以样本的行为数据作为深度学习模型的输入,获得所述深度学习模型的全连接层输出向量,将所述全连接层输出向量作为所述样本的行为向量;利用所述样本的行为向量计算所述候选样本和所述目标样本之间的相似度;所述样本包括所述候选样本和所述目标样本;
24.所述排序单元,用于:将所述候选样本按照所述相似度从大到小进行排序,将所述相似度在前n个的所述候选样本添加到所述目标样本中;其中n为正整数。
25.第三方面,本技术实施例还提供了一种设备,所述设备包括存储器以及处理器:
26.所述存储器用于存储相关的程序代码;
27.所述处理器用于调用所述程序代码,执行上述第一方面任意一种实施方式所述的实现样本扩增的方法。
28.第四方面,本技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述第一方面任意一种实施方式所述的实现样本扩增的方法。
29.在本技术实施例的上述实现方式中,首先对照目标样本的画像属性对历史样本进行筛选,获得候选样本;该目标样本为目标场景下的用户,历史样本为已有业务场景下的用户;以样本的行为数据作为深度学习模型的输入,获得该深度学习模型的全连接层输出向量,将所述全连接层输出向量作为样本的行为向量,然后利用样本的行为向量计算候选样本和目标样本之间的相似度,其中,该样本包括候选样本和目标样本;将该候选样本按照计算得到的相似度从大到小进行排序,将相似度在前n个的候选样本添加到目标样本中;其中n为正整数。本技术实施例提供的实现样本扩增的方法,不依赖历史场景的风险模型,对照
目标样本的画像属性对历史样本进行筛选,利用深度学习模型计算候选样本与目标样本之间的相似度,扩增目标场景下的目标样本,使得到的目标样本具有更高的准确性。
附图说明
30.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见,下面描述中的附图仅仅是本技术中提供的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
31.图1为本技术实施例中一种实现样本扩增方法的流程图;
32.图2为本技术实施例中另一种实现样本扩增方法的流程图;
33.图3为本技术实施例中一种实现样本扩增方法的示意图;
34.图4为本技术实施例中又一种实现样本扩增方法的流程图;
35.图5为本技术实施例中一种实现样本扩增装置的结构示意图;
36.图6为本技术实施例中一种实现样本扩增设备的结构示意图。
具体实施方式
37.现有技术中,利用在某个场景下训练得到的风险模型,评估历史样本与目标场景下目标样本的风险性,然后基于历史样本与目标样本之间的风险相似性构建目标场景下的样本,从而拓展新场景的业务。但是历史场景下的风险模型并不适用于目标场景,所以对目标样本的风险评估也并不准确,基于风险相似性得到的目标样本也不准确。
38.为了解决上述问题,本技术实施例提供了一种实现样本扩增的方法,以提高扩增后目标样本的准确性。具体实现时,首先对照目标样本的画像属性对历史样本进行筛选,获得候选样本;该目标样本为目标场景下的用户,历史样本为已有业务场景下的用户;然后以样本的行为数据作为深度学习模型的输入,获得该深度学习模型的全连接层输出向量,将所述全连接层输出向量作为样本的行为向量,利用样本的行为向量计算候选样本和目标样本之间的相似度,其中,该样本包括候选样本和目标样本;将候选样本按照计算获得的相似度从大到小进行排序,将相似度在前n个的候选样本添加到目标样本中;其中n为正整数。本技术实施例提供的样本扩增的方法,不依赖历史场景的风险模型,对照目标样本的画像属性对历史样本进行筛选,利用深度学习模型计算候选样本与目标样本之间的相似度,扩增目标场景下的目标样本,使得到的目标样本具有更高的准确性。
39.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整的描述,所描述的实施例仅为本技术示例性的实施方式,并非全部实现方式。本领域技术人员可以结合本技术的实施例,在不进行创造性劳动的情况下,获得其他的实施例,而这些实施例也在本技术的保护范围之内。
40.由于信贷业务在开展新产品的拓展业务时,面临的一个痛点是冷启动问题,新产品对用户的风险评估需要的时间比较久,需要一段时间的观察才能更好地评估用户逾期还款的风险性,导致有效的样本比较少,不能根据样本建立准确的风险模型去评估用户的风险性能。而现有方法是利用已有的风险模型去评估历史样本与目标场景下目标样本的风险相似性,以此扩增目标样本,但是由于风险模型不具有场景通用性,已有场景下的风险模型不适用于目标场景,所以导致得到的目标样本不够准确。
41.参见图1,图1展示了一种实现样本扩增方法的流程图,以便提高目标样本的准确性,该方法具体包括如下步骤:
42.s101:对照目标样本的画像属性对历史样本进行筛选,获得候选样本;所述目标样本为目标场景下的用户,所述历史样本为已有业务场景下的用户;
43.目标场景下已经有一定基数的用户,也就是目标样本,可以对照目标样本的画像属性,对已有业务场景下的历史样本进行筛选。用户的画像属性是利用网络中存在的用户信息,将用户的每个具体信息抽象成一种标签,利用这些标签将用户形象具体化,从而为用户提供有针对性的服务。在本技术实施例中,是利用用户的画像并结合信用风险成因进行筛选,包括性别、年龄、申请信贷的时间以及申请时的收入水平等,筛选出与目标用户画像相匹配的候选用户。
44.s102:以样本的行为数据作为深度学习模型的输入,获得所述深度学习模型的全连接层输出向量,将所述全连接层输出向量作为所述样本的行为向量;利用所述样本的行为向量计算所述候选样本和所述目标样本之间的相似度;所述样本包括所述候选样本和所述目标样本;
45.在本技术实施例中,利用一种二分类深度学习模型,以样本的行为数据作为深度学习模型的输入,模型最终的分类输出分数代表信贷需求水平的高低。在训练深度学习模型时,以用户的征信报告中近期是否有借贷信息或者多头查询数据作为模型的学习目标,所述多头查询数据是指用户是否有多次尝试借贷的信息,这样也代表了用户有较高的信贷需求水平。
46.行为数据包括用户在电商平台的购买行为、查看广告行为和浏览信息行为等,可以通过对行为数据的分析,得知用户的信贷需求水平。但是在本技术实施例中,并不是直接利用模型的分类输出分数作为样本之间的相似度量,而是把深度学习模型中最靠近输出层的全连接层输出向量作为样本的行为向量,所述样本包括候选样本和目标样本。然后利用候选样本的行为向量和目标样本的行为向量计算候选样本和目标样本的相似度。在深度学习模型中,全连接层的每一个结点都与上一层的所有结点相连,用来把前边提取到的特征综合起来,可以用来作为一种表征向量。
47.s103:将所述候选样本按照所述相似度从大到小进行排序,将所述相似度在前n个的所述候选样本添加到所述目标样本中;其中n为正整数。
48.由于目标样本的个数可能不止一个,就需要计算每个候选样本和每个目标样本之间的相似度,选取的个数n可以根据实际业务场景和最终实验效果确定。比如整个目标样本需要扩增到100个样本,目标场景下目前只有10个样本,可以在计算完成所有候选样本和所有目标样本的相似度之后,将所有的候选样本按照相似度从大到小进行排序,然后选取排名在前90个的候选样本,扩增到目标样本中。
49.另外,还可以在计算每个候选样本和每个目标样本之间的相似度后,针对每一个目标样本,可以选取相似度排序在前9个的候选样本添加到目标样本中,最终10个目标样本一共扩增了90个样本,也就实现将目标样本扩增到100个目标样本。
50.需要注意的是,针对每个目标样本扩增的候选样本个数不一定是一样的,可以针对一个目标样本的候选样本个数更多一点,一些目标样本所对应的候选样本个数少一点,候选样本的选取方式根据实际应用场景确定即可,并不对实现形式作任何限定。
51.在步骤s102中,以候选样本的行为数据和目标样本的行为数据作为深度学习模型的输入,获得深度学习模型的全连接层输出向量,将全连接层输出向量作为上述样本的行为向量,利用候选样本的行为向量和目标样本的行为向量计算候选样本和目标样本之间的相似度。由于行为数据的种类可能不止一种,当只有一种行为数据时和有多种行为数据时计算相似度的方式并不完全相同,下面将分几种情况具体说明:
52.a:当只有一种行为数据时,计算候选样本和目标样本之间的相似度;
53.只有一种行为数据时,表示候选样本和目标样本都只有一种行为数据作为深度学习模型的输入,分别得到深度学习模型的全连接层输出向量,作为候选样本的行为向量和目标样本的行为向量。计算相似度时,计算候选样本的行为向量和目标样本的行为向量之间的距离,求取距离的倒数得到候选样本和目标样本的相似度。在本技术实施例中,以计算候选样本的行为向量和目标样本的行为向量之间的欧氏距离为例进行说明,在二维空间中,欧氏距离的计算公式为三维空间中欧式距离的计算公式为
54.当然计算行为向量之间的距离,也可以是计算向量之间的余弦距离、k阶闵式距离等,根据实际应用时行为数据的结构信息等,选择合适的计算方法即可,计算行为向量之间的距离的方式并不限定于上述几种方式。
55.b:当行为数据不止有一种时,计算候选样本和目标样本之间的相似度;
56.在本技术实施例中,以行为数据包括在电商平台的购买行为、查看广告行为和浏览信息行为这三种为例,所以需要收集候选样本和目标样本的三种行为数据。给深度学习模型输入一种候选样本的行为数据,得到一个全连接层输出向量,作为候选样本的一个行为向量,所以可以得到候选样本的三个行为向量,同样地,也可以利用深度学习模型得到目标样本的三个行为向量。分别计算候选样本的行为向量和相对应的目标样本的行为向量之间的欧氏距离,可以得到三个欧氏距离,然后赋予三个距离特定的权重,三个距离乘以对应的权重后求和,最后计算这个和的倒数,得到候选样本和目标样本之间的相似度。
57.当不同种类的行为数据通过模型计算得到行为向量、并算出欧氏距离后,可以根据目标场景的特点,自定义每种行为数据的权重。也可以将各个行为向量进行归一化处理,将行为向量之间的距离取相同的权重,然后将各个距离乘以权重之后求和,计算和的倒数,最终得到候选样本和目标样本的相似度。需要说明的是,对不同行为向量之间的距离赋予权重时,可以在实际应用时根据实验进行自定义调整,本技术实施例仅提供示例性的实现方式,并不仅限于上述方法。
58.以一个计算公式为例进行说明,例如∑jwj*distance(v
ij
,v
tj
),公式中v
ij
代表第i个候选样本的第j个行为向量,v
tj
代表目标样本的第j个行为向量,wj代表候选样本的第j个行为向量和目标样本的第j个行为向量之间的距离的自定义权重,对j求和即代表了第j个候选样本和目标样本之间(基于多个行为向量)的加权距离,求取加权距离的倒数即得到第j个候选样本和目标样本之间的相似度。
59.c:当行为数据不止有一种时,计算候选样本和目标样本之间的相似度;
60.在情况b中,每次输入一个行为数据,得到对应的行为向量。由于行为数据的种类不同,所以它们的数据结构可能是不同的,所以可能需要建立不同的深度学习模型,由此得
到不同的行为向量,计算得到多个候选样本的行为向量和目标样本的行为向量之间的距离,需要赋予每个距离特定的权重。另外,也可以在一个深度学习模型中,同时输入多种行为数据,只得到一个行为向量,也就是说,候选样本的多种行为数据对应一个行为向量,目标样本的多种行为数据也对应一个行为向量,这样只需要计算两个行为向量之间的距离,然后求取所述距离的倒数就可以得到候选样本和目标样本之间的相似度。只不过由于行为数据不止一种,训练深度学习模型时可能会比较复杂,模型计算方式也会更复杂。
61.从第一个实施例可以得知,首先是从对照目标样本的画像属性,进行历史样本的初步筛选,然后再基于深度学习模型,更为准确地计算候选样本和目标样本之间的相似度,进一步筛选出符合条件的样本。参见图2,展示了另一种实现样本扩增方法的流程图,该方法具体包括如下步骤:
62.s201:对照目标样本的画像属性,从性别、年龄、申请时间以及申请时收入水平对历史样本进行筛选,获得候选样本;所述目标样本为目标场景下的用户,所述历史样本为已有业务场景下的用户;
63.在本技术实施例中,进行筛选的因素包括性别、年龄、申请时间以及申请时收入水平,对照目标用户的画像进行筛选时,用户的性别要求和目标场景下的目标用户相同。年龄需要属于同一个年龄段,比如设定相差年龄不超过三岁。用户申请所述新业务的时间要求与目标用户属于一个时间段,比如设定申请时间相差在三个月内。用户申请时的收入水平,需要和目标用户属于同一个收入分层,比如设定为月收入在三千至五千,或者年收入在五万至八万。用户的收入水平可以通过征信报告里社保公积金等信息推算,也可以通过采购外部数据,建立收入模型等方法获得。征信报告分为三类,分别是个人基本信息、信用交易信息以及其他信息,个人基本信息包括姓名、证件类型及号码、通讯地址、联系方式、婚姻状况、居住信息、职业信息等;信用交易信息包括信用卡信息、贷款信息以及其他信用信息;其他信息包括个人公积金、养老金信息等。
64.在步骤s201中,对照目标样本的画像属性,从性别、年龄、申请时间以及申请时收入水平对历史样本进行筛选,如果此时筛选得到的样本数目仍然比较多,还可以根据实际场景添加筛选条件,比如地区信息,学历、职业性质等。另外,如果满足筛选条件的样本数仍然比较多,在经过筛选得到的样本中,可以随机抽选预设个数的样本,作为候选样本,以减少一定数目的候选样本,然后计算抽选得到的候选样本与目标样本之间的相似度。
65.s202:以样本的行为数据作为深度学习模型的输入,获得所述深度学习模型的全连接层输出向量,将所述全连接层输出向量作为所述样本的行为向量;所述样本包括所述候选样本和所述目标样本;
66.s203:计算所述候选样本的行为向量和对应的所述目标样本的行为向量之间的距离,将每个距离乘以特定的权重后求和,计算所述和的倒数得到所述候选样本和所述目标样本之间的相似度;
67.本技术实施例中,以含有多种行为数据为例进行说明。在深度学习模型中,输入一种行为数据就可以得到一个行为向量,计算相似度时,首先计算候选样本的行为向量和目标样本相同种类的行为向量之间的距离,从而得到对应于多种行为数据的多个距离,将每个距离乘以特定的权重后求和,计算和的倒数得到最终的相似度。
68.s204:将所述候选样本按照所述相似度从大到小进行排序,将所述相似度在前10
个的所述候选样本添加到所述目标样本中。
69.计算得到不同的候选样本和目标样本之间的相似度之后,将候选样本按照相似度从大到小进行排序,在本技术实施例中,选取相似度排名在前10个的候选样本,补充到目标场景下的目标样本中。在具体应用场景中,可以根据实际业务以及选取不同个数的实验效果确定选取样本的个数。
70.如图3所示,图3展示了一种实现样本扩增的方法示意图,根据目标样本的身份证信息,从已有业务场景的样本中进行用户画像筛选,得到初步候选样本之后,随机抽选m个样本作为候选样本。然后利用深度学习模型对候选样本进行更精确地筛选,以样本的行为数据作为模型输入,得到样本的行为向量,利用行为向量计算候选样本和目标样本之间的相似度。将候选样本按照相似度从大到小进行排序,选取相似度排名在前n个的候选样本,添加到目标样本中。其中,m和n的值可以根据实际需求进行设定。
71.下面将结合一种具体应用场景对本技术实施例的技术方案进行具体描述,所扩展的目标场景以消费贷为例,所使用的深度学习模型为深度神经网络dnn,dnn内部的神经网络层可以分为三类:输入层,隐藏层和输出层,一般来说第一层是输入层,最后一层是输出层,而中间的层数都是隐藏层。层与层之间是全连接的,即第i层的任意一个神经元一定与第i 1层的任意一个神经元相连。
72.参见图4,图4展示了一种实现样本扩增方法的流程图,该方法具体包括如下步骤:
73.s401:对照目标样本的画像属性,从性别、年龄、申请时间以及申请时收入水平对历史样本进行筛选,获得初步候选样本;所述目标样本为目标场景下的用户,所述历史样本为已有业务场景下的用户;
74.在本技术实施例中,对历史样本进行筛选的因素包括性别、年龄、申请时间以及申请时收入水平,对照目标用户的画像进行筛选时,用户的性别要求和目标场景下的目标用户相同,在本技术实施例中设定性别要求为男。年龄需要属于同一个年龄段,设定相差年龄不超过三岁。用户申请所述新业务的时间要求与目标用户属于一个时间段,设定申请时间相差在三个月内。设定用户申请时的月收入水平在三千至五千的范围内。
75.s402:在初步候选样本中随机抽选25个样本,作为候选样本;
76.s403:以样本的行为数据作为dnn模型的输入,获得所述dnn模型的全连接层输出向量,将所述全连接层输出向量作为所述样本的行为向量;所述样本包括所述候选样本和所述目标样本;
77.s404:计算所述候选样本的行为向量和对应的所述目标样本的行为向量之间的欧氏距离,将每个距离乘以特定的权重后求和,计算所述和的倒数得到所述候选样本和所述目标样本之间的相似度;
78.本技术实施例中,以含有三种行为数据为例进行说明,包括在电商平台的购买行为、查看广告行为和浏览信息行为。在dnn模型中,输入一种行为数据就可以得到一个行为向量。计算相似度时,首先计算候选样本的行为向量和目标样本相同种类的行为向量之间的欧氏距离,从而得到对应于三种行为数据的三个距离,将每个距离乘以特定的权重后求和,计算和的倒数得到最终的相似度。
79.s405:将所述候选样本按照所述相似度从大到小进行排序,将所述相似度在前10个的所述候选样本添加到所述目标样本中。
80.候选样本的个数为25个,所以可以得到25个候选样本和目标样本之间的相似度。将候选样本按照相似度从大到小进行排序,选取相似度排名在前10个的候选样本,添加到目标样本中。
81.此外,本技术实施例还提供了一种实现样本扩增的装置,参见图5,图5展示了该装置的结构示意图,该装置500包括筛选单元501、计算单元502以及排序单元503:
82.筛选单元501,用于:对照目标样本的画像属性对历史样本进行筛选,获得候选样本;所述目标样本为目标场景下的用户,所述历史样本为已有业务场景下的用户;
83.计算单元502,用于:以样本的行为数据作为深度学习模型的输入,获得所述深度学习模型的全连接层输出向量,将所述全连接层输出向量作为所述样本的行为向量;利用所述样本的行为向量计算所述候选样本和所述目标样本之间的相似度;所述样本包括所述候选样本和所述目标样本;
84.排序单元503,用于:将所述候选样本按照所述相似度从大到小进行排序,将所述相似度在前n个的所述候选样本添加到所述目标样本中;其中n为正整数。
85.本技术实施例还提供了一种实现样本扩增的设备,参见图6,图6展示了该设备的结构示意图,该设备600包括存储器601以及处理器602:
86.所述存储器601用于存储相关的程序代码;
87.所述处理器602用于调用所述程序代码,执行上述方法实施例中所述的实现样本扩增的方法。
88.另外,本技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述方法实施例中所述的实现样本扩增的方法。
89.本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本类似于方法实施例,所以描述得比较简单,相关部分参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元或模块可以是或者也可以不是物理上分开的,作为单元或模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上,可以根据实际需要选择其中的部分或者全部单元或模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
90.以上所述仅是本技术示例性的实施方式,并非对本技术做任何形式上的限制。对以上实施例所做的等同变化或修改,均属于本技术的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献