个人信贷违约预测方法、装置、电子设备及存储介质与流程

2022-05-11 16:13:49 来源：中国专利 TAG：

1.本公开涉及电子信息技术领域，具体涉及一种个人信贷违约预测方法、装置、电子设备及存储介质。

背景技术：

2.目前在金融风控领域的贷款业务中，普通信用贷和现金贷是两类常见的贷款方式。表面上看，普通信用贷和现金贷审核的用户材料大致相同，但是由于风险点不同，导致风控要求也差异很大。又由于经常存在业务场景刚开启导致模型训练数据较少达不到效果的情况，所以常用近似业务场景的数据来训练模型。使推理结果尽可能的逼近实际业务需要，即通过普通信用贷样本数据中提取能为现金贷模型使用的信息。这种方法也称之为迁移学习。
3.虽然迁移学习使用的是近似业务场景的数据来建模，但是数据之间仍然存在差异性，导致推理结果不佳。

技术实现要素：

4.本公开实施例的目的是提供一种个人信贷违约预测方法、装置、电子设备及存储介质，以至少解决现有个人信贷违约预测推理结果不佳的问题。
5.本公开的技术方案如下：
6.根据本公开实施例的第一方面，提供一种个人信贷违约预测方法，该方法包括：
7.获取源域数据和目标域数据并进行预处理，得到正常无缺失数据集；
8.确定正常无缺失数据集中每个数据的特征信息，得到带有特征的数据集；
9.利用带有特征的数据集训练和测试机器学习模型，得到信贷违约预测模型；
10.利用信贷违约预测模型进行个人违约预测。
11.根据本公开实施例的第二方面，提供一种个人信贷违约预测装置，该装置可以包括：
12.预处理模块，用于获取源域数据和目标域数据并进行预处理，得到正常无缺失数据集；
13.特征信息确定模块，用于确定正常无缺失数据集中每个数据的特征信息，得到带有特征的数据集；
14.模型训练模块，用于利用带有特征的数据集训练和测试机器学习模型，得到信贷违约预测模型；
15.预测模块，用于利用信贷违约预测模型进行个人违约预测。
16.根据本公开实施例的第三方面，提供一种电子设备，该电子设备可以包括：
17.处理器；
18.用于存储处理器可执行指令的存储器；
19.其中，处理器被配置为执行指令，以实现如第一方面的任一项实施例中所示的个
人信贷违约预测方法。
20.根据本公开实施例的第四方面，提供一种存储介质，当存储介质中的指令由信息处理装置或者服务器的处理器执行时，以使信息处理装置或者服务器实现以实现如第一方面的任一项实施例中所示的个人信贷违约预测方法。
21.本公开的实施例提供的技术方案至少带来以下有益效果：
22.本公开实施例通过获取源域数据和目标域数据并进行预处理，得到正常无缺失数据集；确定正常无缺失数据集中每个数据的特征信息，得到带有特征的数据集；利用带有特征的数据集训练和测试机器学习模型，得到信贷违约预测模型；利用信贷违约预测模型进行个人违约预测。能够得到精度更高的模型，更加充分的发掘数据集中有价值的信息，能够更好地挖掘用户信息。
23.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限值本公开。
附图说明
24.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。
25.图1是根据一示例性实施例示出的个人信贷违约预测方法流程示意图；
26.图2是根据一示例性实施例示出的个人信贷违约预测方法具体流程示意图；
27.图3是根据一示例性实施例示出的源域数据示意图；
28.图4是根据一示例性实施例示出的目标域数据示意图；
29.图5是根据另一示例性实施例示出的源域数据示意图；
30.图6是根据又一示例性实施例示出的目标域数据示意图；
31.图7是根据一示例性实施例示出的数据集构建流程图；
32.图8是根据一示例性实施例示出的个人信贷违约预测装置的结构示意图；
33.图9是根据一示例性实施例示出的计算设备的结构框图。
具体实施方式
34.为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。
35.需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
36.图1是本技术提供的个人信贷违约预测方法的一实施例的流程示意图。如图1所示，该个人信贷违约预测方法，包括：
37.步骤100：获取源域数据和目标域数据并进行预处理，得到正常无缺失数据集；
38.步骤200：确定正常无缺失数据集中每个数据的特征信息，得到带有特征的数据
集；
39.步骤300：利用带有特征的数据集训练和测试机器学习模型，得到信贷违约预测模型；
40.步骤400：利用信贷违约预测模型进行个人违约预测。
41.上述施例通过获取源域数据和目标域数据并进行预处理，得到正常无缺失数据集；确定正常无缺失数据集中每个数据的特征信息，得到带有特征的数据集；利用带有特征的数据集训练和测试机器学习模型，得到信贷违约预测模型；利用信贷违约预测模型进行个人违约预测。能够得到精度更高的模型，更加分的发掘数据集中有价值的信息，能够更好地挖掘用户信息。
42.在本技术的实施例中，预处理包括下述至少之一：
43.将源域数据和目标域数据进行缺失数据填充处理；
44.将源域数据和目标域数据进行缺失数据删除处理；
45.将源域数据和目标域数据进行异常值替换处理。
46.在本技术的实施例中，确定正常无缺失数据集中每个数据的特征信息，得到带有特征的数据集，包括：
47.构造正常无缺失数据集中每个数据的特征变量；
48.去除衍生变量中的冗余数据，得到带有简化变量的数据集；
49.将带有简化变量的数据集中衍生变量相似的进行归类，得到带有特征的数据集。
50.在本技术的实施例中，构造正常无缺失数据集中每个数据的衍生变量，包括：
51.利用运营商数据中的变量放大征信数据中的变量来构造衍生变量。
52.在本技术的实施例中，去除衍生变量中的冗余数据，得到带有简化变量的数据集，包括：
53.利用随机森林算法模型确定衍生变量的重要性；
54.将重要性低的衍生变量删除，得到带有简化变量的数据集。
55.在本技术的实施例中，机器学习模型包括：第一分类模型和第二分类模型；
56.第一分类模型是利用带有特征的数据集训练得到的；
57.第二分类模型是利用第一分类模型的识别结果训练得到的。
58.在本技术的实施例中，第一分类模型包括：lightgbm模型，第一logistics regression模型和xgboost模型；
59.第二分类模型为第二logistics regression模型。
60.上述实施例中数据集有两种，一种是相似场景的业务数据，称为源域数据，数据量较大，另一种是当前业务场景的数据即目标域数据，数据量较小,通常两种数据的比例为10:1这种程度。建模过程主要有六个步骤，数据预处理，构造衍生变量，特征筛选，筛选近似特征，构建模型，模型线上推理，具体流程图如图2所示。
61.s1：数据预处理。首先是缺失值的检测，若特征缺失值比例较小，使用其他不缺失样本的均值或众数进行填充，若缺失过多，则考虑删除此特征；对于异常数据，使用箱型图查找，根据具体情况判断是做样本删除还是做异常值替换。
62.s2：尝试构造衍生变量，增加特征变量的多样性。主要是利用运营商数据中的某些变量放大征信数据中的某些变量来构造衍生变量。例如下面两种组合例子：(一)尝试将运
营商数据中的用户手机金融类app个数与征信数据中的用户信用卡额度进行相乘组合，因为用户手机上app的个数越多，一般可以从侧面反映出用户的资金流充裕，通过这个变量与信用卡额度相乘(对于app个数为0的用户，默认其个数为1)，对信用卡额度这个变量进行放大，信用卡额度在违约建模中本来就是一个对模型影响较大的变量，结合用户手机上金融类 app的个数放大这个变量在各样本之间的差异，能够提高违约预测模型对这个变量的敏感度，从而提高模型准确率。(二)将用户每月实际消费额度和用户每月的套餐额度相除得出一个比值，该比值可以反映出用户每月的超支情况，可以间接反映出用户的规划能力和消费的稳定性，将该比值乘以信用卡的消费笔数，对信用卡消费笔数这一重要特征进行放大，从而提高模型的准确率。诸如此类用运营商数据放大征信数据中的变量，增大征信数据中该变量在样本之间的差异性，进而提高模型对该变量的敏感度，提高模型准确率。以此方式创建的衍生变量能够充分挖掘出变量中有价值的信息。其中，在数据处理层面，利用运营商数据和用户金融数据结合做衍生特征，能够提升模型的准确率。
63.s3：特征筛选，使用随机森林算法模型训练输出的feature_importances 得到每个特征的重要性信息，对于重要程度很低的特征，做删除处理。此步骤主要是为了去除冗余数据简化数据集，防止噪声数据影响模型效果，能够提升模型效率。
64.s4：筛选近似特征，由于业务场景还是存在一定的差异，因此我们要筛选出相似的特征来建模，通过画图观察每个特征数值的分布可以筛选出近似的特征。
65.s5：构造模型，构造前，先将30％目标域数据单独划分出来作为验证集。然后将剩下的70％目标域数据去和源域数据构造新数据集。模型分为两层，第一层由三个弱分类器构成，第二层由一个分类器构成。第一层：首先源域和目标域的特征只保留近似特征，提取源域中与目标域近似的样本，将近似样本与目标域样本合并成一个新数据集，用xgboost建立模型模型1，因为数据量较大，所以用集成模型能够更细致的挖掘数据中的重要信息；再用源域全部样本，只保留近似特征用逻辑回归建立模型2。此处之所以用逻辑回归，是因为近似业务场景还是有一定差异，而逻辑回归结构简单，模型泛化能力强，能够对实际业务场景有比较好的鲁棒性。最后用lightgbm对全部目标域数据建立模型模3。第二层：将验证集分别放到第一层的弱分类器上去推理，推理结果作为第二层的特征，用lr训练模型4。对源域数据和目标域数据进行不同组合得到三个子数据集，再在子数据集上分别训练弱分类器，并将弱分类器的推理结果作为另一个模型的特征训练新模型，新模型会有更好的效果。
66.其中三个数据子集组合如下，其中s表示一个样本，f表示一个特征；源域样本中有a个样本b个特征；目标域样本中有n个样本m个特征，如图3-4 所示；
67.图3和图4两个数据集中的深色部分，即近似特征下的相似样本提取合并为数据集1，建模模型1；
68.将图5源域数据的深色部分，即近似特征下的全部样本作为数据集2，建模模型2；
69.将图6目标域的全部数据作为数据集3，建模模型3。
70.整体的模型构建方案如图7所示，模型1的数据较丰富，采用集成机器学习算法能够更好的挖掘数据中的信息；模型2只有源域数据，考虑到没有用到目标域数据，因此只用简单的算法建模，虽然模型效果不如集成算法，但是对后续目标域数据的推理有更好的鲁棒性；模型3虽然数据较少，但是使用的是全部的目标域特征，为了充分挖掘数据中的信息，也使用集成机器学习算法。对于第二层模型，由于第一层几个模型已经充分的提取了数据
特征，所以第二层用简单的逻辑回归模型做个归纳。这种两层结构的模型除了能够提升模型准确率外，还能搞很好的避开信息泄露问题。
71.s6：模型线上使用时，没有源域数据这一说，只需把当前用户的金融数据和运营商数据一起进行第一、二、三、四步处理后再导入模型1、2、3进行推理，将推理结果1、2、3作为模型4的特征，放入模型4再次推理，即可得到最终的分类结果。当前用户的最终结果是0或1，即用户不违约与违约情况。
72.上述实施例将源域数据和目标域数据进行三种组合分别训练弱分类器，将推理结果作为另一个模型的特征去训练新模型，能够很好的提升模型准确率；将运营商数据结合用户金融数据做特征衍生，能够提高模型的准确率，且由于增加了数据的多样性,训练的模型具有更好的普适性。
73.基于同一发明构思，本公开实施例还提供了一种个人信贷违约预测装置，包括：
74.预处理模块，用于获取源域数据和目标域数据并进行预处理，得到正常无缺失数据集；
75.特征信息确定模块，用于确定正常无缺失数据集中每个数据的特征信息，得到带有特征的数据集；
76.模型训练模块，用于利用带有特征的数据集训练和测试机器学习模型，得到信贷违约预测模型；
77.预测模块，用于利用信贷违约预测模型进行个人违约预测。
78.上述实施例装置通过获取源域数据和目标域数据并进行预处理，得到正常无缺失数据集；确定正常无缺失数据集中每个数据的特征信息，得到带有特征的数据集；利用带有特征的数据集训练和测试机器学习模型，得到信贷违约预测模型；利用信贷违约预测模型进行个人违约预测。能够得到精度更高的模型，更加分的发掘数据集中有价值的信息，能够更好地挖掘用户信息。
79.在本技术的实施例中，所述预处理模块具体用于下述至少之一：
80.将所述源域数据和所述目标域数据进行缺失数据填充处理；
81.将所述源域数据和所述目标域数据进行缺失数据删除处理；
82.将所述源域数据和所述目标域数据进行异常值替换处理。
83.在本技术的实施例中，所述特征信息确定模块，包括：
84.特征变量构造单元，用于构造所述正常无缺失数据集中每个数据的特征变量；
85.除冗单元，用于去除所述衍生变量中的冗余数据，得到带有简化变量的数据集；
86.归类单元，用于将所述带有简化变量的数据集中衍生变量相似的进行归类，得到带有特征的数据集。
87.在本技术的实施例中，所述构造所述正常无缺失数据集中每个数据的衍生变量，包括：
88.利用运营商数据中的变量放大征信数据中的变量来构造衍生变量
89.在本技术的实施例中，所述除冗单元具体用于：
90.利用随机森林算法模型确定所述衍生变量的重要性；
91.将重要性低的衍生变量删除，得到带有简化变量的数据集。
92.在本技术的实施例中，所述机器学习模型包括：第一分类模型和第二分类模型；
93.所述第一分类模型是利用所述带有特征的数据集训练得到的；
94.所述第二分类模型是利用所述第一分类模型的识别结果训练得到的。
95.在本技术的实施例中，所述第一分类模型包括：lightgbm模型，第一 logistics regression模型和xgboost模型；
96.所述第二分类模型为第二logistics regression模型。
97.可选的，如图8所示，本技术实施例还提供一种电子设备800，包括处理器801，存储器802，存储在存储器802上并可在所述处理器801上运行的程序或指令，该程序或指令被处理器801执行时实现上述个人信贷违约预测方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
98.需要说明的是，本技术实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。
99.上述实施例电子设备通过获取源域数据和目标域数据并进行预处理，得到正常无缺失数据集；确定正常无缺失数据集中每个数据的特征信息，得到带有特征的数据集；利用带有特征的数据集训练和测试机器学习模型，得到信贷违约预测模型；利用信贷违约预测模型进行个人违约预测。能够得到精度更高的模型，更加分的发掘数据集中有价值的信息，能够更好地挖掘用户信息。
100.基于同一发明构思，本公开实施例还提供了一种电子设备，具体结合图9 进行详细说明。
101.图9为实现本技术实施例的一种电子设备的硬件结构示意图。
102.该电子设备900包括但不限于：射频单元901、网络模块902、音频输出单元903、输入单元904、传感器905、显示单元906、用户输入单元907、接口单元908、存储器909、以及处理器910等部件。
103.本领域技术人员可以理解，电子设备900还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器910逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图9中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。
104.应理解的是，本技术实施例中，输入单元904可以包括图形处理器 (graphics processing unit，gpu)9041和麦克风9042，图形处理器9041 对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元906可包括显示面板9061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板9061。用户输入单元 907包括触控面板9071以及其他输入设备9072。触控面板9071，也称为触摸屏。触控面板9071可包括触摸检测装置和触摸控制器两个部分。其他输入设备9072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。存储器909可用于存储软件程序以及各种数据，包括但不限于应用程序和操作系统。处理器910可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器910中。
105.上述实施例电子设备同样是通过获取源域数据和目标域数据并进行预处理，得到
正常无缺失数据集；确定正常无缺失数据集中每个数据的特征信息，得到带有特征的数据集；利用带有特征的数据集训练和测试机器学习模型，得到信贷违约预测模型；利用信贷违约预测模型进行个人违约预测。能够得到精度更高的模型，更加分的发掘数据集中有价值的信息，能够更好地挖掘用户信息。
106.本公开实施例还提供了一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，所述计算机可执行指令用于实现本公开实施例所记载的个人信贷违约预测方法。
107.上述实施例存储介质在被计算机执行时通过获取源域数据和目标域数据并进行预处理，得到正常无缺失数据集；确定正常无缺失数据集中每个数据的特征信息，得到带有特征的数据集；利用带有特征的数据集训练和测试机器学习模型，得到信贷违约预测模型；利用信贷违约预测模型进行个人违约预测。能够得到精度更高的模型，更加分的发掘数据集中有价值的信息，能够更好地挖掘用户信息。
108.在一些可能的实施方式中，本公开提供的方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在计算机设备上运行时，所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本公开各种示例性实施方式的方法中的步骤，例如，所述计算机设备可以执行本公开实施例所记载的个人信贷违约预测方法。
109.所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
110.本公开是参照根据本公开的方法、设备和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程信息处理设备的处理器以产生一个机器，使得通过计算机或其他可编程信息处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/ 或方框图一个方框或多个方框中指定的功能的装置。
111.这些计算机程序指令也可存储在能引导计算机或其他可编程信息处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
112.这些计算机程序指令也可装载到计算机或其他可编程信息处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
113.显然，本领域的技术人员可以对本公开进行各种改动和变型而不脱离本公开的精神和范围。这样，倘若本公开的这些修改和变型属于本公开权利要求及其等同技术的范围之内，则本公开也意图包含这些改动和变型在内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：数据可视化生成方法、装置、电子设备及存储介质与流程

个人信贷违约预测方法、装置、电子设备及存储介质与流程

相关文献

最热文献