一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于银行交易流水企业上下游数据挖掘方法与流程

2022-02-22 19:48:44 来源:中国专利 TAG:


1.本发明涉及金融技术领域,尤其涉及一种基于银行交易流水企业上下游数据挖掘方法。


背景技术:

2.数据挖掘技术已经应用到各个行业,充分挖掘了数据的价值。对企业上下游关系的提取和挖掘方法也是数据挖掘技术的领域的范畴。
3.目前现有的技术方案主要围绕企业的招投标数据,基于招投标的信息构建交易网络图,基于图神经网络算法计算企业之间的上下游关系的置信度。
4.基于企业招投标数据获取成本较大,另外招投标数据反应的企业行为数据粒度比较粗糙,时间跨度参差不齐。
5.基于图神经网络模型的上下游关系确定,需要准备大量的标注数据作为训练,成本较高,另外结果的可解释性低。


技术实现要素:

6.鉴于上述问题,提出了本发明一种基于银行交易流水企业上下游数据挖掘方法。
7.根据本发明的一个方面,提供了一种基于银行交易流水企业上下游数据挖掘方法,所述数据挖掘方法包括:
8.定期从数仓平台采集对公客户交易流水数据的事件表,获取近一年的交易数据;
9.数据清洗程序对数据进行清洗,规范客户名称字段,保证每个客户的唯一性,另外保留满足交易双方交易次数大于等于4次的数据;
10.计算最近两次相邻转账间隔天数;
11.计算1年内交易相邻转账间隔天数平均值和标准差;
12.计算1年内交易转账金额平均金额;
13.计算上下游关系可信度得分;
14.计算当前关系强弱变化,包含渐强、减弱、不变。
15.可选的,所述计算最近两次相邻转账间隔天数具体包括:
16.1年内交易时间序列如下:
17.date1,date2,date3,

,daten18.1年内相邻转账间隔天数序列如下:
19.d
n-1
=date
n-date
n-1
20.得到转账间隔天数序列:
21.d1,d2,d3,

,d
n-1
22.计算最近两次相邻转账间隔天数,相邻转账间隔序列最后一个值d
n-1

23.可选的,所述计算1年内交易相邻转账间隔天数平均值和标准差具体包括:
24.1年内相邻转账间隔天数平均值dm:
[0025][0026]
1年内相邻转账间隔天数标准差ds:
[0027][0028]
可选的,所述计算1年内交易转账金额平均金额具体包括:
[0029]
1年内交易转账金额序列如下:
[0030]
m1,m2,m3,

,mn[0031]
1年内交易转账金额平均金额mm:
[0032][0033]
1年交易金额中最近两笔转账平均金额mml:
[0034][0035]
可选的,所述计算上下游关系可信度得分具体包括:
[0036]
可信度得分计算公式:
[0037][0038]
其中,ds为1年内相邻转账间隔天数标准差,dm为1年内相邻转账间隔天数均值。
[0039]
可选的,所述计算当前关系强弱变化具体包括:
[0040]
计算当前关系强弱变化值:
[0041][0042]
其中,d
n-1
为最近两次相邻转账间隔天数,dm为1年内相邻转账间隔天数均值,mml为1年交易金额中最近两笔转账平均金额。
[0043]
本发明提供的一种基于银行交易流水企业上下游数据挖掘方法,所述数据挖掘方法包括:定期从数仓平台采集对公客户交易流水数据的事件表,获取近一年的交易数据;数据清洗程序对数据进行清洗,规范客户名称字段,保证每个客户的唯一性,另外保留满足交易双方交易次数大于等于4次的数据;计算最近两次相邻转账间隔天数;计算1年内交易相邻转账间隔天数平均值和标准差;计算1年内交易转账金额平均金额;计算上下游关系可信度得分;计算当前关系强弱变化,包含渐强、减弱、不变。精准的记录了不同企业当前和历史的真实交易情况。提高了数据的准确度。
[0044]
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够
更明显易懂,以下特举本发明的具体实施方式。
附图说明
[0045]
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0046]
图1为本发明实施例提供的一种基于银行交易流水企业上下游数据挖掘方法的流程图。
具体实施方式
[0047]
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0048]
本发明的说明书实施例和权利要求书及附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元。
[0049]
下面结合附图和实施例,对本发明的技术方案做进一步的详细描述。
[0050]
如图1所示,步骤s1:通过etl作业从数仓平台采集对公客户交易流水数据的事件表,获取近一年的交易数据。
[0051]
具体就是通过时间筛选条件,选出周期为1年的交易流水数据以及客户类型限制对公账户,具体数据形式如表一。
[0052]
表一
[0053][0054][0055]
步骤s2:通过数据清洗程序对数据进行清洗,规范账户名称字段,保证每个账户名称的唯一性,另外保留满足交易双方交易次数大于等于4次的数据。
[0056]
具体操作,将选择的数据进行账户名称字段进行简单的两端去空格,以及对数据缺失数据进行删除。其次通过以交易双方账户名称作为维度聚合统计,筛选出相同的交易账户贡献频次大于等于4次的数据集,比如企业2和企业3在近一年内交易次数只有一次,需要删除,整理完的结果如表二。
[0057]
表二
[0058][0059]
步骤s3:构建评价指标,计算最近两次相邻转账间隔天数。
[0060]
具体操作,以交易双方账户名称作为维度整合交易时间,并将时间从小到到大排序后整合成一个序列,具体见表3.1,并对序列中的值进行计算相邻两项的天数差,形成间隔天数序列,具体见表3.2。最后提取间隔天数序列的最后的值为最近两次相邻转账间隔天数,详情见表3.3。
[0061]
表3.1
[0062][0063]
表3.2
[0064][0065][0066]
表3.3
[0067][0068]
步骤s4:构建评价指标,计算1年内交易相邻转账间隔天数平均值和标准差;
[0069]
具体对s3的计算结果中每一行的中间隔天数序列d1,d2,d3,

,d
n-1
,进行求平均值和标准差。具体公式为:
[0070]
相邻转账间隔天数平均值dm:
[0071][0072]
相邻转账间隔天数标准差ds:
[0073][0074]
具体结果详见表4。
[0075]
表4:
[0076][0077][0078]
步骤s5:构建评价指标,计算1年内交易转账金额平均金额;
[0079]
具体方式是以交易双方账户名称作为维度整合交易金额,按照时间顺序将交易金额整合为一个序列m1,m2,m3,

,mn,详见表5.1;
[0080]
表5.1
[0081][0082]
对金额序列求均值,具体公式
[0083][0084]
表5.2
[0085][0086]
然后再提取金额序列的后两项,计算最近两笔转账平均金额,再通过公式,
[0087][0088]
具体详见表5.3.
[0089]
表5.3
[0090][0091]
步骤s6:计算上下游关系可信度得分。具体操作是将s4和s5表进行按照账户名称和对方账户名称作为主键进行表合并,得到的结果如表6.1
[0092]
表6.1
[0093][0094]
通过上下游关系可信度得分计算公式
[0095][0096]
计算每行的得分,结果如表6.2
[0097][0098]
步骤s7:计算当前关系强弱变化,包含渐强、减弱、不变。
[0099]
具体方法,根据当前关系强弱变化值计算公式
[0100][0101]
计算出所有的当前关系强弱指标,通过s6和s7的结果
[0102]
结果如表7。
[0103]
表7
[0104][0105]
有益效果:基于银行交易数据对银行来讲,属于银行的数据资产,获取成本低,并
且精准的记录了不同企业当前和历史的真实交易情况。提高了数据的准确度。
[0106]
基于银行交易数据,挖掘能反应的企业上下游关系的特征指标,并用特征指标构建评价体系,能够减少数据标注成本,可解释性较强。
[0107]
以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献