一种基于聚类算法的算薪结果校验方法、装置及设备与流程
- 国知局
- 2024-11-25 15:04:55
本说明书实施例涉及数据处理,尤其涉及一种基于聚类算法的算薪结果校验方法、装置及设备。
背景技术:
1、随着金融科技领域的迅速发展,为助力企业数字化转型,降低企业运营成本,智能算薪业务帮助企业整合薪酬代发、人事、财务、假勤等功能于一体,为各个企业薪资计算和统计带来了极大的便利。智能算薪主要是通过设定员工的薪酬档案数据、同步考勤等信息、手工导入员工的浮动薪资项数据,最终通过用户设定的相应计算公式得出最终的应发工资数额。但在算薪过程中,因人为因素的参与,例如手动导入浮动数据有偏差、公式设定修改有误等因素影响,算薪结果可能会产生较大的误差,由此会对企业或员工带来一定的经济损失的风险。
2、现有技术中更为关注算薪的计算过程优化,而较少关注到算薪结果的校验。针对算薪结果的校验,现有主流的方案较为单一,主要是通过人工方式进行比对核算,即针对薪资表中每个人的薪资项数据逐一进行核对,并由财务人员进行二次手工核算来确保算薪结果无误。部分智能算薪工具会提供规则设定方式来进行简单的薪资项校验,即为每个薪资项设定一个最高阈值和最低阈值,来限定薪资项的合理范围。上述算薪结果校验方法较为简单,检验粒度较粗,无法从现有算薪数据中发掘出潜在的数据关系,难以做到异常结果精确识别、快速定位。
3、目前亟需一种基于聚类算法的智能算薪结果校验方法,能够准确推理出算薪结果校验异常点,以达到快速、精准识别异常结果的目的,提升金融算薪服务的使用体验。
技术实现思路
1、为解决现有技术中产品推荐方法的普适性较差,准确性低的问题,本说明书实施例提供了一种基于聚类算法的算薪结果校验方法、装置及设备,可以从不同层面快速校验出异常的算薪结果,并根据历史比对异常点和同批次异常点生成综合性的算薪结果的校验结果,进行及时预警,帮助用户对异常算薪数据进行快速定位和排查。同时,通过机器学习相关算法实现自动化校验流程,大幅降低人力成本,提升识别效率。本说明书实施例的具体技术方案如下:
2、一方面,本说明书实施例提供了一种基于聚类算法的算薪结果校验方法,包括:
3、获取历史算薪数据,以所述历史算薪数据中各算薪项及算薪结果作为算法的特征维度构建历史基线数据样本;
4、基于基线时间滑动窗口机制对所述历史基线数据样本进行数据过滤,根据过滤后的所述历史基线数据样本构建历史基线数据集;
5、获取同批次的待校验算薪数据,选定与所述历史基线数据集相同的维度特征构建待校验测试数据集;
6、构建算薪结果聚类模型训练算法,使用所述历史基线数据集以及所述待校验测试数据集进行训练,分别生成基线聚类模型和待检测聚类模型;
7、根据所述待校验测试数据集中的每一待校验算薪数据与所述基线聚类模型的根据距离进行分类,将不属于任何类簇的校验算薪数据标为历史比对异常点;
8、将所述待校验测试数据集围绕所述待检测聚类模型进行同批次数据聚类处理,找出其不属于任何类簇的待校验算薪数据标为同批次异常点;
9、对所述历史比对异常点和所述同批次异常点进行排序,生成算薪结果的校验结果。
10、进一步的,获取历史算薪数据,以所述历史算薪数据中各算薪项及算薪结果作为算法的特征维度构建历史基线数据样本进一步包括,
11、获取各算薪项的属性以及该属性在所述历史算薪数据中的均值和标准差;
12、根据所述均值和标准差对所述历史算薪数据进行标准化映射,消除各算薪项属性间的量纲差异影响;
13、根据所述标准化映射后的算薪项属性以及算薪结果作为算法的特征维度构建历史基线数据样本。
14、进一步的,获取同批次的待校验算薪数据,选定与所述历史基线数据集相同的维度特征构建待校验测试数据集进一步包括,
15、对所述待校验算薪结果数据中各算薪项属性进行标准化映射,使所述待校验算薪结果数据中各算薪项映射标尺与历史基线数据集标尺保持一致;
16、根据所述各算薪项映射标尺进行待校验算薪结果数据处理,构建所述待校验测试数据集。
17、进一步的,构建算薪结果聚类模型训练算法进一步包括,
18、根据数据样本进行密度聚类,以欧式距离为标尺形成多个任意空间形状的薪酬关系类簇核心对象集;
19、设定邻域半径参数ε,邻域最小样本数阈值minpts;构建初始核心对象集合ω为空集,依次计算所述历史基线数据样本d中任一样本xj与其余样本xi的欧式距离,设样本空间是n维实数向量距离公式为:
20、
21、针对向量xj,其ε-邻域由包含样本集d中与xj的距离不大于ε的样本数据构成,即满足公式:nε(xj)={xi∈d|dist(xi,xj)≤ε}
22、针对每个样本,若其ε-邻域的样本个数不小于minpts,则该样本称为核心对象,即核心对象满足下述公式要求:
23、|nε(xj)|≥minpts
24、将算薪样本集所有的核心对象加入到核心对象集ω中,得到核心对象模型model=ω。
25、进一步的,使用所述历史基线数据集以及所述待校验测试数据集进行训练,分别生成基线聚类模型和待检测聚类模型进一步包括,
26、通过所述聚类模型训练算法计算所述历史基线数据集,构建出所述基线聚类模型model1=ω1,包含历史基线数据集密度聚类后所有的核心对象;
27、通过所述聚类模型训练算法计算待检测数据集,构建出所述待检测聚类模型model2=ω2,包含所述待校验测试数据集密度聚类后所有的核心对象。
28、进一步的,对所述历史比对异常点和所述同批次异常点进行排序进一步包括,
29、当所述基线聚类模型的核心对象集则不进行基线推理流程以同批次异常结果推理分析为准;
30、当所述基线聚类模型的核心对象集时,则通过其内聚数据特征进行历史基线异常推理生成所述历史比对异常点。
31、另一方面,本说明书实施例还提供了一种基于聚类算法的算薪结果校验装置,所述装置包括:
32、历史样本获取单元,用于获取历史算薪数据,以所述历史算薪数据中各算薪项及算薪结果作为算法的特征维度构建历史基线数据样本;
33、历史基线获取单元,用于基线时间滑动窗口机制对所述历史基线数据样本进行数据过滤,根据过滤后的所述历史基线数据样本构建历史基线数据集;
34、待校验测试数据集获取单元,用于获取同批次的待校验算薪数据,选定与所述历史基线数据集相同的维度特征构建待校验测试数据集;
35、训练算法构建单元,用于构建算薪结果聚类模型训练算法,使用所述历史基线数据集以及所述待校验测试数据集进行训练,分别生成基线聚类模型和待检测聚类模型;
36、历史异常点比对单元,用于根据所述待校验测试数据集中的每一待校验算薪数据与所述基线聚类模型的根据距离进行分类,将不属于任何类簇的校验算薪数据标为历史比对异常点;
37、同批次异常点比对单元,用于将所述待校验测试数据集围绕所述待检测聚类模型进行同批次数据聚类处理,找出其不属于任何类簇的待校验算薪数据标为同批次异常点;
38、校验结果生成单元,用于对所述历史比对异常点和所述同批次异常点进行排序,生成算薪结果的校验结果。
39、另一方面,本说明书实施例还提供了一种计算机设备,包括存储器、处理器、以及存储在存储器上的计算机程序,处理器执行所述计算机程序时实现上述的方法。
40、另一方面,本说明书实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法。
41、最后,本说明书实施例还提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述的方法。
42、利用本说明书实施例,提供一种因算薪项数据不准确、算薪流程中公式有偏差等因素而导致算薪结果异常的校验方案。本方案通过获取历史算薪数据以及同批次的待校验算薪数据并分别进行相同的预处理,从而发掘出算薪结果和各属性之间潜在的联系;然后基于基线时间滑动窗口机制对历史基线数据样本进行数据过滤,并构建算薪结果聚类模型训练算法,分别生成基线聚类模型和待检测聚类模型;然后以同批次待校验算薪数据横向聚类对比,找出其不属于任何类簇的待校验算薪数据标为同批次异常点;并将待校验算薪数据与历史基线纵向聚类对比将不属于任何类簇的校验算薪数据标为历史比对异常点;从两种角度,发掘出聚类后的离群点为异常数据点,从不同层面快速校验出异常的算薪结果,最后对历史比对异常点和同批次异常点进行排序,生成算薪结果的校验结果,进行及时预警,帮助用户对异常算薪数据进行快速定位和排查。同时,通过机器学习相关算法实现自动化校验流程,大幅降低人力成本,提升识别效率。
本文地址:https://www.jishuxx.com/zhuanli/20241125/336033.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表