技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种特征衍生系统的制作方法  >  正文

一种特征衍生系统的制作方法

  • 国知局
  • 2025-01-10 13:19:17

本发明属于特征衍生,具体是一种特征衍生系统。

背景技术:

1、建模人员开始建模之前都需要进行大量的数据探索及数据准备,通过变量加工衍生平台为建模人员提供大量准备好的衍生数据,并且提供了特征全生命周期的解决方案,建模人员可以拿来即用,节约大量数据探索及数据准备时间,让建模人员精力更多聚焦在建模本身。

2、目前,同行业也有一些特征衍生的解决方案。有些解决方案是只有sql衍生的方式,有的是只有模板衍生的方式,并且衍生完的结果放到大宽表中就结束了衍生的业务流程,衍生出的数据只能给模型开发时期使用,对于衍生的特征稳定性的相关监控需要算法人员自己进行分析,并且如果需要提供给模型运行使用,必须需要进行再次开发;这些解决方案或多或少的存在以下几个方面的不足,1、支持的衍生方式比较单一;2、没有有效的监控手段;3、衍生结果无法提供在线服务。

技术实现思路

1、鉴于上述问题,提出了本发明以便提供克服上述问题或者至少部分地解决上述问题的一种特征衍生系统。

2、为实现上述目的,本发明采用了如下技术方案:

3、一种特征衍生系统,所述系统包括:

4、python衍生模块,用于构建python衍生逻辑管理体系,支持数据自动处理与存储;

5、sql衍生模块,用于在配置页面支持用户直接编写并执行sql脚本,并自动化生成特征数据;

6、通用模板衍生模块,用于定义数据源、时间范围、处理逻辑及函数模板,并自动化执行特征衍生流程;

7、向导式衍生模块,用于自动化处理数据表读取和进行特征工程,并管理离线特征集市;

8、特征监控模块,用于保障模型性能免受数据漂移影响,识别并解决数据质量问题,并通过优化数据质量提升模型准确性。

9、可选的,所述系统还包括特征集市模块,所述特征集市模块包括:

10、配置集市基本信息,并选择特征;

11、配置完成保存后,将集市信息内的特征上线为在线服务;

12、根据执行策略,配置定时器执行策略;

13、定时器定时触发归集任务,归集任务根据选择的特征自动生成归集的sql脚本;

14、通过spark-client提交spark-submit命令到大数据平台执行;

15、大数据平台执行完成后回调执行结果。

16、可选的,所述python衍生模块包括:

17、编写python衍生脚本并进行衍生配置;

18、根据执行策略,配置定时器执行策略;

19、触发定时器,运行python衍生逻辑;

20、python衍生脚本运行完后,将衍生结果的文件自动上传至hdfs上,并记录存储地址;

21、上传hdfs后,将hdfs的数据保存至hive。

22、可选的,所述sql衍生模块包括:

23、进行衍生配置;

24、配置定时器执行策略;

25、触发定时器,运行sql衍生逻辑;

26、通过spark-client客户端提交spark-submit命令,进行衍生逻辑执行;

27、将衍生结果利用脚本中的spark直接保存到hive表中。

28、可选的,所述通用模板衍生模块包括:

29、根据页面指引配置信息;

30、配置完成保存后,根据配置的信息,自动按照查询条件进行笛卡尔积的排列组合,生成的数据解析成可执行的sql语句,将sql语句持久化;

31、完善解析出的字段信息、衍生结果保存的表信息和维度信息;

32、根据执行策略,配置定时器执行策略;

33、触发定时器,调用通用模板衍生逻辑;

34、通过spark-client客户端提交spark-submit命令;

35、同步将衍生结果保存到用户配置的hive表中。

36、可选的,所述根据页面指引配置信息包括:

37、选择衍生使用的原始数据表信息;

38、选择时间窗口字段,并配置时间窗口;

39、配置查询数据的条件;

40、配置指标及计算模板。

41、可选的,所述向导式衍生模块包括:

42、配置衍生逻辑;

43、配置引用已执行完成并且执行结果是执行成功的向导式衍生实例,并进行保存;

44、异步执行获取衍生实例中衍生结果的表结构信息;

45、完善解析出的字段信息、衍生结果保存的表信息和维度信息;

46、根据用户自己的执行策略,配置定时器执行策略;

47、触发定时器,调用向导式衍生逻辑,向导式服务衍生结束后通过kafka回调配置系统衍生结果;

48、配置系统接收到衍生结果后,触发衍生结果保存逻辑,将结果存储到用户配置的hive表中。

49、可选的,所述配置衍生逻辑包括:

50、选择衍生使用的原始数据表信息;

51、配置数据探索信息,并点击执行;

52、选择特征工程算子和超参,并开始执行;

53、执行完以后查看衍生结果数据信息。

54、可选的,所述特征监控模块包括:

55、定时将配置的衍生信息同步至大数据中;

56、将监控脚本上传至大数据平台;

57、监控服务接收计算结果,保存计算结果并供用户查看。

58、可选的,所述将监控脚本上传至大数据平台包括:

59、获取衍生配置信息;

60、根据配置信息中衍生结果保存的表以及字段信息,拉取监控的原始数据;

61、使用监控的原始数据进行监控指标计算;

62、监控指标计算结果保存到hive,并通过kafka同步给监控服务。

63、综上所述,由于采用了上述技术方案,本发明的有益效果是:

64、1.本发明支持丰富的衍生方式:有面向python研发人员的python衍生,有面向etl人员的sparksql的衍生方式,有面向数据分析人员的向导式衍生方式,还有面向业务人员的通用模板衍生方式。

65、2.本发明充分利用大数据平台可以支持海量数据的衍生任务:平台中的sql衍生,通用模板衍生,监控逻辑运行,集市数据发布都使用了大数据平台进行数据处理,大大提升了大数据量计算的能力。

66、3.本发明实现了低代码开发,大部分的流程都是配置化完成,平台中向导式衍生和通用模板衍生是无代码方式的衍生方式,监控服务及特征集市都是无代码方式的服务,python衍生和sql衍生除了运行的脚本其他衍生环节都是配置化完成。

技术特征:

1.一种特征衍生系统,其特征在于,所述系统包括:

2.如权利要求1所述的一种特征衍生系统,其特征在于,所述系统还包括特征集市模块,所述特征集市模块包括:

3.如权利要求1所述的一种特征衍生系统,其特征在于,所述python衍生模块包括:

4.如权利要求1所述的一种特征衍生系统,其特征在于,所述sql衍生模块包括:

5.如权利要求1所述的一种特征衍生系统,其特征在于,所述通用模板衍生模块包括:

6.如权利要求5所述的一种特征衍生系统,其特征在于,所述根据页面指引配置信息包括:

7.如权利要求1所述的一种特征衍生系统,其特征在于,所述向导式衍生模块包括:

8.如权利要求7所述的一种特征衍生系统,其特征在于,所述配置衍生逻辑包括:

9.如权利要求1所述的一种特征衍生系统,其特征在于,所述特征监控模块包括:

10.如权利要求9所述的一种特征衍生系统,其特征在于,所述将监控脚本上传至大数据平台包括:

技术总结本发明公开了一种特征衍生系统,包括:python衍生模块,用于构建Python衍生逻辑管理体系,支持数据自动处理与存储;sql衍生模块,用于在配置页面支持用户直接编写并执行SQL脚本;通用模板衍生模块,用于定义数据源、时间范围、处理逻辑及函数模板,并自动化执行特征衍生流程;向导式衍生模块,用于自动化处理数据表读取和进行特征工程;特征监控模块,用于保障模型性能免受数据漂移影响,识别并解决数据质量问题。本发明支持丰富的衍生方式:有面向python研发人员的python衍生,有面向ETL人员的sparkSql的衍生方式,有面向数据分析人员的向导式衍生方式,还有面向业务人员的通用模板衍生方式。技术研发人员:马东,韩阳,刘景璇受保护的技术使用者:龙盈智达(北京)科技有限公司技术研发日:技术公布日:2025/1/6

本文地址:https://www.jishuxx.com/zhuanli/20250110/352392.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。