技术新讯 > 计算推算,计数设备的制造及其应用技术 > 针对在线/离线时间点数据等同性的近实时特征模拟的制作方法 > 正文

针对在线/离线时间点数据等同性的近实时特征模拟的制作方法

国知局
2024-10-21 14:59:26

本申请涉及机器学习模型。

背景技术：

1、机器学习是指由计算设备实现以基于数据做出预测或决策而无需例如由用户明确地编程来这样做的技术。反而，使用训练数据来训练机器学习模型。机器学习模型是指可以基于输入被调整(例如，训练和再训练)以近似未知函数的计算机表示。特别地，术语机器学习模型可以包括如下模型，该模型利用算法通过对训练数据进行分析来学习和再学习以生成反映训练数据的模式和属性的输出，从而从已知数据进行学习并对已知数据作出预测。

2、特征工程是指用于将事件提取为可用于提高机器学习模型的训练、再训练和使用中的效率和准确性的“特征”的技术。例如，时间序列数据可以包括在特定时间点发生的多个事件。在一些示例中，时间序列数据被存储和重现以模拟时间点中的近实时(nrt)特征。这些模拟的nrt特征可以用作离线训练数据，其中基于训练数据来更新模型的权重和参数，直到机器学习模型被训练并准备好部署。

3、然而，在线数据处理中出现的不同类型的事件和不同类型的特征的不一致的时间延迟和时间序列数据中的大量并发事件没有被准确地反映在使用常规技术的离线模拟中。由于这些问题，用于离线nrt特征模拟的常规技术可能无法反映生产中的并发数据处理的定时和事件时间延迟的复杂性，从而导致当引入新的nrt特征时进行模型重新拟合以及这些模型的不期望的长的进入市场时间。

技术实现思路

1、描述了针对在线/离线时间点数据等同性的近实时特征模拟。计算设备可以将与近实时(nrt)变量相关联的一系列时间戳分配给一系列事件中的相应事件。计算设备可以基于该一系列时间戳来模拟与经由在线处理环境处理相应事件相关联的延迟时延。计算设备可以将一系列事件和模拟的延迟时延提供给机器学习模型，机器学习模型被配置成使用模拟的延迟时延对一系列事件的结果进行建模，从而提高机器学习模型的在线/离线特征匹配率。

2、本技术实现要素：以简化的形式介绍了一系列构思，这些构思在以下具体实施方式中进一步描述。因此，本发明内容不旨在标识所要求保护的主题的必要特征，也不旨在用于帮助确定所要求保护的主题的范围。

技术特征：

1.一种由一系列事件生成用于机器学习模型的训练数据的方法，包括：

2.根据权利要求1所述的方法，其中，将与近实时nrt变量相关联的一系列时间戳分配给所述一系列事件中的相应事件包括：

3.根据权利要求2所述的方法，其中，由所述相应事件生成丰富化事件包括：由预处理模块将与所述相应事件相关联的附加数据添加至所述相应事件，所述附加数据包括用户信息和事件上下文信息中的至少之一。

4.根据权利要求2所述的方法，还包括：接收限定所述nrt变量的特征选择逻辑，并且其中，基于所述一系列时间戳来模拟与经由在线处理环境处理所述相应事件相关联的延迟时延包括：

5.根据权利要求4所述的方法，其中，将与nrt变量相关联的一系列时间戳分配给所述一系列事件中的相应事件还包括：将与经由所述在线处理环境生成结果相关联的第三时间戳分配给所述相应事件，并且其中，所述模拟的延迟时延还基于所述第三时间戳。

6.根据权利要求1所述的方法，还包括将结果与所述一系列事件中的相应事件相关联，并且其中，所述结果还被提供给所述机器学习模型。

7.根据权利要求1所述的方法，其中，为了使用所述模拟的延迟时延对所述一系列事件的结果进行建模，所述机器学习模型被配置为离线时间点特征模拟。

8.一种针对一系列事件训练机器学习模型的方法，包括：

9.根据权利要求8所述的方法，其中，所述模拟延迟还基于经由与所述离线模拟模块电子通信的特征工程用户接口接收的特征选择逻辑来生成。

10.根据权利要求9所述的方法，其中，所述特征选择逻辑被配置为领域特定语言。

11.根据权利要求9所述的方法，其中，所述特征选择逻辑限定要在所述一系列建模结果中进行模拟的近实时特征。

12.根据权利要求8所述的方法，其中，对于所述一系列事件中的给定事件，与所述一系列事件相关联的一系列时间包括：与所述给定事件的发布时间相关联的第一时间以及与经由预处理模块由所述给定事件生成丰富化事件相关联的第二时间戳。

13.根据权利要求12所述的方法，其中，与所述一系列事件相关联的一系列时间还包括第三时间戳，所述第三时间戳与经由对所述一系列事件的在线处理来生成所述一系列结果中的针对所述给定事件的结果相关联。

14.一种计算系统，包括：

15.根据权利要求14所述的计算系统，其中，所述模拟延迟包括针对一组丰富化事件和针对一组nrt变量类型的全局恒定延迟。

16.根据权利要求14所述的计算系统，其中，所述模拟延迟包括针对每个丰富化事件类型的恒定延迟，所述恒定延迟被配置成基于所记录的延迟时延。

17.根据权利要求14所述的计算系统，其中，所述模拟延迟包括由时延延迟模型生成的自适应延迟。

18.根据权利要求14所述的计算系统，其中，所述模拟延迟至少基于所测量的第一延迟的第一概率期望水平和所测量的第二延迟的第二概率期望水平。

19.根据权利要求18所述的计算系统，其中，所述第一概率期望水平是第95百分位等级p95。

20.根据权利要求18所述的计算系统，其中，所述第二概率期望水平是第99百分位等级p99。

技术总结描述了针对在线/离线时间点数据等同性的近实时特征模拟。计算设备可以将与近实时(NRT)变量相关联的一系列时间戳分配给一系列事件中的相应事件。计算设备可以基于一系列时间戳来模拟与经由在线处理环境处理相应事件相关联的延迟时延。计算设备可以将一系列事件和所模拟的延迟时延提供给机器学习模型，该机器学习模型被配置成使用所模拟的延迟时延对一系列事件的结果进行建模。技术研发人员：李杰,李欣,石俊娟,唐颖婷,王奕恒,俞育才,朱冠胜受保护的技术使用者：电子湾有限公司技术研发日：技术公布日：2024/10/17