数据管理的系统和方法与流程
- 国知局
- 2024-12-06 13:09:09
本发明涉及数据管理。
背景技术:
1、联邦学习是一种机器学习技术,它在保存本地数据样本的多个设备或服务器上训练算法,而无需交换这些数据样本。纵向联邦学习是两个数据集共享相同的数据对象空间,但特征空间不同的示例。在纵向联邦学习(vertical federated learning,vfl)中,数据对象可以具有多个不同的属性。此外,不同方可能只能够访问和控制与同一数据对象相关联的属性的子集。
2、vfl中的一个阶段是标识各方共享的相同数据对象,这可以称为“交集”。在标准的vfl中,这是通过隐私集合求交(private set intersection,psi)协议实现的,其中不同方交换自己的加密信息来计算交集。数据对象利用某些普遍可标识的信息,这些信息可以用于标识跨组织的数据对象。常见的方法是通过使用一些可标识的信息(例如,电话号码和电子邮件地址)。在各方获得交集的可标识信息之后,各方可以基于交集联合训练模型。然而,在通信网络中,数据对象在不同方数据库中可能具有不同的标识符。因此,如果各方使用psi交换自己的加密信息,则各方将无法找到任何交集。
3、因此,需要不受现有技术的一个或多个限制影响的用于对齐私有可标识信息的技术。
4、针对以下挑战提供此背景信息:如何通过启用与相同数据对象相关联的信息来标识来自不同方的信息。与来自不同方的信息相关联的数据项应该由vfl联合训练。
技术实现思路
1、本发明的实施例的目的是提供一种用于数据管理的系统和方法。根据本发明的实施例,一种系统包括第一排序功能、第二排序功能和融合功能。
2、所述第一排序功能用于接收用于对来自第一源的第一数据集进行排序的第一排序指令,其中,所述第一排序指令按顺序指示数据对象,所述第一数据集包括其中至少一个与所述数据对象当中的所述数据对象相关的第一数据项。所述第一排序功能还用于对所述第一数据集进行排序,即通过将对应于同一数据对象的所有数据项从所述第一数据项分组到同一组中以获得一个或多个第一组,并且根据所述第一排序指令指示的所述数据对象的所述顺序对所述一个或多个第一组进行排序以获得第一排序数据集,其中,所述第一排序数据集用于生成第一处理后数据集。
3、所述第二排序功能用于接收用于对来自第二源的第二数据集进行排序的第二排序指令,其中,所述第二排序指令按所述顺序指示所述数据对象,所述第二数据集包括其中至少一个与所述数据对象当中的所述数据对象相关的数据项。所述第二排序功能还用于对所述第二数据集进行排序,即通过将对应于同一数据对象的所有所述数据项从第二数据项分组到同一组中以获得一个或多个第二组,并且根据所述第二排序指令指示的所述数据对象的所述顺序对所述一个或多个第二组进行排序;其中,所述第二排序数据集用于生成第二处理后数据集。
4、所述融合功能用于:获得所述第一处理后数据集和所述第二处理后数据集;融合所述第一处理后数据集和所述第二处理后数据集以获得单个融合数据集;将所述单个融合数据集发送到数据消费者。
5、技术优势可以是,本发明的实施例中的系统提供了一种通过标识与相同数据对象相关的这些数据项来实现来自不同数据集的数据项的对齐的技术。排序功能可以标识与同一数据对象相关的数据项,但无法标识特定数据对象,使得可以保护数据对象的隐私。
6、在一些实施例中,融合功能基于规则执行融合步骤,该规则也被称为融合规则。在该方法中,融合功能接收规则,指示融合与同一数据对象相关的组,并且还指示每个数据对象与一个或多个标识符相关。一个或多个标识符中的至少一个对应于所述第一处理后数据集,一个或多个标识符中的至少另一个对应于所述第二处理后数据集。可选地,该规则还包括一个或多个指示,用于指示一个或多个标识符中的至少一个与第一处理后数据集之间的映射,以及一个或多个标识符中的至少另一个与第二处理后数据集之间的映射。
7、技术优势可以是,根据规则,融合功能产生匿名融合数据项的单个融合集合,这些匿名融合数据项可以由应用使用,例如用于vfl。匿名融合数据项的融合集合与特定数据对象相关联,而匿名融合数据项的融合集合不标识特定数据对象。规则指示融合功能期望如何产生匿名融合数据项的融合集合,以便在数据对象在不同数据集中具有不同标识符的场景下支持应用。
8、在一些实施例中,规则还指示第一类型的级联,其中,基于指示执行融合步骤,使得将第一处理后组中的每个处理后数据项与第二处理后组中的一个处理后数据项级联。在一些实施例中,指示第二类型的级联,其中,基于指示执行融合步骤,使得将第一处理后组中的每个处理后数据项与第二处理后组中的多个处理后数据项级联。
9、技术优势可以是,当在包括不同大小的组的场景下将不同数据项关联到同一数据对象时,不同规则使得来自不同组的不同数据项能够级联。因此,与特定数据对象相关联的不同数量的数据项可以灵活地且正确地级联以支持vfl的应用。
10、上文结合本发明的各方面描述了实施例,这些实施例可以基于这些方面实现。本领域技术人员应理解,实施例可以结合描述它们的方面来实现,但也可以结合该方面的其他实施例来实现。当实施例相互排斥或以其他方式彼此不相容时,对于本领域技术人员来说将是显而易见的。一些实施例可以结合一个方面进行描述,但也可以适用于其他方面,这对本领域技术人员来说将是显而易见的。
技术特征:1.一种用于数据管理的方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述第一排序指令通过包括数据对象的第一标识符列表按顺序指示所述数据对象,所述第二排序指令通过包括数据对象的第二标识符列表按顺序指示所述数据对象。
3.根据权利要求2所述的方法,其特征在于,同一数据对象对应于所述第一列表和所述第二列表中的不同标识符。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述第一排序数据集排除与所述数据对象当中的任何数据对象不相关的任何第一数据项,所述第二排序数据集排除与所述数据对象当中的任何数据对象不相关的任何第二数据项。
5.根据权利要求1至4中任一项所述的方法,其特征在于,与所述数据对象相关的所述第一数据项或所述第二数据项中的所述至少一个包括所述数据对象的标识符。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述第二源不同于所述第一源。
7.根据权利要求1至6中任一项所述的方法,其特征在于,来自所述第一组或所述第二组的至少一个组包括单个数据项。
8.根据权利要求1至7中任一项所述的方法,其特征在于,
9.根据权利要求8所述的方法,其特征在于,
10.根据权利要求8或9所述的方法,其特征在于,
11.根据权利要求9或10所述的方法,其特征在于,所述特定的第一处理后组中的每个处理后数据项和所述特定的第二处理后组中的每个处理后数据项与所述同一数据对象相关,并且融合步骤包括:
12.根据权利要求11所述的方法,其特征在于,所述融合步骤基于规则,所述方法还包括:
13.根据权利要求12所述的方法,其特征在于,所述规则还包括一个或多个指示,指示所述一个或多个标识符中的所述至少一个与所述第一处理后数据集之间的映射,以及所述一个或多个标识符中的所述至少另一个与所述第二处理后数据集之间的映射。
14.根据权利要求12或13所述的方法,其特征在于,所述规则还包括指示所述第一处理后数据集的数据集标识符和指示所述第二处理后数据集的另一数据集标识符。
15.根据权利要求14所述的方法,其特征在于,所述方法还包括在所述融合步骤之前:
16.根据权利要求12至15中任一项所述的方法,其特征在于,所述规则还指示第一类型的级联,其中,基于所述指示执行所述融合步骤,使得所述第一处理后组中的每个处理后数据项与所述第二处理后组中的一个处理后数据项级联。
17.根据权利要求12至15中任一项所述的方法,其特征在于,所述规则还指示第二类型的级联,其中,基于所述指示执行所述融合步骤,使得所述第一处理后组中的每个处理后数据项与所述第二处理后组中的多个处理后数据项级联。
18.根据权利要求1至17中任一项所述的方法,其特征在于,所述第一排序指令是从控制器发送的并且包括标识所述第一数据集的信息,所述第二排序指令是从所述控制器发送的并且包括标识所述第二数据集的信息。
19.根据权利要求18所述的方法,其特征在于,所述第一排序指令还包括标识所述第一排序数据集的信息,所述第二排序指令还包括标识所述第二排序数据集的信息。
20.根据权利要求18所述的方法,其特征在于,所述方法还包括:
21.根据权利要求19或20所述的方法,其特征在于,响应中标识所述第一排序数据集的所述信息与标识所述第一数据集的所述信息相同,所述响应中标识所述第二排序数据集的所述信息与标识所述第二数据集的所述信息相同。
22.根据权利要求19至21中任一项所述的方法,其特征在于,所述方法还包括:
23.根据权利要求18所述的方法,其特征在于,所述方法还包括:
24.一种通信系统,所述通信系统包括第一排序功能、第二排序功能和融合功能,其特征在于:
25.根据权利要求24所述的通信系统,其特征在于,所述第一排序指令用于通过包括数据对象的第一标识符列表按顺序指示所述数据对象,所述第二排序指令用于通过包括数据对象的第二标识符列表按顺序指示所述数据对象。
26.根据权利要求25所述的通信系统,其特征在于,同一数据对象对应于所述第一列表和所述第二列表中的不同标识符。
27.根据权利要求24至26中任一项所述的通信系统,其特征在于,所述第一排序数据集排除与所述数据对象当中的任何数据对象不相关的任何第一数据项,所述第二排序数据集排除与所述数据对象当中的任何数据对象不相关的任何第二数据项。
28.根据权利要求24至27中任一项所述的通信系统,其特征在于,与所述数据对象相关的所述第一数据项或所述第二数据项中的所述至少一个包括所述数据对象的标识符。
29.根据权利要求24至28中任一项所述的通信系统,其特征在于,所述第二源不同于所述第一源。
30.根据权利要求24至29中任一项所述的通信系统,其特征在于,来自所述第一组或所述第二组的至少一个组包括单个数据项。
31.根据权利要求24至30中任一项所述的通信系统,其特征在于,所述通信系统还包括用于执行第一处理后数据集的所述生成的第一处理功能和用于执行第二处理后数据集的所述生成的第二处理功能,其中
32.根据权利要求31所述的通信系统,其特征在于,
33.根据权利要求31或32所述的通信系统,其特征在于,
34.根据权利要求32或33所述的通信系统,其特征在于,所述特定的第一处理后组中的每个处理后数据项和所述特定的第二处理后组中的每个处理后数据项与所述同一数据对象相关,并且融合步骤包括:
35.根据权利要求34所述的通信系统,其特征在于,所述融合步骤基于规则,所述融合功能还用于:
36.根据权利要求35所述的通信系统,其特征在于,所述规则还包括一个或多个指示,指示所述一个或多个标识符中的所述至少一个与所述第一处理后数据集之间的映射,以及所述一个或多个标识符中的所述至少另一个与所述第二处理后数据集之间的映射。
37.根据权利要求35或36所述的通信系统,其特征在于,所述规则还包括指示所述第一处理后数据集的数据集标识符和指示所述第二处理后数据集的另一数据集标识符。
38.根据权利要求37所述的通信系统,其特征在于,所述融合功能还用于在所述融合步骤之前:
39.根据权利要求35至38中任一项所述的通信系统,其特征在于,所述规则还指示第一类型的级联,其中,基于所述指示执行所述融合步骤,使得所述第一处理后组中的每个处理后数据项与所述第二处理后组中的一个处理后数据项级联。
40.根据权利要求35至38中任一项所述的通信系统,其特征在于,所述规则还指示第二类型的级联,其中,基于所述指示执行所述融合步骤,使得所述第一处理后组中的每个处理后数据项与所述第二处理后组中的多个处理后数据项级联。
41.根据权利要求24至40中任一项所述的通信系统,其特征在于,所述第一排序指令是从控制器发送的并且包括标识所述第一数据集的信息,所述第二排序指令是从所述控制器发送的并且包括标识所述第二数据集的信息。
42.根据权利要求41所述的通信系统,其特征在于,所述第一排序指令还包括标识所述第一排序数据集的信息,所述第二排序指令还包括标识所述第二排序数据集的信息。
43.根据权利要求41所述的通信系统,其特征在于,
44.根据权利要求42或43所述的通信系统,其特征在于,响应中标识所述第一排序数据集的所述信息与标识所述第一数据集的所述信息相同,所述响应中标识所述第二排序数据集的所述信息与标识所述第二数据集的所述信息相同。
45.根据权利要求42至44中任一项所述的通信系统,其特征在于,所述通信系统还包括控制器,所述控制器用于:
46.根据权利要求41所述的通信系统,其特征在于,所述控制器还用于:
技术总结提供了一种用于数据管理的系统和方法。在所述系统中,第一排序功能用于:接收用于对来自源的数据集进行排序的排序指令;对所述数据集进行排序,即通过将对应于同一数据对象的所有数据项从数据项分组到同一组中以获得一个或多个组并且对所述一个或多个组进行排序以获得排序数据集,其中,所述排序数据集用于生成处理后数据集。第二排序功能用于类似地根据关于不同数据集的不同排序指令获得不同的排序数据集。融合功能用于接收和融合处理后数据集以获得单个融合数据集,并且将所述单个融合数据集发送到数据消费者。技术研发人员:应必娣,李顼,杨晨晨,时伟森受保护的技术使用者:华为技术有限公司技术研发日:技术公布日:2024/12/2本文地址:https://www.jishuxx.com/zhuanli/20241204/343308.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表