技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种用于大数据联邦学习和AI挖掘的数据实体自动识别方法与流程 > 正文

一种用于大数据联邦学习和AI挖掘的数据实体自动识别方法与流程

国知局
2024-12-06 12:18:06

本发明涉及数据处理，特别是涉及一种用于大数据联邦学习和ai挖掘的数据实体自动识别方法。

背景技术：

1、在信息技术的蓬勃发展下，数据整合与分析已成为推动决策支持和业务洞察的关键力量。尽管数据分析的重要性日益凸显，但数据来源的多样性和数据格式的不一致性给数据的有效整合带来了挑战。特别是在异源数据库或数据表中，同类数据的字段名常常存在差异，这种现象被称为“数据实体异名”。数据实体异名不仅增加了数据合并的难度，也影响了联邦学习等高级数据应用的实施。

2、现有技术依赖人工匹配和规则设定来识别数据实体，这种方法不仅效率低下，而且容易受到主观判断的影响。例如，在合并两个数据库时，字段名的差异可能导致数据丢失或错误关联，影响分析结果的准确性；另外还有同类数据信息存在多个字段的现象，这时数据联合应用的效率更低。

技术实现思路

1、本发明所要解决的技术问题是提供一种用于大数据联邦学习和ai挖掘的数据实体自动识别方法，能够有效识别不同数据库中的同类数据字段。

2、本发明解决其技术问题所采用的技术方案是：提供一种用于大数据联邦学习和ai挖掘的数据实体自动识别方法，包括以下步骤：

3、计算每个字段值的字段值权重，并基于字段值权重选出候选实体，得到候选实体集；

4、将所述候选实体集中的字段转换为数据实体，并计算每两个数据实体间的向量余弦相似度；

5、根据所述向量余弦相似度得到数据实体等价关系图，并采用子图划分算法对所述数据实体等价关系图进行划分，得到数据实体等价关系子图。

6、所述计算每个字段值的字段值权重，并基于字段值权重选出候选实体，得到候选实体集，具体为：

7、统计字段值集合中的字段值的分布信息，并基于字段值的分布信息计算每个字段值的字段值权重；

8、构建包含每个字段值的字段集合；

9、在每个字段集合中，遍历任意两两字段，并根据字段值权重选出候选实体，得到候选实体集。

10、所述字段值权重通过计算weight＝tf×idf得到，其中，weight为字段值t的字段值权重，tf为字段值t的出现频率，表示为：wt表示字段值t在所述字段值集合中出现的次数，w表示所述字段值集合的总数，idf为逆文档频率，表示为：n为所有的字段值集合的数量总和，n为字段值t在所有的字段值集合中的数量。

11、所述根据字段值权重选出候选实体，得到候选实体集，具体为：

12、选取两个字段中最大的字段值权重；

13、将两个字段中的每个字段的字段值权重分别与选出的字段值权重进行累加，得到每个字段的累加字段值权重；

14、选出所述累加字段值权重超过阈值的字段，并将选出的字段作为候选实体，得到候选实体集。

15、所述将所述候选实体集中的字段转换为数据实体，并计算每两个数据实体间的向量余弦相似度，具体为：

16、将候选实体集中的每个字段转换为数值向量，所述数据向量作为所述字段的数据实体；

17、通过计算每两个数据向量的向量余弦相似度，得到每两个数据实体间的向量余弦相似度，其中，sim(e1,e2)表示数据实体e1和数据实体e2的向量余弦相似度。

18、所述采用子图划分算法对所述数据实体等价关系图进行划分，得到数据实体等价关系子图，具体为：

19、将所述数据实体等价关系图中的每个节点作为数据实体等价关系子图的起始单位；

20、遍历每一个节点，尝试将节点划分到其邻居节点所在的数据实体等价关系子图中，计算划分后的模块度差值q，并选取最大的模块度差值q；

21、若最大的模块度差值q大于0，且满足相似度约束条件，则将最大的模块度差值q对应的划分方式作为最终划分结果，否则，返回上一步直至最大的模块度差值q不再增大。

22、当不满足相似度约束条件时，移除节点与其并入的数据实体等价关系子图的所有的边。

23、所述的数据实体自动识别方法还包括：当所述最大的模块度差值q不再增大时，将同一个数据实体等价关系子图内的所有节点压缩成一个新节点，数据实体等价关系子图内边的权重转化为所述新节点与自身的权重，数据实体等价关系子图内的边权重转化为所述新节点之间的边权重。

24、所述模块度差值q通过计算得到，其中，∑in表示划分的数据实体等价关系子图g内部连接边的权重和，σout表示划分的数据实体等价关系子图g连接边以及与其相连的外部边的权重和，n′为划分的数据实体等价关系子图g内部的节点数。

25、本发明解决其技术问题所采用的技术方案是：提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述数据实体自动识别方法的步骤。

26、有益效果

27、由于采用了上述的技术方案，本发明与现有技术相比，具有以下的优点和积极效果：本发明通过向量相似度计算和子图划分来识别数据实体，通过分析字段内大多数数据的特征，实现了数据实体的自动化识别，显著提升了数据处理的效率和准确性，本发明克服了传统依赖人工匹配方法的低效率和主观性问题，同时增强了数据融合的质量，减少了数据丢失和错误关联的风险。

技术特征：

1.一种用于大数据联邦学习和ai挖掘的数据实体自动识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的用于大数据联邦学习和ai挖掘的数据实体自动识别方法，其特征在于，所述计算每个字段值的字段值权重，并基于字段值权重选出候选实体，得到候选实体集，具体为：

3.根据权利要求2所述的用于大数据联邦学习和ai挖掘的数据实体自动识别方法，其特征在于，所述字段值权重通过计算weight＝tf×idf得到，其中，weight为字段值t的字段值权重，tf为字段值t的出现频率，表示为：wt表示字段值t在所述字段值集合中出现的次数，w表示所述字段值集合的总数，idf为逆文档频率，表示为：

4.根据权利要求2所述的用于大数据联邦学习和ai挖掘的数据实体自动识别方法，其特征在于，所述根据字段值权重选出候选实体，得到候选实体集，具体为：

5.根据权利要求1所述的用于大数据联邦学习和ai挖掘的数据实体自动识别方法，其特征在于，所述将所述候选实体集中的字段转换为数据实体，并计算每两个数据实体间的向量余弦相似度，具体为：

6.根据权利要求1所述的用于大数据联邦学习和ai挖掘的数据实体自动识别方法，其特征在于，所述采用子图划分算法对所述数据实体等价关系图进行划分，得到数据实体等价关系子图，具体为：

7.根据权利要求6所述的用于大数据联邦学习和ai挖掘的数据实体自动识别方法，其特征在于，当不满足相似度约束条件时，移除节点与其并入的数据实体等价关系子图的所有的边。

8.根据权利要求6所述的用于大数据联邦学习和ai挖掘的数据实体自动识别方法，其特征在于，还包括：当所述最大的模块度差值q不再增大时，将同一个数据实体等价关系子图内的所有节点压缩成一个新节点，数据实体等价关系子图内边的权重转化为所述新节点与自身的权重，数据实体等价关系子图内的边权重转化为所述新节点之间的边权重。

9.根据权利要求6所述的用于大数据联邦学习和ai挖掘的数据实体自动识别方法，其特征在于，所述模块度差值q通过计算得到，其中，∑in表示划分的数据实体等价关系子图g内部连接边的权重和，∑out表示划分的数据实体等价关系子图g连接边以及与其相连的外部边的权重和，n′为划分的数据实体等价关系子图g内部的节点数。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-9中任一所述数据实体自动识别方法的步骤。

技术总结本发明涉及一种用于大数据联邦学习和AI挖掘的数据实体自动识别方法，包括：计算每个字段值的字段值权重，并基于字段值权重选出候选实体，得到候选实体集；将所述候选实体集中的字段转换为数据实体，并计算每两个数据实体间的向量余弦相似度；根据所述向量余弦相似度得到数据实体等价关系图，并采用子图划分算法对所述数据实体等价关系图进行划分，得到数据实体等价关系子图。本发明能够有效识别不同数据库中的同类数据字段，提升了数据处理的效率和准确性。技术研发人员：汤文巍受保护的技术使用者：汤文巍技术研发日：技术公布日：2024/12/2