技术新讯 > 计算推算,计数设备的制造及其应用技术 > 数据融合方法、装置、设备、存储介质及产品与流程 > 正文

数据融合方法、装置、设备、存储介质及产品与流程

国知局
2024-09-05 14:38:21

本技术涉及大数据，尤其涉及一种数据融合方法、装置、设备、存储介质及产品。

背景技术：

1、相关技术中，多源异构数据融合时，需要对多个数据源中大量的业务数据进行预处理和迁移等操作，会涉及到大规模的数据传输和频繁跨域访问，增加跨域数据融合的时延和带宽压力，使得数据融合效率较低。

技术实现思路

1、本技术的主要目的在于提供了一种数据融合方法、装置、设备、存储介质及产品，旨在解决数据融合方法效率低的技术问题。

2、为实现上述目的，本技术提供了一种数据融合方法，方法包括：

3、利用预设数据分类规则集中各数据分类规则，确定多个数据源中符合数据分类规则的各数据行的数据标签；其中，一个数据分类规则对应一种数据标签；

4、针对每种数据标签，从多个数据源中，提取出数据标签对应的各数据行中选定数据属性的来源信息；其中，选定数据属性为数据分类规则的分类依据，数据标签与选定数据属性之间存在第一对应关系，选定数据属性与来源信息之间存在第二对应关系；

5、根据所有第一对应关系和所有第二对应关系，生成多个数据源的数据查询视图，作为多个数据源的数据融合结果；其中，数据查询视图用于在接收到查询请求时，根据查询请求，返回从多个数据源中查询得到的目标数据。

6、可选地，根据所有第一对应关系和所有第二对应关系，生成多个数据源的数据查询视图，作为多个数据源的数据融合结果的步骤，包括；

7、根据所有第一对应关系，生成逻辑视图表；

8、根据所有第二对应关系，生成属性虚拟表；

9、将逻辑视图表和属性虚拟表，作为数据查询视图，得到数据融合结果。

10、可选地，利用预设数据分类规则集中各数据分类规则，确定多个数据源中符合数据分类规则的各数据行的数据标签的步骤之前，方法还包括：

11、从多个数据源的部分业务数据中，确定出预设数据分类规则集；

12、针对各数据分类规则，根据对应的分类依据，确定出数据分类规则的数据标签。

13、可选地，一个数据分类规则的分类依据包括至少一个选定数据属性，从多个数据源的部分业务数据中，确定出预设数据分类规则集的步骤，包括：

14、利用遗传算法，根据部分业务数据中所有数据特征，确定各分类依据中至少一个选定数据属性，得到初始数据分类规则集；

15、针对初始数据分类规则集中每个初始数据分类规则的初始分类依据，利用粒子群算法，根据对应的所有选定数据属性在部分业务数据中的数据特征，确定初始分类依据中各选定数据属性的约束条件，得到预设数据分类规则集。

16、可选地，利用遗传算法，根据部分业务数据中所有数据特征，确定各分类依据中至少一个选定数据属性，得到初始数据分类规则集的步骤，包括：

17、根据所有数据特征，构建初始数据属性种群；

18、按照预设交叉概率、预设变异概率和预设迭代次数，对初始数据属性种群进行迭代，获得目标数据属性种群；

19、利用目标数据属性种群中各目标个体，确定出对应的各分类依据中至少一个选定数据属性，得到初始数据分类规则集。

20、可选地，利用粒子群算法，根据对应的所有选定数据属性在部分业务数据中的数据特征，确定初始分类依据中各选定数据属性的约束条件，得到预设数据分类规则集的步骤，包括：

21、针对初始分类依据中每个选定数据属性，根据部分业务数据中选定数据属性的所有数据特征，确定选定数据属性的约束搜索空间；

22、根据初始分类依据中选定数据属性总数和初始分类依据中各选定数据属性的约束搜索空间，构建初始粒子群；

23、根据初始粒子群中各初始粒子的初始分类精度值，确定出初始粒子群中初始全局最优粒子；其中，分类精度为数据分类规则对部分业务数据进行标记的分类精度；

24、将初始粒子群作为当前粒子群，将初始全局最优粒子作为当前全局最优粒子；

25、按照预设迭代参数，更新当前粒子群，得到目标粒子群；

26、根据目标粒子群中各目标粒子的目标分类精度值，确定出目标粒子群中目标全局最优粒子；

27、若当前粒子群的当前总分类精度值小于目标粒子群的目标总分类精度值，则将目标粒子群作为当前粒子群，将目标全局最优粒子作为当前全局最优粒子；

28、判断当前全局最优粒子的当前分类精度值与上一个历史全局最优粒子的历史分类精度值之间的分类精度差值是否小于或等于预设差值；

29、若分类精度差值大于预设差值，则返回执行按照预设迭代参数，更新当前粒子群，得到目标粒子群的步骤；

30、直到分类精度差值小于或等于预设差值，将当前全局最优粒子中各选定数据属性值，作为初始分类依据中对应的选定数据属性的约束条件，得到预设数据分类规则集。

31、可选地，针对初始数据分类规则集中每个初始数据分类规则的初始分类依据，利用粒子群算法，根据对应的所有选定数据属性在部分业务数据中的数据特征，确定初始分类依据中各选定数据属性的约束条件，得到预设数据分类规则集的步骤之后，方法还包括：

32、利用非极大值抑制算法，根据预设数据分类规则集中各数据分类规则的分类精度值和覆盖率值，对预设数据分类规则集进行优化，获得目标数据分类规则集；其中，覆盖率为数据分类规则在部分业务数据中的覆盖度；

33、利用预设数据分类规则集中各数据分类规则，确定多个数据源中符合数据分类规则的各数据行的数据标签的步骤，包括：

34、利用目标数据分类规则集中各目标数据分类规则，确定多个数据源中符合目标数据分类规则的各数据行的数据标签。

35、可选地，利用非极大值抑制算法，根据预设数据分类规则集中各数据分类规则的分类精度值和覆盖率值，对预设数据分类规则集进行优化，获得目标数据分类规则集的步骤，包括：

36、根据预设数据分类规则集和目标规则特征种群的并集，获得当前源规则集；

37、针对当前源规则集中每个当前源规则，根据当前源规则对部分业务数据的标记结果，获得当前结果交并比值；

38、根据当前源规则集中各当前源规则对应的当前结果交并比值，确定出当前源规则集中当前最优源规则；

39、若当前最优源规则的分类精度值大于或等于预设分类精度公差，且当前最优源规则的覆盖率值大于或等于预设覆盖率公差，则根据当前最优源规则和当前规则集的并集，得到临时规则集；

40、若临时规则集中所有临时规则的临时标记结果的临时结果交并比值总和大于当前源规则集中所有当前结果交并比值的当前结果交并比值总和，则将当前规则集更新为临时规则集；

41、删除当前源规则集中当前最优源规则，得到目标源规则集；

42、将目标源规则集作为当前源规则集，返回执行针对当前源规则集中每个当前源规则，根据当前源规则对部分业务数据的标记结果，获得当前结果交并比值的步骤；

43、直到目标源规则集为空，将当前规则集作为目标数据分类规则集。

44、可选地，将逻辑视图表和属性虚拟表，作为数据查询视图，得到数据融合结果的步骤之后，方法还包括：

45、在接收查询请求时，获得对应的目标数据标签；

46、根据目标数据标签，从逻辑视图表中，确定出目标数据属性；

47、根据目标数据属性，从属性虚拟表中，确定出目标来源信息；

48、根据目标来源信息，从对应的目标数据源中，获得目标数据。

49、此外，为实现上述目的，本技术还提出一种数据融合装置，装置包括：

50、数据标记模块，用于利用预设数据分类规则集中各数据分类规则，确定多个数据源中符合数据分类规则的各数据行的数据标签；其中，一个数据分类规则对应一种数据标签；

51、信息提取模块，用于针对每种数据标签，从多个数据源中，提取出数据标签对应的各数据行中选定数据属性的来源信息；其中，选定数据属性为数据分类规则的分类依据，数据标签与选定数据属性之间存在第一对应关系，选定数据属性与来源信息之间存在第二对应关系；

52、信息融合模块，用于根据所有第一对应关系和所有第二对应关系，生成多个数据源的数据查询视图，作为多个数据源的数据融合结果；其中，数据查询视图用于在接收到查询请求时，根据查询请求，返回从多个数据源中查询得到的目标数据。

53、此外，为实现上述目的，本技术还提出一种数据融合设备，设备包括：存储器、处理器及存储在存储器上并可在处理器上运行的数据融合程序，数据融合程序配置为实现如上文的数据融合方法的步骤。

54、此外，为实现上述目的，本技术还提出一种存储介质，存储介质上存储有数据融合程序，数据融合程序被处理器执行时实现如上述的数据融合方法的步骤。

55、此外，为实现上述目的，本技术还提供一种计算机程序产品，计算机程序产品包括数据融合程序，数据融合程序被处理器执行时实现如上述的数据融合方法的步骤。

56、本技术提供的上述一个或多个技术方案，可以具有如下优点或至少实现了如下技术效果：

57、本技术提供了一种数据融合方法、装置、设备、存储介质及产品，利用预设数据分类规则集中各数据分类规则，确定多个数据源中符合数据分类规则的各数据行的数据标签；其中，一个数据分类规则对应一种数据标签；针对每种数据标签，从多个数据源中，提取出数据标签对应的各数据行中选定数据属性的来源信息；其中，选定数据属性为数据分类规则的分类依据，数据标签与选定数据属性之间存在第一对应关系，选定数据属性与来源信息之间存在第二对应关系；根据所有第一对应关系和所有第二对应关系，生成多个数据源的数据查询视图，作为多个数据源的数据融合结果；其中，数据查询视图用于在接收到查询请求时，根据查询请求，返回从多个数据源中查询得到的目标数据。

58、由此，本技术通过利用预设数据分类规则集中各数据分类规则，确定多个数据源的各数据行的数据标签，提取出各数据标签对应的数据行中选定数据属性的来源信息，根据每种数据分类规则的数据标签与该数据分类规则的分类依据中选定数据属性之间的第一对应关系，以及选定数据属性与该选定数据属性的来源信息之间的第二对应关系，生成数据查询视图，作为多个数据源的数据融合结果；在数据融合过程中，只需要确定数据行的数据标签，并且也只需要提取数据行中选定数据属性的来源信息，无需提取实际的业务数据，在数据查询视图中，只存在选定数据属性与来源信息和数据标签之间的对应关系，不存在实际的业务数据，使得本技术的数据融合方法，不需要对多个数据源中大量的业务数据进行预处理和迁移等操作，避免了大规模的数据传输和频繁跨域访问，减轻了跨域数据融合的时延和带宽压力，提高了数据融合效率。