技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种大数据检索方法、装置以及可读存储介质与流程 > 正文

一种大数据检索方法、装置以及可读存储介质与流程

国知局
2024-09-14 14:37:04

本发明涉及大数据领域，特别是一种大数据检索方法、大数据检索装置以及可读存储介质。

背景技术：

1、随着大数据蓬勃发展，其主体是为半结构化和非结构化数据(如文本、图像、音频和视频数据等)，占总数据量的85％以上，蕴含巨大价值。

2、为充分挖掘利用非结构化大数据的价值，需要能够对非结构化数据进行高效的检索，即从海量数据中快速找出想要的信息。这个问题目前面临两个严峻挑战：一个是海量，一个是高维。

3、目前对于海量、高维的大数据检索方法其运算量很大，运算效率低下，严重制约大数据价值的挖掘。

技术实现思路

1、鉴于上述问题，本发明提出了一种大数据检索方法、大数据检索装置以及可读存储介质。

2、本发明实施例提供了一种大数据检索方法，所述大数据检索方法包括：

3、将待查询点按照其维度划分为第一子向量和第二子向量；

4、在第一子空间中计算所述第一子向量到所述第一子空间中所有子聚类中心的距离下界，形成第一下界组合，以及在第二子空间中计算所述第二子向量到所述第二子空间中所有子聚类中心的距离下界，得到第二下界组合；

5、基于所述第一下界组合和所述第二下界组合，结合笛卡尔积运算得到新下界组合；

6、对所述新下界组合中每个距离下界进行排序，序号记为i，i＝1，2，3，…，k′2；

7、以i＝1，并假设初始最近邻候选点为空、所述待查询点到所述初始最近邻候选点的初始距离作为初始条件，对所述序号i＝1对应的距离下界与所述初始距离进行判断；

8、若所述序号i＝1对应的距离下界不大于所述初始距离，则根据所述序号i＝1对应的第一子聚类和第二子聚类确定新最近邻候选点；

9、以i＝i+1，并以所述待查询点到所述新最近邻候选点的目标距离作为新条件，执行步骤：对所述序号i＝i+1对应的距离下界与所述目标距离进行判断；

10、若所述序号i＝1对应的距离下界大于所述初始距离，则以所述初始最近邻候选点作为最终最近邻点。

11、可选地，在第一子空间中计算所述第一子向量到所述第一子空间中所有子聚类中心的距离下界，形成第一下界组合，以及在第二子空间中计算所述第二子向量到所述第二子空间中所有子聚类中心的距离下界，得到第二下界组合，包括：

12、在所述第一子空间中利用超平面边界算法计算所述第一子向量到所述第一子空间中所有子聚类中心的距离下界，形成所述第一下界组合；

13、在所述第二子空间中利用所述超平面边界算法计算所述第二子向量到所述第二子空间中所有子聚类中心的距离下界，得到所述第二下界组合。

14、可选地，基于所述第一下界组合和所述第二下界组合，结合笛卡尔积运算得到新下界组合，包括：

15、对所述第一下界组合和所述第二下界组合求笛卡尔积得到k′2个子下界组合，其中每个子下界组合均包含一个来自于所述第一下界组合中的距离下界和一个来自于所述第二下界组合中的距离下界；

16、对每个所述子下界组合中包含的两个距离下界求和得到一个新距离下界，则所有子下界组合对应的新距离下界形成所述新下界组合。

17、可选地，对所述新下界组合中每个距离下界进行排序，包括：

18、对所述新下界组合中每个距离下界按照由小到大的顺序进行排序。

19、可选地，假设所述初始最近邻候选点为空，则所述待查询点到所述初始最近邻候选点的初始距离为无穷大。

20、可选地，根据所述序号i＝1对应的第一子聚类和第二子聚类确定新最近邻候选点，包括：

21、根据所述序号i＝1，确定所述序号i＝1对应的新下界组合中，两个距离下界各自对应的来自于所述第一子空间中的第一子聚类中心，和来自于所述第二子空间中的第二子聚类中心；

22、基于所述第一子聚类中心确定对应的所述第一子聚类，以及基于所述第二子聚类中心确定对应的所述第二子聚类；

23、提取所述第一子聚类中的数据点和所述第二子聚类中的数据点并取交集，得到交集数据点；

24、计算所述带查询点到所述交集数据点中每个数据点的真实距离，并选取所述真实距离最小的数据点作为所述新最近邻候选点。

25、可选地，若所述新最近邻候选点为x、所述带查询点为q，则所述带查询点q到所述新最近邻候选点x的目标距离等于‖q,x‖，其小于所述初始距离。

26、可选地，将待查询点按照其维度划分为第一子向量和第二子向量之前，还包括：

27、将多维空间平均分为所述第一子空间和所述第二子空间；

28、对所述第一子空间对应的子数据集进行聚类运算得到其对应的多个子聚类，每个子聚类均包含子聚类中心；

29、对所述第二子空间对应的子数据集进行所述聚类运算得到其对应的多个子聚类，每个子聚类均包含子聚类中心；

30、其中，若所述多维空间为d维，则所述第一子空间和所述第二子空间各自含有d/2维，每个聚类中心均为一个d/2维的子向量。

31、本发明实施例提供了一种大数据检索装置，所述大数据检索装置包括：

32、划分模块，用于将待查询点按照其维度划分为第一子向量和第二子向量；

33、计算下界组合模块，用于在第一子空间中计算所述第一子向量到所述第一子空间中所有子聚类中心的距离下界，形成第一下界组合，以及在第二子空间中计算所述第二子向量到所述第二子空间中所有子聚类中心的距离下界，得到第二下界组合；

34、笛卡尔运算模块，用于基于所述第一下界组合和所述第二下界组合，结合笛卡尔积运算得到新下界组合；

35、排序模块，用于对所述新下界组合中每个距离下界进行排序，序号记为i，i＝1,2,3,…,k′2；

36、判断模块，用于以i＝1,并假设初始最近邻候选点为空、所述待查询点到所述初始最近邻候选点的初始距离作为初始条件，对所述序号i＝1对应的距离下界与所述初始距离进行判断；

37、确定新候选点模块，用于若所述序号i＝1对应的距离下界不大于所述初始距离，则根据所述序号i＝1对应的第一子聚类和第二子聚类确定新最近邻候选点；

38、判断模块，还用于以i＝i+1，并以所述待查询点到所述新最近邻候选点的目标距离作为新条件，执行步骤：对所述序号i＝i+1对应的距离下界与所述目标距离进行判断；

39、最终点模块，用于若所述序号i＝1对应的距离下界大于所述初始距离，则以所述初始最近邻候选点作为最终最近邻点。

40、可选地，所述计算下界组合模块具体用于：

41、在所述第一子空间中利用超平面边界算法计算所述第一子向量到所述第一子空间中所有子聚类中心的距离下界，形成所述第一下界组合；

42、在所述第二子空间中利用所述超平面边界算法计算所述第二子向量到所述第二子空间中所有子聚类中心的距离下界，得到所述第二下界组合。

43、可选地，所述笛卡尔运算模块具体用于：

44、对所述第一下界组合和所述第二下界组合求笛卡尔积得到k′2个子下界组合，其中每个子下界组合均包含一个来自于所述第一下界组合中的距离下界和一个来自于所述第二下界组合中的距离下界；

45、对每个所述子下界组合中包含的两个距离下界求和得到一个新距离下界，则所有子下界组合对应的新距离下界形成所述新下界组合。

46、可选地，所述排序模块具体用于：

47、对所述新下界组合中每个距离下界按照由小到大的顺序进行排序。

48、可选地，所述确定新候选点模块具体用于：

49、根据所述序号i＝1，确定所述序号i＝1对应的新下界组合中，两个距离下界各自对应的来自于所述第一子空间中的第一子聚类中心，和来自于所述第二子空间中的第二子聚类中心；

50、基于所述第一子聚类中心确定对应的所述第一子聚类，以及基于所述第二子聚类中心确定对应的所述第二子聚类；

51、提取所述第一子聚类中的数据点和所述第二子聚类中的数据点并取交集，得到交集数据点；

52、计算所述带查询点到所述交集数据点中每个数据点的真实距离，并选取所述真实距离最小的数据点作为所述新最近邻候选点。

53、可选地，所述大数据检索装置还包括：

54、空间模块，用于将多维空间平均分为所述第一子空间和所述第二子空间；

55、聚类模块，用于对所述第一子空间对应的子数据集进行聚类运算得到其对应的多个子聚类，每个子聚类均包含子聚类中心，以及对所述第二子空间对应的子数据集进行所述聚类运算得到其对应的多个子聚类，每个子聚类均包含子聚类中心；

56、其中，若所述多维空间为d维，则所述第一子空间和所述第二子空间各自含有d/2维，每个聚类中心均为一个d/2维的子向量。

57、本发明实施例还提供一种可读存储介质，其上存储有程序，该程序被处理器执行时实现如上任一所述的大数据检索方法中的步骤。

58、本发明提供的大数据检索方法，先将待查询点按照其维度划分为第一子向量和第二子向量；之后在第一子空间中计算第一子向量到第一子空间中所有子聚类中心的距离下界，形成第一下界组合，在第二子空间中计算第二子向量到第二子空间中所有子聚类中心的距离下界，得到第二下界组合；再基于第一下界组合和第二下界组合，结合笛卡尔积运算得到新下界组合。

59、对新下界组合中每个距离下界进行排序，序号记为i，i＝1,2,3,…,k′2；一开始以i＝1,并假设初始最近邻候选点为空、待查询点到初始最近邻候选点的初始距离作为初始条件，对序号i＝1对应的距离下界与初始距离进行判断；若序号i＝1对应的距离下界不大于初始距离，则根据序号i＝1对应的第一子聚类和第二子聚类确定新最近邻候选点；之后继续以i＝i+1，并以待查询点到新最近邻候选点的目标距离作为新条件，迭代执行步骤：对序号i＝i+1对应的距离下界与目标距离进行判断及其之后的步骤，直至任一序号对应的距离下界大于前次得到的距离，则以本次得到的最近邻候选点作为最终最近邻点。

60、本发明所提大数据检索方法，针对传统的超平面边界算法运算量很大的问题，创造性的提出结合笛卡尔积和聚类算法，将多维空间以及待查询点均划分为两个，在两个子空间分别生成k′个子聚类。从两个子聚类中分别拿出一个子聚类的中心则可以拼接成一个完整的多维向量。

61、这样的向量一共有k′2个。如果以这种向量作为聚类中心，则整个多维空间对应的数据集可以划分为k′2个聚类。而带查询点到每个这样的聚类的距离下界恰好等于该聚类每个子空间成分的距离下界求和，这是因为子空间和子空间是正交的。

62、在两个子空间分别计算距离下界的计算量是o(2k′2)＝o(k′2)，如果k′＝k1/2，则总共生成的多维空间中的聚类是k个，但距离下界的计算复杂度是o(k)。本发明所提方法用o(k)的复杂度计算出k个聚类的距离下界，相比于传统超平面边界算法的o(k2)，大幅提升了距离下界计算复杂度。从而可以用更小的代价获得更多的聚类，提升下界紧致性，提高最近邻搜索效率，极大的提升了大数据检索的运算效率，使得该问题不再成为制约大数据价值挖掘的一个因素，具有较高的实用性。