技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种大数据检索方法、装置以及可读存储介质与流程 > 正文

一种大数据检索方法、装置以及可读存储介质与流程

国知局
2024-09-14 15:07:10

本发明涉及大数据领域，特别是一种大数据检索方法、大数据检索装置以及可读存储介质。

背景技术：

1、随着大数据蓬勃发展，其已成为国家的重要战略资源，其主体是为半结构化和非结构化数据(如文本、图像、音频和视频数据等)，占总数据量的85％以上，蕴含巨大价值。

2、为充分挖掘利用非结构化大数据的价值，需要能够对非结构化数据进行高效的检索，即从海量数据中快速找出想要的信息。这个问题目前面临两个严峻挑战：一个是海量，一个是高维。

3、目前对于海量、高维的大数据检索方法其运算量很大，运算效率低下，严重制约大数据价值的挖掘。

技术实现思路

1、鉴于上述问题，本发明提出了一种大数据检索方法、大数据检索装置以及可读存储介质。

2、本发明实施例提供了一种大数据检索方法，所述大数据检索方法包括：

3、对待查询点到多维空间中每个聚类的距离下界进行运算，并按照距离下界从小到大排序所有聚类；

4、按照排序后的聚类，依次判断每个聚类对应的距离下界与初始最小上界的大小关系，所述初始最小上界为所述待查询点到初始最近邻候选点集的最小上界距离；

5、根据所述大小关系的结果，在排序后的聚类中确定出第一聚类，以及基于所述第一聚类确定出第二聚类；

6、利用预设算法对所述第二聚类进行计算，得到所述最终最近邻点；

7、其中，所述预设算法包括：

8、计算所述待查询点到所述第二聚类中每个数据点的距离下界，将所有距离下界大于所述初始最小上界或新最小上界的数据点删除，其余数据点保留；

9、对保留的数据点采用迭代算法进行筛选，将筛选后留下的数据点确定为所述最终最近邻点。

10、可选地，按照排序后的聚类，依次判断每个聚类对应的距离下界与初始最小上界的大小关系，包括：

11、排序后的聚类以i作为其排序序号，记为i＝1，2，3，…，m；

12、以i＝1，并假设所述初始最近邻候选点集为空作为初始条件，对所述序号i＝1对应的距离下界与所述初始最小上界进行判断。

13、可选地，根据所述大小关系的结果，在排序后的聚类中确定出第一聚类，包括：

14、若所述序号i＝1对应的距离下界小于所述初始最小上界，则所述序号i＝1对应的聚类为所述第一聚类。

15、可选地，基于所述第一聚类确定出第二聚类，包括：

16、加载所述第一聚类中所有数据点的编码，并计算所述待查询点到所述第一聚类中每个数据点的距离上界；

17、若所述待查询点到所述第一聚类中所有数据点的距离上界中的最小距离上界小于所述初始最小上界，则将该最小距离上界确定为所述新最小上界；

18、以所述第一聚类中所有数据点作为新最近邻候选点集、所述新最小上界作为新条件，执行步骤：对所述序号i＝i+1对应的距离下界与所述新最小上界进行判断；

19、若所述待查询点到所述第一聚类中每个数据点的距离上界中的最小距离上界不小于所述初始最小上界，则执行步骤：以i＝i+1，并假设所述初始最近邻候选点集为空作为初始条件，对所述序号i＝i+1对应的距离下界与所述初始最小上界进行判断；

20、若所述序号i＝1对应的距离下界大于所述初始最小上界，则所述序号i＝1对应的聚类为所述第二聚类，或者若所述序号i＝1+1对应的距离下界大于所述新最小上界，则所述序号i＝1+1对应的聚类为所述第二聚类。

21、可选地，对保留的数据点采用迭代算法进行筛选，将筛选后留下的数据点确定为所述最终最近邻点，包括：

22、对保留的数据点按照各自对应的距离下界从小到大顺序进行排序，以j作为其排序序号，记为j，j＝1，2，3，…，n；

23、以j＝1，并假设初始最近邻候选点为空、所述待查询点到所述初始最近邻候选点的初始距离作为初始条件，对所述序号j＝1对应的距离下界与所述初始距离进行判断；

24、若所述序号j＝1对应的距离下界大于所述初始距离，则以所述初始最近邻候选点作为筛选后留下的数据点；

25、若所述序号j＝1对应的距离下界不大于所述初始距离，则更新所述初始距离为新距离，并执行步骤：以j＝j+1、所述新距离作为新条件，对所述序号j＝j+1对应的距离下界与所述新距离进行判断。

26、可选地，若所述序号j＝1对应的距离下界不大于所述初始距离，则更新所述初始距离为新距离，包括：

27、若所述序号j＝1对应的距离下界不大于所述初始距离，则计算所述待查询点到所述序号j＝1对应数据点的原始距离；

28、若所述原始距离小于所述初始距离，则将所述初始距离更新为所述原始距离；

29、若所述原始距离不小于所述初始距离，则不更新所述初始距离。

30、可选地，对待查询点到多维空间中每个聚类的距离下界进行运算之前，还包括：

31、对多维空间对应的数据集生成所有数据点的编码；

32、对所述多维空间利用聚类算法进行聚类，得到所述多维空间的所有聚类。

33、可选地，假设所述初始最近邻候选点集为空，则所述最小上界为无穷大；

34、假设所述初始最近邻候选点为空，则所述初始距离为无穷大。

35、本发明实施例提供了一种大数据检索装置，所述大数据检索装置包括：

36、运算排序模块，用于对待查询点到多维空间中每个聚类的距离下界进行运算，并按照距离下界从小到大排序所有聚类；

37、依次判断模块，用于按照排序后的聚类，依次判断每个聚类对应的距离下界与初始最小上界的大小关系，所述初始最小上界为所述待查询点到初始最近邻候选点集的最小上界距离；

38、确定模块，用于根据所述大小关系的结果，在排序后的聚类中确定出第一聚类，以及基于所述第一聚类确定出第二聚类；

39、算法模块，用于利用预设算法对所述第二聚类进行计算，得到所述最终最近邻点；

40、其中，所述算法模块包括：

41、删除保留子模块，用于计算所述待查询点到所述第二聚类中每个数据点的距离下界，将所有距离下界大于所述初始最小上界或新最小上界的数据点删除，其余数据点保留；

42、迭代筛选子模块，用于对保留的数据点采用迭代算法进行筛选，将筛选后留下的数据点确定为所述最终最近邻点。

43、可选地，所述依次判断模块具体用于：

44、排序后的聚类以i作为其排序序号，记为i＝1，2，3，…，m；

45、以i＝1，并假设所述初始最近邻候选点集为空作为初始条件，对所述序号i＝1对应的距离下界与所述初始最小上界进行判断。

46、可选地，所述确定模块包括：

47、第一聚类确定子模块，用于若所述序号i＝1对应的距离下界小于所述初始最小上界，则所述序号i＝1对应的聚类为所述第一聚类。

48、可选地，所述确定模块包括：

49、加载计算子模块，用于加载所述第一聚类中所有数据点的编码，并计算所述待查询点到所述第一聚类中每个数据点的距离上界；

50、新上界确定子模块，用于若所述待查询点到所述第一聚类中所有数据点的距离上界中的最小距离上界小于所述初始最小上界，则将该最小距离上界确定为所述新最小上界；

51、第一执行子模块，用于以所述第一聚类中所有数据点作为新最近邻候选点集、所述新最小上界作为新条件，执行步骤：对所述序号i＝i+1对应的距离下界与所述新最小上界进行判断；

52、第二执行子模块，用于若所述待查询点到所述第一聚类中每个数据点的距离上界中的最小距离上界不小于所述初始最小上界，则执行步骤：以i＝i+1，并假设所述初始最近邻候选点集为空作为初始条件，对所述序号i＝i+1对应的距离下界与所述初始最小上界进行判断；

53、第二聚类确定子模块，用于若所述序号i＝1对应的距离下界大于所述初始最小上界，则所述序号i＝1对应的聚类为所述第二聚类，或者若所述序号i＝1+1对应的距离下界大于所述新最小上界，则所述序号i＝1+1对应的聚类为所述第二聚类。

54、可选地，所述迭代筛选子模块具体用于：

55、对保留的数据点按照各自对应的距离下界从小到大顺序进行排序，以j作为其排序序号，记为j，j＝1，2，3，…，n；

56、以j＝1，并假设初始最近邻候选点为空、所述待查询点到所述初始最近邻候选点的初始距离作为初始条件，对所述序号j＝1对应的距离下界与所述初始距离进行判断；

57、若所述序号j＝1对应的距离下界大于所述初始距离，则以所述初始最近邻候选点作为筛选后留下的数据点；

58、若所述序号j＝1对应的距离下界不大于所述初始距离，则更新所述初始距离为新距离，并执行步骤：以j＝j+1、所述新距离作为新条件，对所述序号j＝j+1对应的距离下界与所述新距离进行判断。

59、可选地，所述迭代筛选子模块还用于：

60、若所述序号j＝1对应的距离下界不大于所述初始距离，则计算所述待查询点到所述序号j＝1对应数据点的原始距离；

61、若所述原始距离小于所述初始距离，则将所述初始距离更新为所述原始距离；

62、若所述原始距离不小于所述初始距离，则不更新所述初始距离。

63、可选地，所述大数据检索装置还包括：

64、编码模块，用于对多维空间对应的数据集生成所有数据点的编码；

65、聚类模块，用于对所述多维空间利用聚类算法进行聚类，得到所述多维空间的所有聚类。

66、本发明实施例还提供一种可读存储介质，其上存储有程序，该程序被处理器执行时实现如上任一所述的大数据检索方法中的步骤。

67、本发明提供的大数据检索方法，先对待查询点到多维空间中每个聚类的距离下界进行运算，并按照距离下界从小到大排序所有聚类，之后按照排序后的聚类，依次判断每个聚类对应的距离下界与初始最小上界的大小关系。

68、接着根据大小关系的结果，在排序后的聚类中确定出第一聚类，以及基于第一聚类确定出第二聚类，最后利用预设算法对第二聚类进行计算，得到最终最近邻点。这其中，预设算法为：计算待查询点到第二聚类中每个数据点的距离下界，将所有距离下界大于初始最小上界或新最小上界的数据点删除，其余数据点保留；最后对保留的数据点采用迭代算法进行筛选，将筛选后留下的数据点确定为最终最近邻点。

69、本发明所提大数据检索方法，针对传统的向量近似文件算法(vectorapproximation－file，缩写：va－file)中是线性复杂度，复杂度高、运算量开销很大的问题，创造性的提出能够避免为全部va编码(va－file为数据集生成的编码)计算上下界，本发明按照聚类下界的顺序依次访问各个聚类，且依据每个聚类对应的距离下界与初始最小上界的大小关系，以及结合预设算法能够避免访问全部va编码。

70、在整个算法上，其一直维护一个最小上界，在检索过程中，每加载一个新聚类前都会判断该聚类的下界是否大于最小上界；如果聚类排除不掉则会更新最小上界。很明显，随着更多聚类被加载，最小上界会越来越小，聚类的下界则会越来越大。到某个时刻最小上界小于聚类的下界时，则后续聚类都可以被过滤而不影响最近邻搜索结果。从而避免遍历全部va编码。本发明所提方法相比于传统向量近似文件算法大幅降低了计算复杂度，极大的提升了大数据检索的运算效率，使得该问题不再成为制约大数据价值挖掘的一个因素，具有较高的实用性。