技术新讯 > 计算推算,计数设备的制造及其应用技术 > 文本附件增强的数据库记录离群点计算方法与流程 > 正文

文本附件增强的数据库记录离群点计算方法与流程

国知局
2024-10-21 15:14:28

本发明涉及数据管理，特别涉及文本附件增强的数据库记录离群点计算方法。

背景技术：

1、随着数据的不断增长和互联网的普及，数据库已成为现代信息技术中不可或缺的一环。数据库是应用程序中用来存储数据的，它能够提供快速、可靠地存储和检索数据，为各种应用提供了必要的关键数据支持。在数据库中，数据以记录的形式存储，数据库记录是具有多种数据类型(文本、数字、日期)多维数据，每个记录都由一系列字段组成，这些字段表示记录的各个属相。

2、在对数据库进行管理时，通常需要人工进行数据的分类，分组，拆分，实现对数据库中数据的分类管理，通过人工的方式进行数据的管理不仅消耗大量的人力，管理效率不高，并且可能有益人为疏忽，导致数据管理的准确性有待提高。

技术实现思路

1、本发明提供一种文本附件增强的数据库记录离群点计算方法，用以解决背景技术中提出的问题。

2、一种文本附件增强的数据库记录离群点计算方法，包括：

3、s1：从数据库中基于数据库记录获取多组多维文本数据，并基于摘要模型生成每组多维文本数据对应的摘要文本；

4、s2：基于词频和逆文档频率，对摘要文本进行特征提取，得到摘要特征向量，并基于摘要特征向量计算两个摘要文本之间的文本相似度；

5、s3：获取每两个数据库记录之间的字段相似度，基于文本相似度和字段相似度计算得到两两数据库记录之间的相似度；

6、s4：基于两两数据库记录之间的相似度，获取当前数据库记录与其他所有数据库记录之间的平均相似度得分，并基于平均相似度得分确定当前数据库记录是否为离群点。

7、优选的，所述s1中，从数据库中基于数据库记录获取多组多维文本数据，并基于摘要模型生成每组多维文本数据对应的摘要文本，包括：

8、基于数据库记录，检索查找得到每条数据库记录的多维文本数据；

9、利用预设中文长文本摘要数据集对bigbird模型进行训练，得到摘要模型；

10、基于分词器对多维文本数据进行分词处理，得到分词输出结果，将所述分词输出结果输入摘要模型中进行摘要生成，得到每组多维文本数据对应的摘要文本。

11、优选的，所述s2中，基于词频和逆文档频率，对摘要文本进行特征提取，得到摘要特征向量，包括：

12、基于如下公式计算所述摘要文本中的当前分词的词频；

13、

14、其中，tf(t,d)表示当前分词的词频，t表示当前分词，n表示摘要文本中的全部分词，d表示摘要文本，fi,d表示中第i个分词在摘要文本d中出现的对数频率，具体表示为fi,d＝1+log(mi,d)，m表示第i个分词在摘要文本d中出现的次数；

15、基于如下公式计算当前分词t的逆文档频率；

16、

17、其中，idf(t)表示当前分词t的逆文档频率，d为摘要文本的数量，dft为出现当前分词t的摘要文本的数量；

18、基于以下公式计算得到当前分词的特征值；

19、tfidf(t,d)＝tf(t,d)*idf(t)

20、其中，tfidf(t,d)表示当前分词的特征值；

21、基于以下公式计算得到摘要文本的摘要特征向量；

22、vd＝[tfidf(t0,d),tfidf(t1,d)…,tfidf(tn,d)]

23、其中，vd表示摘要文本的摘要特征向量，tfidf(tn,d)表示第n个分词的特征值。

24、优选的，所述s2中，基于摘要特征向量计算两个摘要文本之间的文本相似度，包括：

25、基于摘要特征向量，并根据如下公式计算两个摘要文本之间的相似度；

26、

27、其中，表示第j个摘要文本与第ω个摘要文本之间的相似度，表示第j个摘要文本的摘要特征向量，表示第ω个摘要文本的摘要特征向量，表示和的余弦相似度。

28、优选的，所述s3中，获取每两个数据库记录之间的字段相似度，包括：

29、对于两个数据库记录之间的文本类型字段，利用余弦相似度计算两个数据库记录中同一字段的相似度st；

30、对于两个数据库之间的数字类型字段和日期类型字段，计算数字差值和日期差值来作为两个数据库记录中同一字段的相似度sd；

31、基于st和sd，并根据如下公式计算得到两个数据库记录之间的字段相似度；

32、

33、其中，smeta表示两个数据库记录之间的字段相似度，s表示两个数据库记录中任意一个数据库记录的字段数量，pa表示第a个字段相似度的权重，为超参数，范围为0～1，可根据经验给定初始值，sa表示第a个字段的两个数据库记录中同一字段的相似度，若为文本类型字段，则根据st计算，若为数字类型字段和日期类型字段，则根据sd计算。

34、优选的，所述s3中，基于文本相似度和字段相似度计算得到两两数据库记录之间的相似度，包括：

35、基于两个数据库记录之间的字段相似度，并根据如下公式计算两两数据库记录之间的相似度；

36、

37、其中，表示b数据库记录和c数据库记录之间的相似度，表示b数据库记录对应的摘要文本与c数据库记录对应的摘要文本之间的相似度，表示b数据库记录和c数据库记录之间的字段相似度，k和l是0～1的超参数，根据经验进行初始设置。

38、优选的，所述s4中，基于两两数据库记录之间的相似度，获取当前数据库记录与其他所有数据库记录之间的平均相似度得分，包括：

39、

40、其中，表示当前数据库记录与其他所有数据库记录之间的平均相似度得分，q表示数据库记录的个数，表示当前数据库记录与第h个数据库记录之间的相似度。

41、优选的，所述s4中，基于平均相似度得分确定当前数据库记录是否为离群点，包括：

42、确定一个初始阈值e，判断所述平均相似度得分是否大于所述初始阈值e，

43、若是，确定当前数据库记录为离群点；

44、否则，确定当前数据库记录不是离群点。

45、优选的，还包括：基于网格搜索对字段相似度的权重p1～pa，k和l超参数和初始阈值e进行搜索优化，得到最佳参数，并根据最佳参数得到对当前数据库记录最新离群点判断；

46、基于初始化超参数和历史最优超参数作为网格搜索的目标点，利用所述目标点对网格进行聚类，得到目标点对应的聚类蔟；

47、基于目标点及其对应的聚类蔟，确定对网格搜索的搜索步长和搜索方向；

48、按照所述搜索步长和搜索方向，以初始化超参数为起点对字段相似度的权重p1～pa，k和l超参数和初始阈值e分别进行局部迭代计算，得到权重p1～pa，k和l超参数和初始阈值e的局部最优取值以及第一离群点标注结果；

49、将所述第一离群点标注结果与人工标注结果进行比对，得到在每个局部最优取值下的准确率，召回率和f1分数；

50、按照所述搜索步长和搜索方向，以初始化超参数为起点对字段相似度的权重p1～pa，k和l超参数和初始阈值e进行整体迭代计算，得到权重p1～pa，k和l超参数和初始阈值e的整体初始取值以及第二离群点标注结果；

51、将所述述第二离群点标注结果与人工标注结果进行比对，得到在整体初始取值下的准确率，召回率和f1分数；

52、将在每个局部最优取值下的准确率，召回率和f1分数与整体初始取值下的准确率，召回率和f1分数进行比较，得到结果差异；

53、基于所述结果差异和局部最优取值，对整体初始取值进行调整，得到整体最优取值；

54、将所述最优取值作为最佳参数，得到对当前数据库记录的最新离群点判断。

55、优选的，所述基于所述结果差异和局部最优取值，对整体初始取值进行调整，得到整体最优取值，包括：

56、判断所述结果差异是否在预设差异范围内；

57、若是，不对整体初始取值进行调整；

58、否则，基于局部最优取值，确定最新搜索步长和最新搜索方向，按照所述最新搜索步长和最新搜索方向对整体初始取值进行迭代计算，直到结果差异在预设差异范围内，得到整体最优取值。

59、与现有技术相比，本发明取得了以下有益效果：

60、通过从数据库中基于数据库记录获取多组多维文本数据，并基于摘要模型生成每组多维文本数据对应的摘要文本，基于词频和逆文档频率，对摘要文本进行特征提取，得到摘要特征向量，并基于摘要特征向量计算两个摘要文本之间的文本相似度，获取每两个数据库记录之间的字段相似度，基于文本相似度和字段相似度计算得到两两数据库记录之间的相似度，基于两两数据库记录之间的相似度，获取当前数据库记录与其他所有数据库记录之间的平均相似度得分，并基于平均相似度得分确定当前数据库记录是否为离群点，实现通过自动计算不同记录之间的相似度，自动计算离群点，为自动进行数据库中的数据分类提供基础，保证数据管理准确性，提高数据管理效率。

61、本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在本技术文件中所特别指出的结构来实现和获得。

62、下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。