技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种支持可扩展类别的文本语义哈希方法、装置、设备及存储介质  >  正文

一种支持可扩展类别的文本语义哈希方法、装置、设备及存储介质

  • 国知局
  • 2024-08-05 11:51:09

本发明涉及自然语言处理和信息检索,具体涉及一种支持可扩展类别的文本语义哈希方法、装置、设备及存储介质。

背景技术:

1、文本语义哈希是一种将文档从原始高维的符号特征空间通过哈希映射到低维二值地址空间的编码技术,它能使得语义相似的文档映射到相近的地址空间,从而可以通过汉明距离来度量哈希码之间的距离,即实现将语义嵌入到文本编码中。相比于传统在欧式空间中计算相似度的昂贵算力和时间消耗,文本语义哈希仅需通过计算汉明距离来评估文档之间的语义相似性,显著提升了检索效率。

2、通常,可以用文本的类别、关键词等标签来辅助哈希码的构建,即将类别、关键词等信息嵌入到文本编码中,使得距离接近的文本不仅语义接近,而且类别也相同或接近。在数据量爆炸式增长的时代,信息检索系统的类别信息不断地更新和新增。因此,支持可扩展类别的文本语义哈希技术在大规模信息检索领域具有重要实用价值。

3、在现有技术中,已经存在许多在文本语义哈希方向下的探索:

4、中国专利文献cn113449849a公开了一种基于自编码器的学习型文本语义哈希方法,该方法使用自编码器结构的哈希模型来完成文本语义哈希模型构建,但是,这种方法仅对文本自身语义信息进行了重构,未将文档的类别信息嵌入哈希码。

5、中国专利文献cn113821527a公开了一种哈希码的生成方法、装置、计算机设备及存储介质,该方法通过编码文本得到初始哈希码,根据初始哈希码的采样概率分布对所述初始哈希码进行采样,得到语义哈希模型的后验概率分布,并根据该后验分布对初始哈希码进行矫正。但是,该方法未将文档的类别信息嵌入哈希码。

6、中国专利文献cn110955745a公开了一种基于深度学习的文本哈希检索方法,该方法使用分类层对编码得到的哈希编码进行分类来融入类别信息。然而,这种方法没有在哈希空间中建立明确的相似性约束关系,并且仅考虑融入扁平化类别而非层次化类别信息,也未对扩展类别下的文本语义哈希进行研究。

7、中国专利文献cn116662490b公开了一种融合层次化标签信息的去混淆文本哈希算法和装置,该方法使用类语义中心来代表样本的隐式类内语义关联,从而约束语义相似的异类样本远离该中心。虽然这种方式去除了层次化类别标签下的模糊样本影响,但难以支持可扩展类别下的文本语义哈希编码。

8、综上所述,虽然现有文本语义哈希技术总体上可以实现文本语义以及固定类别的哈希嵌入,但是难以支持扩展类别编码,无法满足现实应用中对于类别新增下文本语义哈希的可扩展类别编码要求。

技术实现思路

1、本发明的目的在于提供一种支持可扩展类别的文本语义哈希方法、装置、设备及存储介质,该方法能够解决现有技术中的不足,采用文本特征自编码器和标签文本序列的语言模型自编码器,实现在文本编码中最大化保留语义的同时嵌入类别、关键词等信息,能够支持用户自由定义的类别检索。

2、为实现上述目的,本发明采用了以下技术方案:

3、在本发明的第一方面,公开了一种支持可扩展类别的文本语义哈希方法,该方法包括以下步骤:

4、s1、获取文本的表层特征。

5、s2、构建可扩展层次化类别信息表征序列;所述可扩展层次化类别信息表征序列为由依次设置的多个类别标签和多个关键词构成的文本序列。

6、s3、构建文本语义哈希模型,所述文本语义哈希模型包括文档内容哈希模块和标签序列哈希模块;利用文档内容哈希模块将表层特征编码为文档的嵌入表示,利用标签序列哈希模块将可扩展层次化类别信息表征序列编码为序列的嵌入表示,将和进行阈值转换成对应的哈希码和,拼接和得到支持可扩展类别的文档语义哈希码。

7、根据本发明优选的,所述步骤s1中,获取文本的表层特征,包括:

8、s11、利用开源分词工具hanlp的粗粒度分词器对语料库中的文本进行分词。

9、s12、在分词结果中去除中文停用词,根据词频从高到低排序得到词表,根据词表计算每篇文本的词频-逆文档词频统计量tf-idf,将tf-idf作为表层特征。

10、根据本发明优选的,所述步骤s2中,所述多个类别标签按照层级由高到低的顺序从前向后依次排列,层级由类别标签计算得到;其中,若给定一棵目录树,根目录为最高层级,即层级一,根目录的子层级为层级二,后续层级依次降低;所述多个关键词位于所述多个类别标签的后侧,多个关键词按照textrank工具给出的重要性进行排序。

11、根据本发明优选的,所述步骤s3中,构建文本语义哈希模型,所述文本语义哈希模型包括文档内容哈希模块和标签序列哈希模块;利用文档内容哈希模块将表层特征编码为文档的嵌入表示,利用标签序列哈希模块将可扩展层次化类别信息表征序列编码为序列的嵌入表示,将和进行阈值转换成对应的哈希码和,拼接和得到支持可扩展类别的文档语义哈希码,包括:

12、s31、构建融合层次化类别信息的文档内容哈希模块,利用文档内容哈希模块将表层特征编码为文档的嵌入表示,并对文档的嵌入表示施加层次化类别相似性约束、正则约束以及叶子类别相似性约束,重构表层特征和叶子类别向量,在重构过程中对文档内容哈希模块进行优化。

13、s32、构建类别语义空间的标签序列哈希模块,利用标签序列哈希模块将可扩展层次化类别信息表征序列编码为序列的嵌入表示,并对序列的嵌入表示施加正则化约束,重构可扩展层次化类别信息表征序列,在重构过程中对标签序列哈希模块进行优化。

14、s33、将文档内容哈希模块和标签序列哈希模块编码得到的和分别进行阈值转换,得到对应的哈希码和,拼接和得到支持可扩展类别的文档语义哈希码。

15、根据本发明优选的,所述步骤s31中,构建融合层次化类别信息的文档内容哈希模块,利用文档内容哈希模块将表层特征编码为文档的嵌入表示,并对文档的嵌入表示施加层次化类别相似性约束、正则约束以及叶子类别相似性约束,重构表层特征和叶子类别向量,在重构过程中对文档内容哈希模块进行优化,包括:

16、s311、构建融合层次化类别信息的文档内容哈希模块,利用文档内容哈希模块将表层特征编码成文档的嵌入表示。

17、所述文档内容哈希模块采用多层感知机作为文档编码器,利用如公式(1)所示的文档编码器将编码为文档的嵌入表示,并在文本语义哈希模型完成训练后,利用公式(2),将文档的嵌入表示通过阈值转化为文档哈希码:

18、(1);

19、(2);

20、在公式(1)和公式(2)中,为文档的嵌入表示;为文档编码器;为文档哈希码的第维值;为嵌入表示的第维值;为二值化函数;为可根据实际调整的阈值。

21、s312、利用公式(3)-公式(5),对文档的嵌入表示施加层次化类别相似性约束,并采用随机采样的方式对训练集数据进行基于层次化类别的文档相似性建模,利用公式(6)所示的层次化类别相似性嵌入的目标函数对建立的模型进行优化:

22、(3);

23、(4);

24、(5);

25、在公式(3)-公式(5)中,为两篇不同的文档和的层次化类别相似性分数;表示文档第层级的类别标签;表示文档第层级的类别标签;表示文档第层级的类别标签;表示文档第层级的类别标签;为文档类别标签的层级数,层级数的值等同于目录树的叶子目录所在层级;为指示函数,两个变量相等时值为1,否则为0;为任意两个类别标签;为中对应第层的控制系数;为中对应第-1层的控制系数。

26、(6);

27、在公式(6)中,对于任意表层特征满足;为层次化类别相似性嵌入的目标函数;为指数函数;和分别对应和的嵌入表示;为负样本集合。

28、s313、向文档的嵌入表示施加向二值靠近的正则化项,进行正则约束:在训练时通过公式(7)所示的正则化项使向二值化后的结果靠近,以赋予二值特性:

29、(7);

30、在公式(7)中,表示正则化项;为表层特征的嵌入表示;为二值化函数。

31、s314、利用公式(8)所示的损失函数,对文档的嵌入表示施加叶子类别的相似性约束:

32、(8);

33、在公式(8)中,为叶子类别相似性约束的损失函数;为同一训练批次的文档矩阵;为的转置矩阵;为文档哈希码长度;为叶子类别相似性矩阵。

34、s315、利用公式(9),通过文档解码网络重构表层特征,在重构表层特征的过程中,使用公式(10)所示的目标函数对文本哈希模块进行优化:

35、(9);

36、在公式(9)中,为模型输出的重构表层特征;为文档解码网络;为表层特征的嵌入表示;在文本语义哈希模型中,将文档的嵌入表示输入文档解码网络,并输出原特征。

37、(10);

38、在公式(10)中,为表层特征的重构损失,为表层特征,为模型输出的重构表层特征。

39、s316、利用公式(11),通过类别解码网络重构叶子类别向量,以在文档的嵌入表示中引入叶子类别信息,并在重构叶子类别向量过程中,通过公式(12)所示的重构叶子类别向量过程的优化损失进行优化:

40、(11);

41、(12);

42、在公式(11)和公式(12)中,为重构叶子类别向量;为类别解码网络;为文档的嵌入表示;为重构叶子类别向量过程的优化损失;为表层特征对应的类别向量。

43、根据本发明优选的,步骤s32中,所述构建类别语义空间的标签序列哈希模块,利用标签序列哈希模块将可扩展层次化类别信息表征序列编码为序列的嵌入表示,并对序列的嵌入表示施加正则化约束,重构可扩展层次化类别信息表征序列,在重构过程中对标签序列哈希模块进行优化,包括:

44、s321、构建标签序列哈希模块,标签序列哈希模块采用bart作为骨干网络,使用序列编码器对输入的可扩展层次化类别信息表征序列进行编码得到序列的嵌入表示;序列编码器使用bart编码器对输入的可扩展层次化类别信息表征序列进行编码,并基于线性变换网络进行降维,使用公式(13)所示的标记的对应嵌入作为输入序列的嵌入表示:

45、(13);

46、在公式(13)中,为标记的对应嵌入表示;为bart模型的特殊标记符;为序列编码器。

47、s322、对序列嵌入显示进行正则化约束,以使其向二值化后的哈希值靠近。

48、s323、利用公式(14)获取关键词序列的嵌入表示,并利用公式(15)添加关键词序列的嵌入表示向序列的嵌入表示相互靠近的正则约束:

49、(14);

50、(15);

51、在公式(14)和公式(15)中,为bart模型的特殊标记符; k1为第1个关键词, k2为第2个关键词;为序列编码器;为关键词序列的嵌入表示和可扩展层次化类别信息表征序列的嵌入表示相互靠近的正则约束;为关键词序列的嵌入表示,为序列的嵌入表示。

52、s324、使用序列解码器对序列的嵌入表示进行解码,重构可扩展层次化类别信息表征序列,重构后的可扩展层次化类别信息表征序列用表示,过程如公式(16)所示:

53、(16);

54、在公式(16)中,为解码过程的输出概率;表示可扩展层次化类别信息表征序列的第个词的预测概率;为序列的嵌入表示;表示可扩展层次化类别信息表征序列的前个词的预测概率。

55、s325、在序列解码器中,先通过线性变换将序列的嵌入表示进行升维,再将升维结果输入bart解码器中进行解码,在解码过程中,采用仅[cls]可见的掩码策略。为bart模型的特殊标记符。

56、s326、利用公式(17)所示的目标函数,获取序列嵌入表示最大化嵌入的语义相似性信息,对标签序列哈希模块进行优化:

57、(17);

58、在公式(17)中,为重构序列的优化目标函数;为交叉熵计算函数;表示可扩展层次化类别信息表征序列;为重构后的可扩展层次化类别信息表征序列。

59、根据本发明优选的,步骤s3中,所述文本语义哈希模型进行分模块独立优化,采用公式(18)所示的目标函数对文档内容哈希模块进行优化,此时标签序列哈希模块保持不变;采用公式(19)所示的目标函数对标签序列哈希模块进行优化,此时文档内容哈希模块保持不变:

60、(18);

61、(19);

62、在公式(18)和(19)中,为文档内容哈希模块的整体网络优化目标函数;为表层特征的重构损失,为层次化类别相似性嵌入的目标函数的权重控制超参数,为叶子类别信息嵌入的权重超参数,为重构叶子类别向量过程的优化损失,为叶子类别相似性约束的损失函数的权重超参数,为嵌入表示的正则化控制和的权重超参数,为序列哈希模块的整体网络优化目标函数,为重构序列的优化目标函数,为嵌入表示和嵌入表示相互靠近约束的权重超参数。

63、在本发明的第二方面,公开了一种支持可扩展类别的文本语义哈希装置。该装置包括表层特征获取模块、可扩展层次化类别信息表征序列构建模块和文本语义哈希模块。

64、所述表层特征获取模块,用于获取文本的表层特征。

65、所述可扩展层次化类别信息表征序列构建模块,用于构建可扩展层次化类别信息表征序列;所述可扩展层次化类别信息表征序列为由依次设置的多个类别标签和多个关键词构成的文本序列。

66、所述文本语义哈希模块,包括文档内容哈希模块和标签序列哈希模块;利用文档内容哈希模块将表层特征编码为文档的嵌入表示,利用标签序列哈希模块将可扩展层次化类别信息表征序列编码为序列的嵌入表示,将和进行阈值转换成对应的哈希码和,拼接和得到支持可扩展类别的文档语义哈希码。

67、在本发明的第三方面,公开了一种电子设备,包括:至少一个处理器;以及存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行上述支持可扩展类别的文本语义哈希方法。

68、在本发明的第四方面,公开了一种机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行上述支持可扩展类别的文本语义哈希方法。

69、和现有技术相比,本发明的优点为:

70、(1)本发明采用文档的词频逆文档词频来表征文档内容,采用类别标签和关键词序列来表征层次化类别信息。采用自编码器对文档内容表征进行编码,最大程度的在哈希码中保留文本原始语义;同时,采用对比学习优化文档编码器,将类别信息嵌入哈希码。采用基于预训练语言模型的自编码器编码类别信息和关键词序列,支持对原始类别和扩展类别标签序列在统一空间进行语义编码,从而支持可扩展的动态层次化类别信息。在使用阶段,将文档内容和类别标签序列的组合编码作为文档语义编码,从而支持用户自由定义类别和关键词的文本语义哈希检索。

71、(2)本发明采用自编码器编码文档内容,能够最大程度地保留文档的原始语义,并采用对比学习优化编码器,相比现有技术仅限于类别的固定层级数来说,本发明采用的优化方法能够嵌入更为一般化的层级数量,从而更好地适应自由定义的层次化类别。

72、(3)本发明采用预训练语言模型自编码器编码标签序列,相比于现有技术未考虑类别标签语义来说,本发明能够在统一的类别语义空间中,描述类别和关键词序列,从而更好地对扩展类别进行语义编码。

73、(4)本发明将文档编码和标签序列编码的组合编码作为文档的哈希结果,相比现有技术将类别信息融入文档哈希编码来说,本发明能够对文档内容语义、类别和关键词语义进行解耦表征,更好地支持用户自定义类别和关键词的哈希相似性检索。

74、(5)本发明可以在自然语言处理领域的其他类似任务上使用,如层次化文本表示学习、层次化文本分类等基于层次化标签场景下的相关任务,应用范围非常广。本发明的应用场景是文本编码和检索场景,能够应用于信息检索,兴趣推荐等下游任务。本发明能够使得文本语义哈希模型在无需重新对新类别下的数据进行拟合训练即可具备新类别信息的编码能力,即支持可扩展类别信息的编码能力,从而降低由文本语义哈希模型重复训练和在线系统运行模型更新带来的资源开销。扩展类别编码指的是对训练集外的类别进行编码,本发明能够使得模型在无需重新对新类别下的数据进行训练,即可具备新类别信息的编码能力。

本文地址:https://www.jishuxx.com/zhuanli/20240802/259708.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。