一种融合关键概念和潜在概念的冗长查询缩略方法
- 国知局
- 2025-01-10 13:14:42
本发明公布一种融合关键概念和潜在概念的冗长查询缩略方法,涉及自然语言处理。
背景技术:
1、查询缩略指的是将冗长且包含大量无关术语的查询缩减为简洁而准确的形式,并基于缩减后的查询进行高效检索,提高检索结果的召回率和准确率。在实际应用中,查询缩略的过程通常涉及识别和去除查询中停用词和不必要的修饰语,提取能够准确表达查询核心内容的关键词和短语。
2、目前在查询缩略任务的研究中,主要有两类方法:传统的统计方法和基于预训练模型提取关键词的方法。然而,使用上述方法在进行缩略查询时会面临信息丢失和语义理解的限制。这是因为(1)该方法主要基于词汇的重要性得分进行缩略,而缩略结果中的语义不连贯破坏了原查询的整体语义结构,无法全面反映查询的核心内容。(2)也忽视了查询中的潜在概念。潜在概念是指在查询语句背后的潜在主题、内容,而不是直接显露在查询中的具体关键词或短语。由于缺乏潜在概念的补充,导致检索结果的覆盖面不足。针对上述问题,本文提出了一种融合关键概念和潜在概念的冗长查询缩略方法。
技术实现思路
1、本发明目的在于提供一种融合关键概念和潜在概念的冗长查询缩略方法,用于提高对冗长查询的语义理解和核心内容提取能力,同时补充了原始查询中的潜在概念。提升检索结果的召回率和准确率。
2、本发明的技术方案是:一种融合关键概念和潜在概念的冗长查询缩略方法,包括:
3、针对于关键概念:通过微调t5模型来生成查询;根据输入文本的语义内容生成一个作为关键概念的查询;
4、针对潜在概念:使用伪相关反馈方法挖掘原始查询的潜在概念;选择初始检索结果中排名靠前的k个文档中逆文档频率最高的n个术语作为原始查询的潜在概念;
5、最后,将关键概念的查询、原始查询的潜在概念进行聚合,得到最终的缩略查询。
6、所述方法具体包括如下步骤:
7、step1、下载robust04数据集,其中文档集中包含528155条文档数据,查询集中包含250条查询数据,查询相关性评估文档中包含311,410条相关性评估;
8、step2、将原始查询通过嵌入层转换成稠密向量,并加上位置编码。接着,经过24层的transformer编码器进行编码,得到嵌入表示。解码器则包括掩码多头自注意力机制、编码器-解码器注意力机制和前馈神经网络,通过24层的解码器生成输出。最后,解码器的输出经过线性层和softmax层生成每个时间步的概率分布。得到缩略后的查询;
9、step3、对冗长查询使用伪相关反馈方法来挖掘查询中未明确表达但实际相关的重要信息;选择初始检索结果中排名靠前的k个文档中逆文档频率最高的n个术语作为原始查询的潜在概念;
10、step4、将step2、step3两个步骤得到的结果进行聚合,得到最终的缩略查询。将最终获得的查询馈送到检索器中进行信息检索。
11、作为本发明的优选方案,所述的step1包括:
12、step1.1、从网上下载公开的robust2004数据集。
13、step1.2、对robust2004数据集中文档集进行降噪处理,删掉空白行,重复行以及有非法字符的行。提取robust2004数据集中查询集中<des>标签下的查询作为实际使用的冗长查询的测试集。人工构建训练集,格式对应查询集中的<title>和<desc>标签。
14、作为本发明的优选方案,所述的step2包括:
15、step2.1、将输入的原始查询q=(q1,q2,…q|q|)(长度为|q|)通过嵌入层转换成稠密向量,并加上位置编码,以保留位置信息。其嵌入表示为e(q)=(e(q1),e(q2),…,e(q|q|))。
16、step2.2、输入嵌入e(q)经过24层的transformer编码器。每一层包含两个主要的组件:多头注意力机制和前馈神经网络,最后编码器的输出表示为:h(q)=(h1,h2,…,h|q|)。
17、step2.3、解码器每层包含三个主要组件:掩码多头自注意力机制,编码器-解码器注意力机制,前馈神经网络。通过24层的解码器进行解码,得到解码器的输出表示:y=(y1,y2,…,y|m|)。
18、step2.4、解码器的最终输出通过线性层映射到词汇表大小的向量,并通过softmax层生成每个时间步的概率分布。
19、作为本发明的优选方案,所述的step3包括:
20、step3.1、给定原始输入查询q=(q1,q2,…q|q|)和文档集中的其中一个文档d=(d1,d2,…,d|d|)。查询和文档的长度分别为|q|和|d|。使用预训练的bert模型分别对查询和文档进行编码,每个查询和文档都会被编码成一个高维向量表示。两者的向量分别表示为e′(q)和e(d)。
21、step3.2、在查询和文档的向量空间中,通过计算查询和文档每个词的内积来度量两者的相似度。相似度得分矩阵s的元素sij表示查询中的第i个词qi和文档中的第j个词dj的相似度。
22、step3.3、为了得到查询和文档的最终相关性得分,本文通过最大池化(max-pooling)对相似度得分矩阵s进行聚合。
23、step3.4、经过第一次密集检索后,选取每个查询对应的相关性得分sq,d较高的top-k文档(本发明方法中k=100)作为相关文档集。从这些相关文档集中提取逆文档频率最高的n个术语(本发明方法中n=6),这n个术语即为潜在概念。
24、本发明有益效果:
25、本发明提出了一种融合关键概念和潜在概念的冗长查询缩略方法,将代表查询核心内容的关键概念和对理解查询重要但未明确表达的潜在概念相结合,从而生成更完整和有效的查询。主要包括三个方面:首先利用预训练模型来生成简短有效的查询作为关键概念,然后使用伪相关反馈方法从原始查询的相关文档集中挖掘潜在概念,最后,将两者聚合作为最终的查询缩略结果,实现冗长查询检索。
26、本发明提出的融合关键概念和潜在概念的冗长查询缩略方法,验证了本发明方法对冗长查询缩略任务的有效性,提升检索结果的召回率和准确率。
技术特征:1.一种融合关键概念和潜在概念的冗长查询缩略方法,其特征在于,包括:
2.如权利要求1所述的融合关键概念和潜在概念的冗长查询缩略方法,其特征在于,包括下列步骤:
3.如权利要求2所述的融合关键概念和潜在概念的冗长查询缩略方法,其特征在于,所述step1的具体实现包括:
4.如权利要求2所述的融合关键概念和潜在概念的冗长查询缩略方法,其特征在于,所述step2的具体实现包括:
5.如权利要求2所述的一种融合关键概念和潜在概念的冗长查询缩略方法,其特征在于,所述step3的具体实现包括:
技术总结本发明公开一种融合关键概念和潜在概念的冗长查询缩略方法,涉及自然语言处理领域。本发明在进行信息检索前,对冗长的查询输入进行缩略。将代表查询核心内容的关键概念和对理解查询重要但未明确表达的潜在概念相结合,生成更完整和有效的查询。具体的,首先通过微调T5模型来生成简短有效的查询,是根据输入文本的语义内容生成一个作为关键概念的简短查询;然后使用伪相关反馈方法挖掘原始查询的潜在概念,选择初始检索结果中排名靠前的k个文档中逆文档频率最高的n个术语作为原始查询的潜在概念;最后,将两者聚合作为最终的查询缩略结果,实现冗长查询检索。本发明提升了检索结果的召回率和准确率。技术研发人员:黄于欣,朱铭洋,余正涛受保护的技术使用者:昆明理工大学技术研发日:技术公布日:2025/1/6本文地址:https://www.jishuxx.com/zhuanli/20250110/351866.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表