文档排序方法及通信装置与流程
- 国知局
- 2024-07-31 23:19:04
本技术涉及通信领域,尤其涉及文档排序方法及通信装置。
背景技术:
1、在文档排序中,文本重排序是信息检索过程中的一个重要步骤。由于初步排序结果一般从大规模语料库中检索查询文本而获取,初步排序结果的准确度不高,因此需要通过文本重排序对初步排序结果进行优化,以提升检索准确度。具体来说,文本重排序需要根据初步排序结果中的候选文档与查询文本之间的相关性等信息对候选文档进行重新排序。
2、现有的文本重排序方法的排序准确性有待提高。
技术实现思路
1、本技术提供一种文档排序方法及通信装置,用于提升文本排序的排序准确性。
2、为达到上述目的,本技术采用如下技术方案:
3、第一方面,提供了一种文档排序方法,该方法包括:获取查询文本以及将查询文本作为检索条件而检索到的多项候选文档;计算查询文本与多项候选文档中每个候选文档之间的第一相似度、以及计算多项候选文档之间每两个候选文档之间的第二相似度,得到相似度矩阵;其中,相似度矩阵的大小为n×n-1,第1行、j列的向量为查询文本和第j个候选文档之间的第一相似度,第i+1行、j列的向量为第i个候选文档和第j个候选文档之间的第二相似度;n为查询文本与多项候选文档的项数总和,i∈[1,n-1],j∈[1,n-1];根据对应相似度矩阵中每项候选文档对应的行中向量的第一向量与对应相似度矩阵中查询文本对应的行中的向量的第二向量之间的相关性强弱,对多项候选文档进行排序。
4、第一方面中,在获取查询文本以及多项候选文档之后,不但计算查询文本与多项候选文档中每个候选文档之间的第一相似度,而且还计算多项候选文档之间每两个候选文档之间的第二相似度,得到相似度矩阵。然后,根据相似度矩阵中的第一向量与第二向量之间的相关性强弱,对多项候选文档进行排序。对多项候选文档进行排序依据的第一向量与第二向量的生成过程中,非但考量了查询文本与候选文本的匹配程度(第一相似度),而且引入了多项候选文档之间的协同关系(第二相似度),能够提升文档排序的准确性。
5、在一种实现中,根据第一向量与第二向量之间的相关性强弱,对多项候选文档进行排序,包括:将相似度矩阵的每一行中的多个向量聚合成一个向量,得到第一向量与第二向量;计算查询文本对应的第二向量与每个候选文档对应的第一向量之间的相关度;根据相关度的大小对多项候选文档进行排序。
6、在该实现中,根据修正后的相似度矩阵中的第一向量与第二向量之间的相关性强弱,对多项候选文档进行排序,由于第一向量和第二向量非但考量了查询文本与候选文本的匹配程度(第一相似度),而且引入了多项候选文档之间的协同关系(第二相似度),能够提升文档排序的准确性。
7、在一种实现中,将相似度矩阵的每一行中的多个向量聚合成一个向量,得到第一向量与第二向量,包括:将相似度矩阵输入语言聚合模型对相似度矩阵的每一行中的多个向量进行聚合,输出第一向量与第二向量。
8、在该实现中,通过语言聚合模型对修正后的相似度矩阵的每一行中的多个向量进行聚合,聚合效率较高。
9、在一种实现中,计算查询文本与多项候选文档中每个候选文档之间的第一相似度、以及计算多项候选文档之间每两个候选文档之间的第二相似度,得到相似度矩阵,包括:将查询文本与每个候选文档输入检索器进行相似度计算,得到第一相似度、以及将每两个候选文档输入检索器进行相似度计算,得到第二相似度;排列第一相似度和第二相似度,使排列后的阵列的大小为n×n-1,第1行、j列的向量为查询文本和第j个候选文档之间的第一相似度,第i+1行、j列的向量为第i个候选文档和第j个候选文档之间的第二相似度,得到相似度矩阵。
10、在该实现中,通过检索器计算查询文本与候选文档之间的第一相似度、以及候选文档与候选文档之间的第二相似度,并排列第一相似度和第二相似度而得到相似度矩阵,生成相似度矩阵的效率较高。
11、在一种实现中,检索器包括稀疏检索器和稠密检索器。
12、在该实现中,检索器包括稀疏检索器和稠密检索器,通过稀疏检索器和稠密检索器并行计算查询文本与候选文档之间的第一相似度、以及候选文档与候选文档之间的第二相似度。计算得到的第一相似度和第二相似度,体现了稀疏检索器和稠密检索器的语言特性(词汇和语义)。基于第一相似度和第二相似度构成的相似度矩阵进行文档排序,兼并了稀疏检索器和稠密检索器的检索性能,进而提升了文档排序性能。
13、在一种实现中,方法还包括:对于相似度矩阵中的每个向量,参考与每个向量位于同一列的其他向量,对每个向量进行修正,得到修正后的相似度矩阵;第一向量对应修正后的相似度矩阵中每项候选文档对应的行中的向量,第二向量对应修正后的相似度矩阵中查询文本对应的行中的向量。
14、在该实现中,对于相似度矩阵中的每个向量,参考与每个向量位于同一列的其他向量(每一列称为一个列序列),对每个向量进行修正。使得列序列中的每个向量,都能得到在该列序列中相同位置向量的相对大小信息,这些信息有助于后续步骤做到更精确的相关度度量。而后续的排序过程中第一向量与第二向量之间的相关度计算是行序列之间内进行的信息交互,可以与当前列序列的修正效果叠加,进而使得相似度矩阵中的每一个向量都感受到其他所有向量的信息,即获得全局感受野,进一步提升文档排序的准确性。
15、在一种实现中,对于相似度矩阵中的每个向量,参考与每个向量位于同一列的其他向量,对每个向量进行修正,得到修正后的相似度矩阵,包括:将相似度换矩阵输入语言表征模型对相似度矩阵中的每个向量执行如下操作:参考与每个向量位于同一列的其他向量,对每个向量进行修正,输出修正后的相似度矩阵。
16、在该实现中,通过将相似度矩阵输入语言表征模型对相似度矩阵中相同列内的向量进行修正,使得相似度矩阵中的向量能够感知同一列中的其他向量,进而得到修正后的相似度矩阵,实现了候选文档的协同,使后续步骤的序列相似度度量更精确,且生成修正后的相似度矩阵的效率较高。
17、在一种实现中,方法还包括:在对于相似度矩阵中的每个向量,参考与每个向量位于同一列的其他向量,对每个向量进行修正之前,对相似度矩阵进行线性变换。
18、在该实现中,对相似度矩阵进行线性变换,以实现对相似度矩阵中的低维向量到一个相对高维向量的转换,有助于后续步骤对查询文本和候选文档的表示之间的距离度量,进而提升文档排序的准确性。
19、在一种实现中,方法还包括:显示相似度矩阵;接收并响应于针对相似度矩阵的第一输入,根据第一输入修正第一输入针对的目标相似度;目标相似度包括第一相似度和/或第二相似度。
20、在该实现中,首先显示相似度矩阵,然后接收并响应于针对相似度矩阵的第一输入,以根据第一输入修正第一输入针对的目标相似度,引进了用户知识优化了相似度矩阵,提升了文档排序的准确性。
21、第二方面,提供了一种通信装置,该通信装置可以为本技术提供方法的执行主体中的芯片或者片上系统,该通信装置可以实现上述第一方面或者第一方面可能的设计中执行主体所执行的功能,所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个上述功能相应的模块。如:该通信装置包括:处理模块,用于通过收发模块获取查询文本以及将查询文本作为检索条件而检索到的多项候选文档;然后计算查询文本与多项候选文档中每个候选文档之间的第一相似度、以及计算多项候选文档之间每两个候选文档之间的第二相似度,得到相似度矩阵;其中,相似度矩阵的大小为n×n-1,第1行、j列的向量为查询文本和第j个候选文档之间的第一相似度,第i+1行、j列的向量为第i个候选文档和第j个候选文档之间的第二相似度;n为查询文本与多项候选文档的项数总和,i∈[1,n-1],j∈[1,n-1];最后,根据对应相似度矩阵中每项候选文档对应的行中向量的第一向量与对应相似度矩阵中查询文本对应的行中的向量的第二向量之间的相关性强弱,对多项候选文档进行排序。
22、在一种实现中,处理模块,具体用于:将相似度矩阵的每一行中的多个向量聚合成一个向量,得到第一向量与第二向量;计算查询文本对应的第二向量与每个候选文档对应的第一向量之间的相关度;根据相关度的大小对多项候选文档进行排序。
23、在一种实现中,处理模块,具体用于:将相似度矩阵输入语言聚合模型对相似度矩阵的每一行中的多个向量进行聚合,输出第一向量与第二向量。
24、在一种实现中,处理模块,具体用于:将查询文本与每个候选文档输入检索器进行相似度计算,得到第一相似度、以及将每两个候选文档输入检索器进行相似度计算,得到第二相似度;排列第一相似度和第二相似度,使排列后的阵列的大小为n×n-1,第1行、j列的向量为查询文本和第j个候选文档之间的第一相似度,第i+1行、j列的向量为第i个候选文档和第j个候选文档之间的第二相似度,得到相似度矩阵。
25、在一种实现中,检索器包括稀疏检索器和稠密检索器。
26、在一种实现中,处理模块,还用于:对于相似度矩阵中的每个向量,参考与每个向量位于同一列的其他向量,对每个向量进行修正,得到修正后的相似度矩阵;第一向量对应修正后的相似度矩阵中每项候选文档对应的行中的向量,第二向量对应修正后的相似度矩阵中查询文本对应的行中的向量。
27、在一种实现中,处理模块,具体用于:将相似度换矩阵输入语言表征模型对相似度矩阵中的每个向量执行如下操作:参考与每个向量位于同一列的其他向量,对每个向量进行修正,输出修正后的相似度矩阵。
28、在一种实现中,处理模块,还用于:在对于相似度矩阵中的每个向量,参考与每个向量位于同一列的其他向量,对每个向量进行修正之前,对相似度矩阵进行线性变换。
29、在一种实现中,处理模块,还用于显示相似度矩阵;收发模块,用于接收针对相似度矩阵的第一输入;处理模块,还用于响应于第一输入,根据第一输入修正第一输入针对的目标相似度;目标相似度包括第一相似度和/或第二相似度。
30、第三方面,本技术提供一种通信装置,通信装置包括处理器和收发器,处理器和收发器用于支持通信装置执行第一方面的方法。进一步的,该通信装置还可以包括存储器,该存储器存储有计算机指令,当处理器可以运行该计算机指令执行第一方面的方法。
31、第四方面,本技术提供一种计算机可读存储介质,计算机可读存储介质存储计算机指令,当计算机指令运行时,第一方面的方法被执行。
32、第五方面,本技术提供一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机可以执行上述第一方面的方法。
33、第六方面,本技术提供一种芯片,该芯片包括处理器和收发器,处理器和收发器用于支持通信装置执行第一方面的方法。
34、其中,本技术中第二方面至第六方面描述的有益效果,可以对应参考第一方面的有益效果分析,此处不再赘述。
本文地址:https://www.jishuxx.com/zhuanli/20240730/196980.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。