技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于非结构化文本检索模型的在线通讯处理方法和系统与流程  >  正文

基于非结构化文本检索模型的在线通讯处理方法和系统与流程

  • 国知局
  • 2024-11-06 14:39:08

本发明涉及信息检索,尤其涉及非结构化文本在联通在线隐私通信业务系统中的应用。

背景技术:

1、21 世纪是信息技术主导技术革新的时代,随着信息量暴涨,每日所产生的信息量是巨大的,且大都是非结构化的,其中网络数据中文本形式的数据占据超过 80%,从中检索并筛选信息是十分困难的。非结构化文本检索是指文本检索模型根据用户输入的查询关键词,返回非结构化文档库中与查询意图最相关的文档集合,文本检索模型主要包含文本定义、文本和查询表示和相关度计算,其中如何计算文本和用户输入的查询关键词之间的相关度是文本检索中最核心的问题。

2、几十年来,人们提出了各种各样的文本检索模型,从传统的向量空间模型、概率模型、聚类模型,到深度学习模型,向量空间模型和概率模型通过计算文本和查询之间的相似度来实现检索。而聚类模型将文本集合聚类成不同的主题,从而提供更加精准的检索结果。深度学习模型在文本检索领域中通过数据增强、负样本采样、模型融合等方法提高深度学习模型在文本检索领域的性能和稳定性。

3、知识图谱(knowledge graph)由 2012 年谷歌为了提高搜索引擎效率而提出,随后扩展至其他领域,它是一种以简单直观的图结构表示实体之间的复杂关系的知识库,可以用来支持非结构化文本检索技术。知识图谱在文本检索中的应用主要包括两个方面:(1)实体链接:将文本中提及的实体与知识图谱中对应的实体进行链接,从而提高搜索结果的准确性和丰富性。(2)语义搜索:基于知识图谱的关系和属性信息,在搜索时可以考虑上下文语义,提高搜索结果的准确性和相关度。结合知识图谱的文本检索方法主要有两类:一是通过知识图谱引入背景信息和先验知识来优化检索性能,二是通过深度学习技术从大规模的数据中学到信息的隐性表示。

4、虽然文本检索作为信息检索领域的一个重要分支,但是传统的文本检索方法随着信息的增多和复杂度的提高,其准确度和效率已经不能满足实际需求。常见的传统文本检索方法主要有布尔模型、向量空间模型、概率模型和基于规则的模型。布尔模型属于字符串严格匹配,无法排序。面对越来越复杂、庞大的信息量来说,显然不适用;向量空间模型倾向于忽略频繁出现的词,保留低频词语。但它忽略了词序和语义信息,仅仅将文本表示为单个词汇频率的向量,不能区分文本语义;基于规则的文本检索模型实现简单,可解释性好,适用于一些简单的文本检索场景。但对于一些复杂的场景可能无法很好地处理,难以满足用户的个性化需求。

5、目前,基于深度学习的文本检索研究主要有两个方向:基于语义表示和基于交互信息。基于文本语义表示的深度学习解决了传统方法存在的字典爆炸问题,降低了计算复杂度和内存使用空间。但它也存在诸多缺陷,如词哈希可能导致词冲突、噪声大难以收敛;基于交互信息匹配的文本检索主要包含drmm、knrm和ance等模型,ance 模型通过采用近似最近邻负对比学习策略,在开放域问答和其他检索任务中实现高效且准确的检索。主要是关注于优化密集向量表示,从而提高检索效果。

6、近年来,深度学习方法的快速发展为文本检索技术的提升带来了新的机遇,基于深度学习的文本检索方法逐渐成为研究的热点。随着知识图谱的兴起,越来越多的学者将知识图谱应用于文本检索中,提出了一系列基于知识图谱的文本检索方法,旨在通过丰富的语义信息和结构信息提高文本检索的准确率和效率。

技术实现思路

1、针对现有技术的上述缺陷,本发明使用知识图谱实现非结构化文本检索,解决文本检索领域存在的语义歧义问题,提高检索精度;更进一步地,提取段关键词后输入到bert 模型进行关键词的多向量表示,保证同一关键词的不同语义表示存在适当的差异性;在其局部匹配层引入覆盖率机制,使其可以更好地根据短信的不同粒度计算查询和短信的相似度;此外,使用基于知识图谱图嵌入的方法融合 bert语义表示,利用内源知识图谱中的实体和关系紧密、易于生成全局语义和外源知识图谱可增强文本表示扩展性的特点来提高文本的语义表示和相似度计算准确度,该方法构造的相似度矩阵更准确,可以进一步提高检索性能。分析不同图嵌入方法在不同数据特征下的适用性和局限性,为具体应用打下良好基础。

2、本发明意在提供一种基于非结构化文本检索模型的在线通讯处理方法、系统、计算机可读存储介质和计算机设备,以解决现有技术中存在的不足,本发明要解决的技术问题通过以下技术方案来实现。

3、本发明的第一方面提供了一种基于非结构化文本检索模型的在线通讯处理方法,上述方法包括:

4、步骤一,输入步骤;

5、步骤二,构建知识图谱和存储步骤,所述构建知识图谱并存储进一步包括:

6、构建文档库,将短信内容数据集作为文档库,将所有文本存入项目根目录下,所述文本文件重命名为各不相同的id;

7、构建内源知识图谱,使用开源工具包调用 spert 模型生成三元组来构造内源知识图谱;使用 hanlp库对每篇文本进行预处理,包括数据清洗,去除噪音后编码为utf-8格式;对每篇预处理后的文本通过所述spert模型进行实体关系抽取并合并,生成三元组;将所述三元组存入所述知识图谱,对完全不存在的三元组进行性新增操作,对于部分存在或完全存在的三元组进行合并操作,并且节点和关系保存文本的id;

8、构建外源知识图谱和训练初始模型,使用openkg,通过restful api获取所述文本的部分知识图谱作为所述外源知识图谱,使用实体保存文本 id;

9、步骤三,调用和定时更新文本检索模型步骤;

10、步骤四,执行数据库操作以实现数据管理步骤;

11、步骤五,检索步骤。

12、结合第一方面,进一步包括步骤六,可视化步骤,用于显示用户查询的结果和呈现检索结果。

13、结合第一方面,进一步地,所述开源工具包使用hanlp 库,所述hanlp 库提供多种中文文本处理的功能,包括分词、词性标注、命名实体识别、依存句法分析、关键词提取、文本分类、情感分析和问答系统。

14、结合第一方面,所述执行数据库操作以实现数据管理步骤进一步包括:

15、增加文本时,新增的文本保存到文本库中,经过预处理后提取关键字保存到新建文件中;利用所述知识图谱构建方法补全所述内源知识图谱;通过restful api根据新文本涉及到的关系实体访问openkg,获取所述三元组来补全所述外源知识图谱;

16、删除文本时,所述内源知识图谱和所述外源知识图谱根据所述文本的id 删除相关节点和关系,同时更新所述新建文件;

17、进行模型迭代,通过设置定时任务,每隔两周执行用于重新训练检索模型的train.py 脚本,生成的新模型ir.model覆盖旧模型。

18、结合第一方面,所述检索步骤进一步包括:

19、用户输入,

20、参数校验,用于校验用户的输入是否合法;

21、查询关键字提取,用户输入的关键字传入到前端页面的关键词输入框,再传递给后端服务,

22、文档相似度计算,文本检索中,用户输入的查询语句和文档库中文本的相似度,可以转化为多个查询关键词和多个文本关键词的多对多相关性匹配,使用余弦相似度首先将两篇文章的文本数据向量化,分别转换为向量,然后通过计算两个向量的余弦值,使用如下公式(1)来确定它们之间的相似度,

23、     (1)

24、在公式(1)中,qi,wj表示两个实体向量,,表示向量qi, wj的模长;

25、针对每个实体生成对应的语义向量,再使用余弦相似度计算所有实体间的语义距离;为保证知识图谱的一致性和准确性,设置实体相似度阈值为0.9;

26、检索结果排序,

27、从所述新建文件中获取每个文本的关键词,与查询关键字一起输入文本检索模型,输出相关度逆序排列的检索结果。

28、本发明的第二方面提供了一种基于非结构化文本检索模型的在线通讯处理系统,上述系统包括:

29、输入模块;

30、构建知识图谱和存储模块,所述构建知识图谱并存储模块进一步包括:

31、文档库构建子模块,将短信内容数据集作为文档库,将所有文本存入项目根目录下,所述文本文件重命名为各不相同的id;

32、内源知识图谱构建子模块,使用开源工具包调用 spert 模型生成三元组来构造内源知识图谱;使用 hanlp库对每篇文本进行预处理,包括数据清洗,去除噪音后编码为utf-8格式;对每篇预处理后的文本通过所述spert模型进行实体关系抽取并合并,生成三元组;将所述三元组存入所述知识图谱,对完全不存在的三元组进行性新增操作,对于部分存在或完全存在的三元组进行合并操作,并且节点和关系保存文本的id;

33、外源知识图谱和训练初始模型构建子模块,使用openkg,通过restful api获取所述文本的部分知识图谱作为所述外源知识图谱,使用实体保存文本 id;

34、调用和定时更新文本检索模型模块;

35、执行数据库操作以实现数据管理模块;

36、检索模块。

37、本发明的第三方面提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现基于非结构化文本检索模型的在线通讯处理方法的步骤。

38、本发明的第四方面提供了一种计算机设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序以实现基于非结构化文本检索模型的在线通讯处理方法的步骤。

39、本发明的创新之处在于:

40、1.针对文本检索领域难以解决语义歧义的问题,通过对输入的词向量进行改进,将bert词嵌入和基于知识图谱图嵌入的知识增强技术引入,增强算法对于文本和查询的理解能力,进而提高检索精度。

41、2.设计了一种基于非结构化文本检索模型来解决文本歧义问题。该模型首先对文档的各个自然段提取关键词来减少任务处理复杂度和计算量;然后在局部匹配层采用结合覆盖率机制的bert多向量表示进行改进,使模型可以根据文档的局部段级别粒度和全局文档级别粒度进行相关性计算,提高语义匹配精度;最后使用bi-gru改进的全局决策层来减少过拟合的风险并提高计算效率。

42、3.针对bert模型过于关注局部上下文,从而忽略文档库全局语义信息的问题,使用知识图谱图嵌入结合 bert 语义表示的方法,平衡关键词在单个文本的局部语义和多个关联文本的全局语义。

43、本发明旨在提高短信内容的检索精度和效率,更好服务与人民,维护网络信息安全。

本文地址:https://www.jishuxx.com/zhuanli/20241106/323312.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。