一种用于确定实体名称的方法、设备、介质及程序产品与流程
- 国知局
- 2024-07-31 22:45:43
本申请涉及通信领域,尤其涉及一种用于确定实体名称的技术。
背景技术:
1、使用互联网的过程中,信息载体中包含了大量的命名实体。“实体”包括但不限于:组织名、人名、地名、商品名等具有明确语义信息的文本实体。如何有效利用识别出的命名实体,是使用命名实体的关键。识别出文本中的实体后,可以通过实体链接的方法链接到知识库中的目标实体。实体链接(entity linking,el)是指将自由文本中已识别的实体对象(例如:人名、地名、机构名等),无歧义的正确的指向知识库中目标实体的过程。
技术实现思路
1、本申请的一个目的是提供一种用于确定实体名称的方法、设备、介质及程序产品。
2、根据本申请的一个方面,提供了一种用于确定实体名称的方法,所述方法包括:
3、获取目标文档,其中,所述目标文档包括一个或多个目标分词,所述一个或多个目标分词按照目标顺序排列,每个所述目标分词具有该目标分词对应的词顺序;
4、根据所述一个或多个目标分词生成所述目标文档对应的目标向量,其中,所述目标向量包括一个或多个目标分量,所述一个或多个目标分量与所述一个或多个目标分词一一对应;
5、通过主题模型输出所述一个或多个目标分词的概率主题分布,以确定所述目标文档中每个所述目标分词对应的目标主题;
6、根据所述目标主题的属性信息从所述一个或多个目标分词中确定所述目标文档中的实体名称。
7、根据本申请的一个方面,提供了一种用于确定实体名称的设备,该设备包括:
8、处理器;以及
9、被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如上所述任一方法的操作。
10、根据本申请的一个方面,提供了一种存储指令的计算机可读介质,所述指令在被执行时使得系统进行如上所述任一方法的操作。
11、根据本申请的一个方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如上所述任一方法的步骤。
12、与现有技术相比,本申请通过获取目标文档,根据所述目标文档的一个或多个目标分词生成所述目标文档对应的目标向量,基于所述目标向量,通过主题模型确定所述目标文档对应的目标主题,从而根据所述目标主题的属性信息确定所述目标文档中的实体。本申请通过主题模型确定目标文档的目标主题,从而根据目标主题的属性信息确定所述目标文档中的实体,以消除歧义,提高实体确定的准确性。
技术特征:1.一种用于确定实体名称的方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述获取目标文档,包括:
3.根据权利要求1所述的方法,其特征在于,所述根据所述目标主题的
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
5.根据权利要求4所述的方法,其特征在于,所述根据多篇训练文档的
6.根据权利要求5所述的方法,其特征在于,所述获取多篇训练文档,
7.根据权利要求5所述的方法,其特征在于,所述方法还包括:
8.一种用于确定实体名称的计算机设备,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现如权利要求1至7中任一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。
技术总结本申请的目的是提供一种用于确定实体名称的方法和设备。方法包括获取目标文档,其中,目标文档包括一个或多个目标分词,一个或多个目标分词按照目标顺序排列,每个目标分词具有该目标分词对应的词顺序;根据一个或多个目标分词生成目标文档对应的目标向量,目标向量包括一个或多个目标分量,一个或多个目标分量与一个或多个目标分词一一对应;通过主题模型输出一个或多个目标分词的概率主题分布,以确定目标文档中每个目标分词对应的目标主题;根据目标主题的属性信息从一个或多个目标分词中确定目标文档中的实体名称。本申请通过主题模型确定目标文档的目标主题,从而根据目标主题确定目标文档中的实体,以消除歧义,提高实体确定的准确性。技术研发人员:牛冠东受保护的技术使用者:企知道科技有限公司技术研发日:技术公布日:2024/7/29本文地址:https://www.jishuxx.com/zhuanli/20240730/194460.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。