一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种实体对齐辅助方法、装置、设备及存储介质与流程

2021-10-24 09:04:00 来源:中国专利 TAG:对齐 实体 装置 辅助 方法


1.本发明涉及实体对齐领域,尤其涉及一种实体对齐辅助方法、装置、设备及存储介质。


背景技术:

2.对齐指的是将同一概念的不同表达方式进行融合的过程,大多数情况下包含实体的同义词、别称、中英文等,比如将四字弟弟与易烊千玺都指向到明星——易烊千玺。目前在现有技术中,基于nlp的实体识别算法与实际需求存在比较大的偏差,存在识别结果对齐的问题,而算法工程师往往不具备相关的背景知识,往往是在算法工程师将算法结果给到有相关背景知识的业务人员来确认结果给出反馈再进行算法优化,从而造成了算法优化效率低下,调试优化周期长等问题。


技术实现要素:

3.为克服相关技术中存在的问题,本发明提供一种实体对齐辅助方法、装置、设备及存储介质。
4.根据本发明实施例的第一方面,提供一种实体对齐辅助方法,包括:
5.获取实体识别算法结果,所述实体识别算法结果包括识别的至少两个实体;
6.判断识别的实体是否需要融合;
7.若需要融合,则按照预设的对齐逻辑将所述实体进行融合并对齐到对应的标准实体。
8.进一步,所述判断识别的实体是否需要融合,具体包括:
9.将识别的实体分别与标准实体库进行相似度比对;
10.若识别的实体中有至少两个目标实体与所述标准实体库中同一标准实体的相似度均大于设定值,则判断识别的实体中的所述至少两个目标实体需要融合。
11.进一步,在将识别的实体分别与标准实体库进行相似度比对之后,还包括:
12.按照相似度大小对识别的实体进行排序。
13.进一步,在将所述实体进行融合并对齐到对应的标准实体之后,还包括:
14.将对齐后的结果输出至下游系统。
15.根据本发明实施例的第二方面,提供一种实体对齐辅助装置,包括:
16.结果获取模块,用于获取实体识别算法结果,所述实体识别算法结果包括识别的至少两个实体;
17.融合判断模块,用于判断识别的实体是否需要融合;
18.融合对齐模块,用于若所述融合判断模块判断识别的实体需要融合,则按照预设的对齐逻辑将所述实体进行融合并对齐到对应的标准实体。
19.进一步,所述融合判断模块,具体包括:
20.相似度比对单元,用于将识别的实体分别与标准实体库进行相似度比对;
21.融合判断单元,用于若识别的实体中有至少两个目标实体与所述标准实体库中同一标准实体的相似度均大于设定值,则判断识别的实体中的所述至少两个目标实体需要融合。
22.进一步,还包括:
23.排序单元,用于在所述相似度比对单元将识别的实体分别与标准实体库进行相似度比对之后,按照相似度大小对识别的实体进行排序。
24.进一步,还包括:
25.结果输出模块,用于在所述融合对齐模块将所述实体进行融合并对齐到对应的标准实体之后,将对齐后的结果输出至下游系统。
26.根据本发明实施例的第三方面,提供一种终端设备,包括:
27.处理器;以及
28.存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如上所述的方法。
29.根据本发明实施例的第四方面,提供一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如上所述的方法。
30.本发明的实施例提供的技术方案可以包括以下有益效果:
31.通过设定一定的对齐逻辑来进行批量的实体融合和对齐操作,从而极大提高实体对齐的准确度和效率。
32.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
33.通过结合附图对本发明示例性实施方式进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显,其中,在本发明示例性实施方式中,相同的参考标号通常代表相同部件。
34.图1是根据本发明一示例性实施例示出的一种实体对齐辅助方法的流程示意图;
35.图2是根据本发明示例性实施例示出的一种实体对齐辅助装置的结构框图;
36.图3是根据本发明一示例性实施例示出的一种计算设备的结构示意图。
具体实施方式
37.下面将参照附图更详细地描述本发明的优选实施方式。虽然附图中显示了本发明的优选实施方式,然而应该理解,可以以各种形式实现本发明而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本发明更加透彻和完整,并且能够将本发明的范围完整地传达给本领域的技术人员。
38.在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
39.应当理解,尽管在本发明可能采用术语“第一”、“第二”、“第三”等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
40.以下结合附图详细描述本发明实施例的技术方案。
41.图1是根据本发明一示例性实施例示出的一种实体对齐辅助方法的流程示意图。
42.参见图1,该方法包括:
43.110、获取实体识别算法结果,所述实体识别算法结果包括识别的至少两个实体;
44.120、判断识别的实体是否需要融合;
45.130、若需要融合,则按照预设的对齐逻辑将所述实体进行融合并对齐到对应的标准实体。
46.具体的,实际项目中,实体识别算法结果与实际需求存在比较大的偏差,尤其是在实体融合方面,现有算法并不能有效判定实体结果是否需要融合。本发明实施例提供了一套辅助系统,业务人员(有相关背景知识的人)可以在本系统中对算法识别的实体进行对齐,并可设定一定的对齐逻辑来进行批量的实体融合操作,从而得到融合后的结果输入到后续的数据分析流程中,极大提高实体对齐的准确度和效率。对齐逻辑包含但不限于包含某些关键词,比如定义包含“奥迪”的识别实体都对齐到汽车品牌

奥迪的标准实体。
47.本发明的优点在于业务人员与算法工程师分工合作,业务人员可在算法输出的结果上对数据进行系统性的修正与调整,从而使实体识别和融合结果满足业务需求,修正与调整的逻辑作为业务知识在系统内进行沉淀的同时可以反馈给算法工程师对算法进行模型迭代和升级,优化算法识别的结果。
48.本发明在算法进行实时识别的结果上进行系统性的人工修正和融合,使算法结果能够满足业务需求,同时将人工修正与融合的结果反馈给算法进行迭代升级,使算法能够不断自我修正。
49.可选地,在该实施例中,步骤120,具体包括:
50.1200、若识别的实体中的至少两个目标实体包含同一关键词,则所述至少两个目标实体需要融合。
51.由于包含同一关键词的实体需要融合的可能性较高,本实施例中,通过配置规则,将算法识别的实体中包含同一关键词的实体作为需要融合的目标实体,比如定义包含“奥迪”的识别实体都对齐到汽车品牌

奥迪的标准实体,本实施例能够辅助业务人员人工进行实体融合或直接进行融合,大大提高了实体融合的效率。
52.可选地,在该实施例中,步骤120,具体包括:
53.2200、将识别的实体分别与标准实体库进行相似度比对;
54.2202、若识别的实体中有至少两个目标实体与所述标准实体库中同一标准实体的相似度均大于设定值,则判断识别的实体中的所述至少两个目标实体需要融合。
55.该实施例中,将与同一标准实体的相似度均大于设定值的至少两个实体作为需要融合的目标实体,进而进行后续的融合和对齐操作,大大提高了实体融合的效率。
56.可选地,在该实施例中,步骤120,具体包括:
57.2200、将识别的实体分别与标准实体库进行相似度比对;
58.2201、按照相似度大小对识别的实体进行排序;
59.2202、若识别的实体中有至少两个目标实体与所述标准实体库中同一标准实体的相似度均大于设定值,则判断识别的实体中的所述至少两个目标实体需要融合。
60.由于相似度越高的实体是需要融合的可能性较高,该实施例中,按照相似度大小对识别的实体进行排序,辅助业务人员提高人工确认实体融合的效率。
61.可选地,作为本发明的一个实施例中,该方法包括:
62.110、获取实体识别算法结果,所述实体识别算法结果包括识别的至少两个实体;
63.120、判断识别的实体是否需要融合;
64.130、若需要融合,则按照预设的对齐逻辑将所述实体进行融合并对齐到对应的标准实体。
65.140、将对齐后的结果输出至下游系统。
66.图2是根据本发明示例性实施例示出的一种实体对齐辅助装置的结构框图。
67.参见图2,该系统包括:
68.结果获取模块,用于获取实体识别算法结果,所述实体识别算法结果包括识别的至少两个实体;
69.融合判断模块,用于判断识别的实体是否需要融合;
70.融合对齐模块,用于若所述融合判断模块判断识别的实体需要融合,则按照预设的对齐逻辑将所述实体进行融合并对齐到对应的标准实体。
71.可选地,在该实施例中,所述融合判断模块,具体包括:
72.相似度比对单元,用于将识别的实体分别与标准实体库进行相似度比对;
73.融合判断单元,用于若识别的实体中有至少两个目标实体与所述标准实体库中同一标准实体的相似度均大于设定值,则判断识别的实体中的所述至少两个目标实体需要融合。
74.可选地,在该实施例中,该系统还包括:
75.排序单元,用于在所述相似度比对单元将识别的实体分别与标准实体库进行相似度比对之后,按照相似度大小对识别的实体进行排序。
76.可选地,在该实施例中,该系统还包括:
77.结果输出模块,用于在所述融合对齐模块将所述实体进行融合并对齐到对应的标准实体之后,将对齐后的结果输出至下游系统。
78.关于上述实施例中的系统,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不再做详细阐述说明。
79.图3是根据本发明一示例性实施例示出的一种计算设备的结构示意图。
80.参见图3,计算设备300包括存储器310和处理器320。
81.处理器320可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field

programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、
分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
82.存储器310可以包括各种类型的存储单元,例如系统内存、只读存储器(rom),和永久存储装置。其中,rom可以存储处理器320或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器310可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(dram,sram,sdram,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器310可以包括可读和/或写的可移除的存储设备,例如激光唱片(cd)、只读数字多功能光盘(例如dvd

rom,双层dvd

rom)、只读蓝光光盘、超密度光盘、闪存卡(例如sd卡、min sd卡、micro

sd卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
83.存储器310上存储有可执行代码,当可执行代码被处理器320处理时,可以使处理器320执行上文述及的方法中的部分或全部。
84.上文中已经参考附图详细描述了本发明的方案。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。本领域技术人员也应该知悉,说明书中所涉及的动作和模块并不一定是本发明所必须的。另外,可以理解,本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减,本发明实施例装置中的模块可以根据实际需要进行合并、划分和删减。
85.此外,根据本发明的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本发明的上述方法中部分或全部步骤的计算机程序代码指令。
86.或者,本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质),其上存储有可执行代码(或计算机程序、或计算机指令代码),当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时,使所述处理器执行根据本发明的上述方法的各个步骤的部分或全部。
87.本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。
88.附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
89.以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜