一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种实体识别方法、装置和计算机设备与流程

2022-04-16 22:04:43 来源:中国专利 TAG:


1.本发明涉及计算机技术领域,尤其涉及一种实体识别方法、装置和计算机设备。


背景技术:

2.目前,随着自然语言处理技术的发展,自然语言处理的应用越来越广,而命名实体识别是许多自然语言处理技术中的一种,命名实体识别又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。命名实体识别应用于各种文本的实体识别。在进行实体识别时,对需要识别的文本直接进行实体识别,这种方式虽然简单粗暴,但存在实体识别不准确的问题。


技术实现要素:

3.本发明实施例提供了一种实体识别方法、装置和计算机设备,可以提高实体识别的准确性。
4.一方面,本技术实施例提供了一种实体识别方法,该方法包括:
5.确定第一媒体数据,并获取所述第一媒体数据对应的待识别文本;
6.调用训练后的实体识别模型对所述待识别文本进行目标识别处理,确定所述待识别文本的实体;其中,所述训练后的实体识别模型用于对所述待识别文本进行纠错处理,得到所述待识别文本对应的纠正文本,并对所述纠正文本进行实体识别,得到所述纠正文本的参考实体;将所述纠正文本的参考实体确定为所述待识别文本的实体;所述待识别文本的实体用于进行与第一媒体数据关联的推荐。
7.一方面,本技术实施例提供了一种实体识别装置,该装置包括:
8.获取单元,用于确定第一媒体数据,并获取所述第一媒体数据对应的待识别文本;
9.处理单元,用于调用训练后的实体识别模型对所述待识别文本进行目标识别处理,确定所述待识别文本的实体;其中,所述训练后的实体识别模型用于对所述待识别文本进行纠错处理,得到纠正文本,并对所述纠正文本进行实体识别,得到所述纠正文本的参考实体;将所述纠正文本的参考实体确定为所述待识别文本的实体;所述待识别文本的实体用于进行与第一媒体数据关联的推荐。
10.一方面,本技术实施例提供一种计算机设备,该计算机设备包括输入设备、输出设备、处理器和计算机存储介质,该处理器和计算机存储介质相互连接,其中,计算机存储介质用于存储计算机程序,该处理器被配置用于调用计算机程序,执行上述的实体识别方法。
11.一方面,本技术实施例提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,该计算机程序被处理器执行时,用于实现上述的实体识别方法。
12.一方面,本技术实施例提供了一种计算机程序产品或计算机程序,计算机程序产品包括计算机程序;该计算机程序存储在计算机可读存储介质中,计算机程序被计算机设备的处理器执行时,执行上述的实体识别方法。
13.在本技术实施例中,可以确定第一媒体数据,并获取第一媒体数据对应的待识别
文本,然后调用训练后的实体识别模型地待识别文本进行目标识别处理,确定待识别文本的实体,该训练后的实体识别模型用于对待识别文本进行纠错处理,得到纠正文本,并对纠正文本进行实体识别,得到纠正文本的参考实体;并将纠正文本的参考实体确定为待识别文本的实体。通过调用训练后的实体识别模型对待识别文本进行纠错和实体识别,解决了在实体识别时没有考虑文本中存在错误,导致无法有效识别相应实体的问题,提升文本中存在错误时的实体识别的准确性。
附图说明
14.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
15.图1a是本发明实施例提供的一种实体识别方案的流程示意图;
16.图1b是本发明实施例提供的一种信息推荐系统的架构示意图;
17.图2是本发明实施例提供的一种实体识别方法的流程示意图;
18.图3是本发明实施例提供的一种视频包括文本的示意图;
19.图4a是本发明实施例提供的一种纠错模型的示意图;
20.图4b是本发明实施例提供的一种实体预测模型的示意图;
21.图5是本发明实施例提供的另一种实体识别方法的流程示意图;
22.图6是本发明实施例提供的一种实体识别模型的示意图;
23.图7是本发明实施例提供的一种实体识别装置的结构示意图;
24.图8是本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
25.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
26.人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
27.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
28.机器学习(machine learning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习
行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
29.本技术实施例提供的实体识别方案涉及人工智能的机器学习等技术,该实体识别方案融合文本纠错能力,采用纠错预处理-实体识别两阶段方式实现对待识别文本的预纠错和实体识别。在一个实施例中,可以训练一个实体识别模型实现纠错预处理-实体识别两阶段方式对待识别文本的纠错和实体识别。针对需要实体识别的第一媒体数据对应的待识别文本,可以调用训练后的实体识别模型对待识别文本进行目标识别处理,得到待识别文本的实体。其中,本技术实施例所提到的目标识别处理可以包括:对待识别文本进行纠错处理,得到纠正文本;以及对纠正文本进行实体识别,得到纠正文本的参考实体。然后将纠正文本的参考实体直接确定为待识别文本的实体,可以提升当待识别文本出现错误情况下的实体识别效果。其中,第一媒体数据可以是待推荐的媒体数据或者第一媒体数据可以是在用户授权下获取的一段时间内浏览过的媒体数据。
30.在一个实施例中,为了进一步提升实体识别效果,请参见图1a,本技术实施例还可以引入文本纠错与实体识别多目标端到端方式,并将纠错预处理-实体识别两阶段识别方式和文本纠错与视频实体识别多目标端到端方式这两种纠错增强的实体识别方式结合起来,可以更进一步提升实体识别的整体水平以及实体识别的准确性。其中,通过训练一个实体预测端到端模型可以实现文本纠错与实体识别多目标端到端方式。即上述实体识别模型可以包括训练后的实体预测端到端模型,在得到纠正文本的实体后,可以基于待识别文本、纠正文本和纠正文本的参考实体,调用训练后的实体预测端到端模型对待识别文本进行实体识别,得到待识别文本的候选实体,然后可以将待识别文本的候选实体确定为待识别文本的实体。可选地,本技术所提供的训练后的实体预测端到端模型还可以基于待识别文本、纠正文本和纠正文本的参考实体对待识别文本对待识别文本进行纠错处理,得到待识别文本对应的正确文本。本技术实施例对待识别文本识别得到的实体可以为后期基于视频等媒体数据的推荐分发提供基础,尤其是提升在视频文本中存在错误时的视频实体识别表现,为基于视频实体的下游业务应用赋能。
31.通过本技术实施例提供的实体识别方案,有如下有益效果:利用训练后的实体识别模型可以解决了在实体识别时没有考虑文本中存在错误,导致无法有效识别相应实体的问题;同时采用纠错预处理-实体识别两阶段识别方式和文本纠错与视频实体识别多目标端到端方式可以构建出较为完备的错误增强的实体识别模型,可以进一步提升文本中存在错误时的实体识别效果,提升了实体识别的整体效果和实体识别的准确性。
32.基于上述实体识别方案,本技术实施例提供了一种信息推荐系统,请参见图1b,该信息推荐系统可以包括至少一个终端设备101、服务器102以及至少一个信息推荐设备103。其中,终端设备101可运行有各式各样的客户端(application,app),如视频播放客户端、内容分享客户端等。终端设备101以及服务器102之间可以通过有线或无线通信方式进行直接或间接地连接,服务器102和信息推荐设备103之间可以通过有线或无线通信方式进行直接或间接地连接,本技术实施例不作限定。信息推荐设备103可以是终端设备或者服务器。上述终端设备可以是智能手机、平板电脑、笔记本电脑、台式电脑等等,服务器可以是独立的
物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器,等等。可选地,信息推荐设备103可以集成在终端设备101中,或者,信息推荐设备可以集成在服务器102中。
33.在一个实施例中,当信息推荐设备103为独立设备时,用户可以通过终端设备101中运行的客户端浏览文本,或者观看视频等等。用户浏览过的文本、观看过的视频可以存储在服务器102中。信息推荐设备103可以向服务器102发送数据获取请求,服务器102接收数据获取请求获取用户在一段时间内浏览过的媒体数据(即第一媒体数据),并向信息推荐设备103发送第一媒体数据。然后信息推荐设备103可以接收服务器102发送的第一媒体数据,并对第一媒体数据进行处理,得到需要待识别文本。在从服务器102中获取第一媒体数据时是在用户授权的情况下获取到的。接着,信息推荐设备103可以调用训练后的实体识别模型对待识别文本进行纠错处理,并对纠错处理后的待识别文本进行实体识别,得到纠错后的待识别文本的参考实体,然后将纠错后的待识别文本的参考实体确定为待识别文本的实体。通过对待识别文本进行纠错,可以提升文本中存在错误时的实体识别效果,进一步提升视频实体识别的整体效果。然后信息推荐设备103可以获取与待识别文本的实体相关联的媒体数据,并向终端设备101发送与待识别文本的实体相关联的媒体数据,然后终端设备101在接收到与待识别文本的实体相关联的媒体数据后,显示与待识别文本的实体相关联的媒体数据。其中,媒体数据可以是文本数据、视频数据、音频数据等等。
34.在一个实施例中,当信息推荐设备103集成在终端设备101中时,用户可以通过终端设备101中运行的客户端浏览文本,或者观看视频等等。用户浏览过的文本、观看过的视频可以存储在服务器102中。然后信息推荐设备103可以向服务器102发送数据获取请求,服务器102接收数据获取请求获取用户在一段时间内浏览过的媒体数据(即第一媒体数据),并向信息推荐设备103发送第一媒体数据。然后信息推荐设备103可以对第一媒体数据进行处理,得到需要待识别文本。在从服务器102中获取第一媒体数据时是在用户授权的情况下获取到的。接着,信息推荐设备103可以调用训练后的实体识别模型对待识别文本进行纠错处理,并对纠错处理后的待识别文本进行实体识别,得到纠错后的待识别文本的参考实体,然后将纠错后的待识别文本的参考实体确定为待识别文本的实体。通过对待识别文本进行纠错,可以提升文本中存在错误时的实体识别效果,进一步提升视频实体识别的整体效果。然后信息推荐设备103可以获取与待识别文本的实体相关联的媒体数据,信息推荐设备103通过终端设备101输出与待识别文本的实体相关联的媒体数据。其中,媒体数据可以是文本数据、视频数据、音频数据等等。
35.在一个实施例中,当信息推荐设备103集成在服务器102中时,信息推荐设备103直接从服务器102中获取用户在一段时间内浏览过的媒体数据(即第一媒体数据),然后信息推荐设备103可以对第一媒体数据进行处理,得到需要待识别文本。在从服务器102中获取用户在一段时间内浏览过的媒体数据时是在用户授权的情况下获取到的。接着,信息推荐设备103可以调用训练后的实体识别模型对待识别文本进行纠错处理,并对纠错处理后的待识别文本进行实体识别,得到纠错后的待识别文本的参考实体,然后将纠错后的待识别文本的参考实体确定为待识别文本的实体。通过对待识别文本进行纠错,可以提升在文本
中存在错误时的实体识别效果,进一步提升视频实体识别的整体效果。然后信息推荐设备103可以获取与待识别文本的实体相关联的媒体数据,并向终端设备101发送与待识别文本的实体相关联的媒体数据,然后终端设备101在接收到与待识别文本的实体相关联的媒体数据后,显示与待识别文本的实体相关联的媒体数据。
36.基于上述提供的实体识别方案,请参阅图2,图2为本发明实施例提供的一种实体识别方法的流程示意图。该实体识别方法可由计算机设备执行,该计算机设备可以是上述信息推荐系统中的信息推荐设备,或者在信息推荐设备集成在终端设备中的情况下,该计算机设备可以是上述信息推荐系统中的终端设备,或者在该信息推荐设备集成在服务器中的情况下,该计算机设备可以是上述信息推荐系统中的服务器。本实施例中所描述的实体识别方法,可以包括以下步骤s201-s202:
37.s201、确定第一媒体数据,并获取第一媒体数据对应的待识别文本。
38.其中,第一媒体数据的数量可以是一个或多个,第一媒体数据可以是文本数据、视频数据、音频数据等等。第一媒体数据可以是针对某个用户浏览过的媒体数据,或者,第一媒体数据可以是待推荐的媒体数据。
39.在一个实施例中,当第一媒体数据为用户浏览过的媒体数据时,确定第一媒体数据的方式为:计算机设备可以在用户授权/许可的条件下从各种客户端中获取用户在历史时间段内浏览的一个媒体数据。历史时间段可以是根据需求设置,例如,历史时间段可以为当前时间往前的1小时、30分钟等等。在另一个实施例中,当第一媒体数据为待推荐的媒体数据时,计算机设备可以直接从各种客户端中获取待推荐的一个或多个媒体数据。其中,第一媒体数据可以是从各种客户端中确定,该客户端可以是视频播放客户端、内容分享客户端等等。在确定第一媒体数据之后,计算机设备可以获取第一媒体数据对应的待识别文本进行处理,得到待识别文本。
40.在一个实施例中,当媒体数据为视频数据,且该视频数据中包括文本时,例如,图3中,视频数据为影视剧《兵败如三倒》的视频,该视频数据包括文本“《兵败如三倒》剧情真精彩”。获取第一媒体数据对应的待识别文本的具体实现方式为:计算机设备可以直接提取该视频数据中的文本作为待识别文本,即待识别文本为“《兵败如三倒》剧情真精彩”。
41.在另一个实施例中,当媒体数据为视频数据,且视频数据中未包括文本时,获取第一媒体数据对应的待识别文本进行处理,得到待识别文本的具体实现方式可以是:计算机设备可以对视频数据进行去噪处理,并对去噪处理后的视频数据进行语音识别,得到该视频数据对应的识别文本,并将该视频数据对应的识别文本作为待识别文本。应理解的是,从音频数据中得到待识别文本的具体实施方式,与从视频数据中得到待识别文本的具体实施方式类似,在此不再赘述。
42.再一个实施例中,当媒体数据为文本数据时,获取第一媒体数据对应的待识别文本进行处理,得到待识别文本的具体实现方式可以是:可以去除文本数据中的特殊字符,得到待识别文本。其中,特殊字符可以根据需求设置,例如,该特殊字符可以是逗号、句号等等。
43.在一个实施例中,当目标对象为目标用户时,需要用户授权/许可才能获取到媒体数据,此时,确定第一媒体数据的具体实现方式可以是可以显示一个媒体数据采集界面,该媒体数据采集界面包括一个提示信息、确认按键和取消按键。该提示信息可以用于提示目
标用户需要采集目标用户在历史时间段内浏览的媒体数据,和/或提示媒体数据被采集后会执行的相关处理,若目标用户同意采集在历史时间段内浏览的媒体数据,则可以触发确认按键,实现对媒体数据采集授权。然后计算机设备可以采集目标用户在历史时间段内浏览的媒体数据,并显示具体采集到的媒体数据;若目标用户不同意在历史时间段内浏览的媒体数据,则可以触发取消按键,此时,计算机设备无法采集在历史时间段内浏览的媒体数据。
44.s202、调用训练后的实体识别模型对待识别文本进行目标识别处理,确定待识别文本的实体。训练后的实体识别模型用于对待识别文本进行纠错处理,得到待识别文本对应的纠正文本,并对纠正文本进行实体识别,得到纠正文本的参考实体,将纠正文本的参考实体确定为待识别文本的实体;待识别文本的实体可以用于进行与第一媒体数据关联的推荐。其中,实体可以是一个或多个。实体可以是剧名、人名、游戏名、地点等等。如在图3中,“兵败如三倒”为剧名实体。
45.在具体实现中,通过对语音或者视频进行语音识别或对文本处理得到的待识别文本可能会存在错误,这种错误很可能出现在待识别文本的实体中,这样导致在对该待识别文本进行实体识别时,无法识别到该实体,因此,为了解决该问题,计算机设备可以采用调用训练后的实体识别模型对待识别文本进行纠错处理,得到待识别文本对应的纠正文本,然后对纠正文本进行实体识别,得到纠正文本的参考实体。计算机设备可以将纠正文本的参考实体直接确定为待识别文本的实体。或者,由于纠正文本的参考实体中可能存在重复的参考实体,因此,计算机设备可以纠正文本的参考实体去重处理,并将去重处理后的参考实体作为待识别的实体。
46.在一个实施例中,通过对待识别文本进行纠错在一定程度降低待识别文本中的错误,提升了实体识别的准确性。同时为了进一步提升实体识别的准确性,可以基于待识别文本、纠正文本和纠正文本的参考实体,调用训练后的实体识别模型对待识别文本进行实体识别,得到待识别文本的候选实体,并将候选实体作为待识别文本的实体。通过这样的方式,可以进一步提升实体识别效果。
47.其中,对实体识别模型进行训练的过程可以是:获取第一训练文本以及第一训练文本对应的实体标签;然后调用实体识别模型对第一训练文本进行纠错处理,得到第一训练文本对应的纠正文本,并对第一训练文本对应的纠正文本进行实体识别,得到第一训练文本的预测实体;基于第一训练文本的预测实体和对应的实体标签对实体识别模型进行训练,得到训练后的实体识别模型。其中,第一训练文本的数量可以为一个或多个。计算机设备可以基于第一训练文本的预测实体和对应的实体标签确定实体识别模型的模型损失值,并利用模型损失值调整实体识别模型中的参数,得到训练后的实体识别模型。第一训练文本可以从训练媒体数据中进行提取的,从训练媒体数据中提取第一训练文本的提取方式可以参见从第一媒体数据中获取第一媒体数据对应的待识别文本的具体实现方式,在此不再赘述。
48.在一个实施例中,训练后的实体识别模型可以包括训练后的纠错模型和训练后的实体预测模型。调用训练后的实体识别模型对待识别文本进行目标识别处理,确定待识别文本的实体的具体实现方式可以是:计算机设备调用训练后的纠错模型对待识别文本进行纠错处理,得到待识别文本对应的纠正文本。然后调用训练后的实体预测模型对纠正文本
进行实体识别,得到纠正文本的参考实体。例如,待识别文本为“兵败如三倒”,计算机设备可以采用训练后的纠错模型对“兵败如三倒”进行纠错处理,得到纠正文本为“兵败如山倒”。
49.其中,训练后的纠错模型可以是bert(bidirectional encoder representation from transformers,双向transformer的encoder)模型。训练后的纠错模型的模型结构可以如图4a所示。对纠错模型进行训练,得到训练后的纠错模型的具体实现方式可以是:获取第二训练文本以及第二训练文本对应的纠正文本标签,计算机设备可以调用纠错模型对第二训练文本进行纠错处理,得到第二训练文本对应的预测纠正文本,然后基于第二训练文本对应的纠正文本标签和预测纠正文本对纠错模型进行训练,得到训练后的纠错模型。通过这种方式得到的训练后的纠错模型具备输入原始文本,输出纠正后的纠正文本的能力。其中,第二训练文本的数量可以为一个或多个。计算机设备可以基于第二训练文本对应的纠正文本标签和预测纠正文本确定实体识别模型的模型损失值,并利用模型损失值调整纠错模型中的参数,得到训练后的纠错模型。第二训练文本可以从训练媒体数据中进行提取的,从训练媒体数据中提取第二训练文本的提取方式可以参见从第一媒体数据中获取第一媒体数据对应的待识别文本的具体实现方式,在此不再赘述。
50.在一个实施例中,上述训练后的实体预测模型可以是bert模型。训练后的实体预测模型可以如图4b所示。调用训练后的实体预测模型对纠正文本进行实体识别,得到纠正文本的参考实体的具体实现方式可以是:计算机设备可以采用训练后的实体预测模型对纠正文本进行实体识别,得到纠正文本中每个字符对应的实体类别,其中,实体类别可以是实体首部类、实体中间类、实体结束类、非实体类中的任意一种。然后,计算机设备可以根据上述纠正文本中每个字符对应的实体类别对该纠正文本中的字符进行组合,得到纠正文本的参考实体。
51.在一个实施例中,一般来说,一个字符对应的字符类别为实体首部类,该字符后面的字符大概率紧跟的字符为实体中间类或实体结束类,因此,根据上述纠正文本中每个字符对应的实体类别对该纠正文本中的字符进行组合,得到纠正文本的参考实体的具体实现方式可以是:将任一实体首部类对应的字符作为基准字符,并在纠正文本中基于该基准字符,往后获取该基准字符的至少一个关联字符,并根据该基准字符和至少一个关联字符组合生成纠正文本的参考实体。其中,基准字符的至少一个关联字符满足如下条件:至少一个关联字符和基准字符可构成连续字符串,且任一关联字符的类别均为实体非首部类。
52.举例来说,待识别文本“《兵败如山倒》马上上映”,计算机设备采用训练后的实体预测模型对“《兵败如山倒》马上上映”进行实体识别,得到字符“兵”对应的字符类别为实体首部类,字符“败”对应的字符类别为实体中间类,字符“如”对应的字符类别为实体中间类,字符“山”对应的字符类别为实体中间类,字符“倒”对应的字符类别为实体结束类,字符“马”对应的字符类别为非实体类,计算机设备可以确定字符“兵”为基准字符,然后往后获取该基准字符的至少一个关联字符,分别为字符“败”、字符“如”、字符“山”、字符“倒”,然后根据该基准字符和至少一个关联字符组合生成参考实体“兵败如山倒”。
53.其中,可以预先对实体预测模型进行训练。在一个实施例中,获取第三训练文本以及第三训练文本对应的实体标签,然后调用训练后的纠错模型对第三训练文本进行纠错处理,得到第三训练文本对应的纠正文本;对第三训练文本对应的纠正文本进行实体识别,得
到第三训练文本的预测实体;基于第三训练文本的预测实体和对应的实体标签对所述实体预测模型进行训练,得到训练后的实体预测模型。其中,第三训练文本的数量可以为一个或多个。第三训练文本和第二训练文本可以为同一训练文本,也可以为不同训练文本。
54.在一个实施例中,最终得到的待识别文本的实体可以为视频推荐分发提供更高质量的视频实体基础数据,增强各类客户端中用户的整体体验。当第一媒体数据为待推荐的媒体数据时,第一媒体数据的数量为多个,每个第一媒体数据均对应一个待识别文本,计算机设备可以获取参考媒体数据,此时的参考媒体数据可以为在目标用户授权/许可情况下在历史时间段内浏览的媒体数据,计算机设备可以根据参考媒体数据从多个第一媒体数据中确定目标媒体数据,目标媒体数据对应的待识别文本的实体与参考媒体数据对应的文本的实体匹配,意味着用户比较关注这类媒体数据,然后计算机设备可以输出目标媒体数据。
55.在另一个实施例中,当第一媒体数据为在目标用户授权/许可情况下在历史时间段内浏览的媒体数据时,计算机设备可以基于待识别文本的实体进行实体匹配,确定第二媒体数据,第二媒体数据对应的文本的实体与该待识别文本的实体匹配。可以理解为:目标媒体数据对应的文本中包括该待识别文本的实体。第二媒体数据可以是视频数据、文本数据、音频数据等等。例如,待识别文本的剧名实体“兵败如山倒”,可以获取与剧名实体“兵败如山倒”相关的视频数据、文本数据或者音频数据,即第二媒体数据可以是“兵败如山倒”电视剧,“兵败如山倒”简介等等。然后计算机设备输出第二媒体数据。在一个实施例中,在得到待识别文本的实体后,可以将待识别文本的实体作为目标对象的对象标识,并添加到目标对象的对象标识集合中,后续可以根据目标对象的对象标识集合为目标对象推送目标媒体数据,该目标媒体数据对应的文本的实体与目标对象的对象标识集合包括的实体匹配。
56.在本技术实施例中,计算机设备可以确定第一媒体数据,并获取第一媒体数据对应的待识别文本,调用训练后的实体识别模型对待识别文本进行目标识别处理,确定待识别文本的实体,训练后的实体识别模型用于对待识别文本进行纠错处理,得到纠正文本;然后对纠正文本进行实体识别,得到纠正文本的参考实体;然后将纠正文本的参考实体确定为待识别文本的实体。调用训练后的实体识别模型可以解决在实体识别时没有考虑文本中存在错误,导致无法有效识别相应实体的问题,提升文本中存在错误时的实体识别的准确性。
57.基于上述提供的实体识别方案,请参阅图5,图5为本发明实施例提供的一种实体识别方法的流程示意图。该实体识别方法可以由上述信息推荐系统中的计算机设备来执行,该计算机设备可以是上述信息推荐系统中的信息推荐设备,或者在信息推荐设备集成在终端设备中的情况下,该计算机设备可以是上述信息推荐系统中的终端设备,或者在该信息推荐设备集成在服务器中的情况下,该计算机设备可以是上述信息推荐系统中的服务器。本实施例中所描述的实体识别方法中的训练后的实体模型可以包括训练后的纠错模型、训练后的实体预测模型以及训练后的实体预测端到端模型,该实体识别方法可以包括以下步骤s501-s509:
58.s501、确定第一媒体数据,并获取第一媒体数据对应的待识别文本。
59.s502、调用训练后的纠错模型对待识别文本进行纠错处理,得到待识别文本对应的纠正文本。
60.s503、调用训练后的实体预测模型对纠正文本进行实体识别,得到纠正文本的参
考实体。
61.s504、调用训练后的实体预测端到端模型对待识别文本进行特征提取,得到待识别文本对应的文本向量。
62.在一个实施例中,计算机设备可以采用训练后的实体预测端到端模型中的特征提取模块对待识别文本进行特征提取,得到待识别文本对应的文本向量,该文本向量可以包括待识别文本中每个字符的位置信息,以及每个字符的字符信息。其中,训练后的实体预测端到端模型可以是bert模型,该训练后的实体预测端到端模型可以如图6所示。训练后的实体预测端到端模型的输入可以包括步骤s501得到的待识别文本、步骤s502得到的纠正文本以及步骤s503得到的纠正文本的参考实体。通过将待识别文本、纠正文本和纠正文本的参考实体输入训练后的实体预测端到端模型可以提升模型的特征丰富度,增强模型的表征能力,有利于提升训练后的实体预测端到端模型的实体识别准确性。
63.s505、对纠正文本进行特征提取,得到纠正文本对应的文本向量。计算机设备可以采用训练后的实体预测端到端模型中的特征提取模块对纠正文本进行特征提取,得到纠正文本对应的文本向量,文本向量可以包括纠正文本中每个字符的位置信息,以及每个字符的字符信息。
64.s506、对纠正文本的参考实体进行特征提取,得到纠正文本的参考实体对应的实体向量。
65.在具体实现中,计算机设备可以采用训练后的实体预测端到端模型中的特征提取模块对纠正文本的参考实体进行特征提取,得到纠正文本的参考实体对应的实体向量。
66.在一个实施例中,采用训练后的实体预测端到端模型中的特征提取模块对纠正文本的参考实体进行特征提取,得到纠正文本的参考实体对应的实体向量的具体实现方式可以是:计算机设备可以根据纠正文本的参考实体对纠正文本包括的每个字符进行实体标记,通过实体标记可以用于指示每个字符所在位置的实体状态。在具体实现中,可以将纠正文本的参考实体对应的字符标记为第一数值,将纠正文本中除参考实体外的非实体对应的字符标记为第二数值。其中,第一数值和第二数值可以根据需求设置。本技术实施例对此不作限定。例如,第一数值为0,第一数值用于指示该字符为非实体,第二数值为1,第二数值可以表示该字符属于参考实体中的一部分。又例如,第一数值可以为2,第一数值用于指示该字符为非实体,第二数值为3,第二数值表示该字符属于参考实体中的一部分。通过对参考实体对应的字符进行实体标记可以告诉实体识别模型对纠正文本中的参考实体进行着重分析。然后计算机设备可以调用特征提取模块对实体标记后的参考实体进行处理,得到该参考实体对应的实体向量。可选地,训练后的实体预测端到端模型的输入不仅包括实体标记后的参考实体,还包括实体标记后的非实体。在执行步骤s507的过程中,由于最终是要对待识别文本进行实体识别,因此训练后的实体预测端到端模型会重点对实体标记后的参考实体进行重点关注。
67.s507、基于待识别文本对应的文本向量、纠正文本对应的文本向量和参考实体对应的实体向量对待识别文本进行实体识别,得到待识别文本的候选实体。
68.在一个实施例中,训练后的实体预测端到端模型除了包括特征提取模块,还可以包括第一注意力模块和第二注意力模块,第一注意力模板和第二注意力模块可以是自注意力机制(self attention)。第一注意力模块可以用于对待识别文本和纠正文本进行差异分
析,以实现对存在差异的位置进行着重分析,第二注意力模块可以用于对待识别文本中的预测实体与参考实体进行注意分析,以实现对待识别文本中的预测实体进行着重处理。计算机设备基于待识别文本对应的文本向量、纠正文本对应的文本向量和参考实体对应的实体向量对待识别文本进行实体识别,得到待识别文本的候选实体的具体实现方式可以是:调用第一注意力模块对纠正文本对应的文本向量和待识别文本对应的文本向量进行注意力分析,得到待识别文本的实体的实体向量,然后针对输入的纠正文本的参考实体,为了最终能够得到更加准确的实体,可以采用第二注意力模块对纠正文本的参考实体和待识别文本的预测实体进行着重分析,调用实体识别模型中的第二注意力模块对待识别文本的预测实体的实体向量和参考实体对应的实体向量进行注意分析,得到待识别文本的候选实体。
69.其中,由于待识别文本出现问题的地方可能存在实体,因此需要对出现问题的地方进行着重分析。计算机设备可以调用第一注意力模块对纠正文本对应的文本向量和待识别文本对应的文本向量进行注意力分析,得到待识别文本的实体的实体向量的具体实现方式可以是:对纠正文本对应的文本向量和待识别文本对应的文本向量进行差异分析,得到纠正文本对应的纠错位置,纠错位置用于指示纠正文本中与待识别文本所包含的对应字符不同的目标字符在纠正文本中所处的位置;例如,纠正文本为“兵败如山倒”,待识别文本“兵败如三倒”,计算机设备可以对纠正文本“兵败如山倒”对应的文本向量和待识别文本“兵败如三倒”对应的文本向量进行差异分析,得到纠正文本对应的纠错位置为“山”所在的位置,即纠正文本中的“山”和待识别文本中的“三”不同。然后计算机设备可以调用第一注意力模块对纠错位置和纠正文本进行注意力分析,得到待识别文本的预测实体的实体向量。在上述例子中,计算机设备可以调用第一注意力模块对字符“山”所在的位置和纠正文本“兵败如山倒”进行注意分析,得到待识别文本的预测实体“兵败如山倒”的实体向量。应理解的是,对字符“山”所在的位置和纠正文本“兵败如山倒”进行注意分析可以将待识别文本中的“三”替换为纠正文本中的“山”,实现最终待识别文本的预测实体为“兵败如山倒”的实体向量,而不是“兵败如三倒”的实体向量,通过第一注意力模块可以实现对待识别文本的错误纠正。
70.在一个实施例中,计算机设备调用训练后的实体预测端到端模型中的第二注意力模块对待识别文本的预测实体的实体向量和参考实体对应的实体向量进行注意分析,得到待识别文本的候选实体的具体实现方式可以是:基于参考实体对应的实体向量,确定参考实体在纠正文本中的目标位置;在待识别文本中确定目标位置对应的预测实体的实体向量;然后调用训练后的实体预测端到端模型中的第二注意力模块对目标位置对应的预测实体的实体向量进行注意力分析,得到待识别文本的候选实体。其中,实体向量用于指示参考实体在纠正文本中的位置,计算机设备可以将待识别文本和纠正文本进行对齐处理并输入训练后的实体预测端到端模型中,因此,计算机设备可以根据参考实体对应的实体向量确定参考实体在纠正文本中的目标位置,然后在待识别文本中查找处于该目标位置的预测实体的实体向量。
71.例如,待识别文本为“张三最近在看《王者舞敌》”,纠正文本为“张三最近在看《王者无敌》”,纠正文本的参考实体为“王者无敌”,通过第一注意力模块对待识别文本对应的文本向量和纠正文本对应的文本向量进行注意分析,得到待识别文本的预测实体“王者无敌”的实体向量。计算机设备可以基于参考实体“王者无敌”对应的实体向量可以确定参考
实体“王者无敌”在纠正文本中的目标位置,然后在待识别文本中确定该目标位置对应的预测实体“王者无敌”的实体向量,并调用训练后的实体预测端到端模型中的第二注意力模块对预测实体“王者无敌”的实体向量进行注意分析,得到待识别文本对应的候选实体。
72.在一个实施例中,基于待识别文本对应的文本向量、纠正文本对应的文本向量和参考实体对应的实体向量对待识别文本进行实体识别,得到待识别文本中每个字符的实体类别,并基于每个字符的实体类别对待识别文本进行组合得到待识别文本的候选实体。基于每个字符的实体类别对待识别文本进行组合,得到待识别文本的候选实体的具体实现方式可以参见根据上述纠正文本中每个字符对应的实体类别对该纠正文本中的字符进行组合,得到纠正文本的参考实体的具体实现方式,在此不再赘述。
73.其中,在执行步骤s507之前,可以预先对实体预测端到端模型进行训练。计算机设备可以获取第四训练文本、第四训练文本对应的训练纠正文本、训练纠正文本的训练实体和第四训练文本对应的实体标签;采用实体预测端到端模型对第四训练文本进行特征提取,得到第四训练文本对应的文本向量;对训练纠正文本进行特征提取,得到训练纠正文本对应的文本向量;对训练纠正文本的训练实体进行特征提取,得到训练纠正文本的训练实体对应的实体向量;基于第四训练文本对应的文本向量、训练纠正文本对应的文本向量以及训练纠正文本的训练实体对应的实体向量对第四训练文本进行实体识别,得到第四训练文本的预测实体;基于第四训练文本的预测实体和对应的实体标签对实体预测端到端模型进行训练,得到训练后的实体预测端到端模型。其中,第四训练文本的数量为一个或多个,可以从媒体数据中获取得到。
74.在一个实施例中,由于经过步骤s502之后得到纠正文本不一定完全纠正为正确文本,因此,训练后的实体预测端到端模型不仅可以进行实体识别,还可以对待识别文本进行错误纠正,得到待识别文本对应的正确文本。计算机设备可以在基于待识别文本对应的文本向量、纠正文本对应的文本向量和参考实体对应的实体向量对待识别文本进行实体识别,得到待识别文本的候选实体的过程中,还可以对待识别文本中的错误进行纠正,最终实体预测端到端模型的输出可以包括待识别文本对应的正确文本以及待识别文本的实体。
75.在一个实施例中,当训练后的实体预测端到端模型的输出包括待识别文本对应的正确文本以及待识别文本的实体时,可以对实体预测端到端模型进行多目标联合学习,得到训练后的实体预测端到端模型。实体预测端到端模型也可称为多目标端到端模型,即能够实现对待识别文本的纠错,也能够实现对待识别文本的实体识别。在具体训练时,该训练后的实体预测端到端模型通过在标注实体与错误的训练文本上进行训练。计算机设备可以获取第四训练文本、第四训练文本对应的训练纠正文本、训练纠正文本的训练实体和第四训练文本对应的实体标签和正确文本标签;采用实体预测端到端模型对第四训练文本进行特征提取,得到第四训练文本对应的文本向量;对训练纠正文本进行特征提取,得到训练纠正文本对应的文本向量;对训练纠正文本的训练实体进行特征提取,得到训练纠正文本的训练实体对应的实体向量;基于第四训练文本对应的文本向量、训练纠正文本对应的文本向量以及训练纠正文本的训练实体对应的实体向量对第四训练文本进行实体识别,得到第四训练文本的预测实体以及第四训练文本的预测正确文本;基于第四训练文本的预测实体和对应的实体标签、第四训练文本的预测正确文本和对应的正确文本标签对实体预测端到端模型进行训练,得到训练后的实体预测端到端模型。在具体实现中,基于第四训练文本的
预测实体和对应的实体标签计算实体预测端到端模型的第一模型损失值;并基于第四训练文本的预测正确文本和对应的正确文本标签计算实体预测端到端模型的第二模型损失值。然后对第一模型损失值和第二模型损失值进行加权平均,得到模型损失值,并基于模型损失值调整实体预测端到端模型的模型参数,得到训练后的实体预测端到端模型。训练后的实体预测端到端模型可以实现对待识别文本的错误纠正以及实体预测,通过这种方式可以实现对实体识别模型的优化,进一步提升实体识别模型对文本错误的容忍能力。
76.s508、将待识别文本的候选实体确定为待识别文本的实体。
77.在具体实现中,计算机设备可以将待识别文本的候选实体直接确定为待识别文本的实体。
78.在一个实施例中,由于待识别文本的候选实体和纠正文本的参考实体中或存在相同或者不同的情况,因此,本技术实施例可以将待识别文本的候选实体和纠正文本的参考实体进行实体融合,得到待识别文本的实体。此处的实体融合可以包括两种:对待识别文本的候选实体和纠正文本的参考实体中重复的实体进行去重处理;对待识别文本的候选实体和纠正文本的参考实体中不同的实体保留。通过实体融合最终得到的待识别文本的实体可以包括候选实体和参考实体。例如,待识别文本的候选实体为“张三”“李四”,纠正文本的参考实体为“张三”“小吴”,计算机设备可以将待识别文本的候选实体和纠正文本的参考实体进行实体融合,得到待识别文本的实体为“张三”“李四”“小吴”。
79.s509、将纠正文本的参考实体确定为待识别文本的实体。
80.在一个实施例中,最终得到的待识别文本的实体可以作为对象的对象标识或者视频推荐分发提供更高质量的视频实体基础数据,增强各类客户端的整体用户体验。当第一媒体数据为待推荐的媒体数据时,第一媒体数据的数量为多个,每个第一媒体数据均对应一个待识别文本,计算机设备可以获取参考媒体数据,此时的参考媒体数据可以为在目标用户授权/许可情况下在历史时间段内浏览的媒体数据,计算机设备可以根据参考媒体数据从多个第一媒体数据中确定目标媒体数据,目标媒体数据对应的待识别文本的实体与参考媒体数据对应的文本的实体匹配,意味着用户比较关注这类媒体数据,然后计算机设备可以输出目标媒体数据。
81.在另一个实施例中,当第一媒体数据为在目标用户授权/许可情况下在历史时间段内浏览的媒体数据时,计算机设备可以基于待识别文本的实体进行实体匹配,确定第二媒体数据,第二媒体数据对应的文本的实体与该待识别文本的实体匹配。可以理解为:目标媒体数据对应的文本中包括该待识别文本的实体。目标媒体数据可以是视频数据、文本数据、音频数据等等。例如,待识别文本的剧名实体“兵败如山倒”,可以获取“兵败如山倒”相关的视频数据、文本数据或者音频数据,即目标媒体数据可以是“兵败如山倒”电视剧,“兵败如山倒”简介等等。然后计算机设备可以将目标媒体数据推送至目标对象。在一个实施例中,在得到待识别文本的实体后,可以将待识别文本的实体作为目标对象的对象标识,并添加到目标对象的对象标识集合中,后续可以根据对象标识集合包括的实体向目标对象推送目标媒体数据,该目标媒体数据对应的文本的实体与对象标识集合包括的实体匹配,使得向目标对象推送的目标媒体数据与目标对象的需求匹配。
82.在本技术实施例中,计算机设备可以在确定第一媒体数据,并获取第一媒体数据对应的待识别文本之后待识别文本,一方面,可以调用训练后的纠错模型对待识别文本进
行纠错处理,得到纠正文本;然后调用训练后的实体预测模型对纠正文本进行实体识别,得到纠正文本的参考实体;并将纠正文本的参考实体确定为待识别文本的实体。可以解决了在实体识别时没有考虑文本中存在错误,导致无法有效识别相应实体的问题,提升了在文本中存在错误时实体识别的准确性。另一方面,计算机设备还可以在得到纠正文本的实体后,调用训练后的实体预测端到端模型对对待识别文本进行特征提取,得到待识别文本对应的文本向量;对纠正文本进行特征提取,得到纠正文本对应的文本向量;对纠正文本的参考实体进行特征提取,得到纠正文本的参考实体对应的实体向量;基于待识别文本对应的文本向量、纠正文本对应的文本向量和参考实体对应的实体向量对待识别文本进行实体识别,得到待识别文本的候选实体;将待识别文本的候选实体确定为待识别文本的实体,可以增强实体识别效果,进一步提高了在文本中存在错误时实体识别的准确性。
83.基于上述所提供的实体识别方法,请参见图7,其是本技术实施例提供的一种实体识别装置的结构示意图。如图7所示,实体识别装置70可以应用于上述图2或图5对应实施例中的计算机设备;具体的,实体识别装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如实体识别装置为一个应用软件;该实体识别装置可以用于执行本技术实施例提供的方法中的相应步骤。
84.获取单元701,用于确定第一媒体数据,并获取所述第一媒体数据对应的待识别文本;
85.处理单元702,用于调用训练后的实体识别模型对所述待识别文本进行目标识别处理,确定所述待识别文本的实体;其中,所述训练后的实体识别模型用于对所述待识别文本进行纠错处理,得到所述待识别文本对应的纠正文本,并对所述纠正文本进行实体识别,得到所述纠正文本的参考实体;将所述纠正文本的参考实体确定为所述待识别文本的实体;所述待识别文本的实体用于进行与第一媒体数据关联的推荐。
86.在一个实施例中,所述第一媒体数据的数量为多个,每个第一媒体数据对应一个待识别文本;所述获取单元701还用于:获取参考媒体数据;
87.所述处理单元702还用于基于所述参考媒体数据从多个第一媒体数据中确定目标媒体数据;所述目标媒体数据对应的待识别文本的实体与所述参考媒体数据对应的文本的实体匹配;输出目标媒体数据。
88.在一个实施例中,所述处理单元702还用于:
89.基于所述待识别文本的实体进行实体匹配,确定第二媒体数据,所述第二媒体数据对应的文本的实体与所述待识别文本的实体匹配;
90.输出第二媒体数据。
91.在一个实施例中,所述训练后的实体识别模型包括训练后的纠错模型和训练后的实体预测模型;所述处理单元702在调用训练后的实体识别模型对所述待识别文本进行目标识别处理,确定所述待识别文本的实体时,可具体用于:
92.调用所述训练后的纠错模型对所述待识别文本进行纠错处理,得到所述待识别文本对应的纠正文本;
93.调用所述训练后的实体预测模型对所述纠正文本进行实体识别,得到所述纠正文本的参考实体;
94.将所述纠正文本的参考实体确定为所述待识别文本的实体。
95.在一个实施例中,所述训练后的实体识别模型包括训练后的实体预测端到端模型,所述处理单元702,还用于:
96.调用所述训练后的实体预测端到端模型对所述待识别文本进行特征提取,得到所述待识别文本对应的文本向量;
97.对所述纠正文本进行特征提取,得到所述纠正文本对应的文本向量;
98.对所述纠正文本的参考实体进行特征提取,得到所述纠正文本的参考实体对应的实体向量;
99.基于所述待识别文本对应的文本向量、所述纠正文本对应的文本向量和所述参考实体对应的实体向量对所述待识别文本进行实体识别,得到所述待识别文本的候选实体;
100.将所述待识别文本的候选实体确定为所述待识别文本的实体。
101.在一个实施例中,所述处理单元702,还用于将所述待识别文本的候选实体和所述纠正文本的参考实体进行实体融合,得到所述待识别文本的实体。
102.在一个实施例中,所述处理单元702在基于所述待识别文本对应的文本向量、所述纠正文本对应的文本向量和所述参考实体对应的实体向量对所述待识别文本进行实体识别,得到所述待识别文本的候选实体时,可具体用于:
103.调用所述训练后的实体预测端到端模型中的第一注意力模块对所述纠正文本对应的文本向量和所述待识别文本对应的文本向量进行注意分析,得到所述待识别文本的预测实体的实体向量;
104.调用所述训练后的实体预测端到端模型中的第二注意力模块对所述待识别文本的预测实体的实体向量和所述参考实体对应的实体向量进行注意分析,得到所述待识别文本的候选实体。
105.在一个实施例中,所述处理单元702在调用所述训练后的实体预测端到端模型中的第一注意力模块对所述纠正文本对应的文本向量和所述待识别文本对应的文本向量进行注意分析,得到所述待识别文本的预测实体的实体向量时,可具体用于:
106.对所述纠正文本对应的文本向量和所述待识别文本对应的文本向量进行差异分析,得到所述纠正文本对应的纠错位置,所述纠错位置用于指示所述纠正文本中与所述待识别文本所包含的对应字符不同的目标字符在所述纠正文本中所处的位置;
107.调用所述训练后的实体预测端到端模型中的第一注意力模块对所述纠错位置和所述纠正文本进行注意力分析,得到所述待识别文本的预测实体的实体向量。
108.在一个实施例中,所述处理单元702在调用所述训练后的实体预测端到端模型中的第二注意力模块对所述待识别文本的预测实体的实体向量和所述参考实体对应的实体向量进行注意分析,得到所述待识别文本的候选实体时,可具体用于:
109.基于所述参考实体对应的实体向量,确定所述参考实体在所述纠正文本中的目标位置;
110.在所述待识别文本中确定所述目标位置对应的预测实体的实体向量;
111.调用所述训练后的实体预测端到端模型中的第二注意力模块对所述目标位置对应的预测实体的实体向量进行注意分析,得到所述待识别文本的候选实体。
112.在一个实施例中,所述获取单元701,还用于:获取第一训练文本以及所述第一训练文本对应的实体标签;
113.所述处理单元702,还用于:调用实体识别模型对所述第一训练文本进行纠错处理,得到所述第一训练文本对应的纠正文本,并对所述第一训练文本对应的纠正文本进行实体识别,得到所述第一训练文本的预测实体;基于所述第一训练文本的预测实体和对应的实体标签对所述实体识别模型进行训练,得到训练后的实体识别模型。
114.在一个实施例中,所述获取单元701,还用于:获取第二训练文本以及所述第二训练文本对应的纠正文本标签;
115.所述处理单元702,还用于:调用纠错模型对所述第二训练文本进行纠错处理,得到所述第二训练文本对应的预测纠正文本;
116.基于所述第二训练文本的预测纠正文本和对应的纠正文本标签对所述纠错模型进行训练,得到训练后的纠错模型。
117.在一个实施例中,所述获取单元701,还用于:获取第三训练文本以及所述第三训练文本对应的实体标签;
118.所述处理单元702,还用于:调用训练后的纠错模型对所述第三训练文本进行纠错处理,得到所述第三训练文本对应的纠正文本;
119.对所述第三训练文本对应的纠正文本进行实体识别,得到所述第三训练文本的预测实体;
120.基于所述第三训练文本的预测实体和对应的实体标签对所述实体预测模型进行训练,得到训练后的实体预测模型。
121.在一个实施例中,所述获取单元701,还用于:获取第四训练文本、所述第四训练文本对应的训练纠正文本、所述训练纠正文本的训练实体和所述第四训练文本对应的实体标签;
122.所述处理单元702,还用于:采用实体预测端到端模型对所述第四训练文本进行特征提取,得到所述第四训练文本对应的文本向量;对所述训练纠正文本进行特征提取,得到所述训练纠正文本对应的文本向量;对所述训练纠正文本的训练实体进行特征提取,得到所述训练纠正文本的训练实体对应的实体向量;基于所述第四训练文本对应的文本向量、所述训练纠正文本对应的文本向量以及所述训练纠正文本的训练实体对应的实体向量对所述第四训练文本进行实体识别,得到所述第四训练文本的预测实体;基于所述第四训练文本的预测实体和对应的实体标签对所述实体预测端到端模型进行训练,得到训练后的实体预测端到端模型。
123.根据本技术的一个实施例,图2和图5所示的方法所涉及的各个步骤均可以是由图7所示的实体识别装置中的各个单元执行的。例如,图2所示的步骤s201由图7所示的获取单元701来执行,步骤s202-步骤s203由图7所示的处理单元702来执行。又如,图5所示的步骤s501由图7所示的获取单元701来执行,步骤s502-步骤s509由图7所示的处理单元702来执行。
124.根据本技术的另一个实施例,图7所示的实体识别装置中的各个单元可以分别或者全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本技术实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以是由多个单元来实现,或者多个单元的功能由一个单元实现。在本技术的其他实施例中,基于实体
识别装置也可以包括其他单元,在实际应用中,这些功能也可以由其他单元协助实现,并且可以由多个单元协作实现。
125.根据本技术的另一个实施例,可以通过包括中央处理单元(central processing unit,cpu),随机存取存储介质(ram)、只读存储介质(rom)等处理元件和存储元件。例如计算机的通用计算设备上运行能够执行如图2和图5所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图7所示的实体识别装置,以及来实现本技术实施例的实体识别方法。所述的计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算机设备中,并在其中运行。
126.在本技术实施例中,确定第一媒体数据,并获取第一媒体数据对应的待识别文本;调用训练后的实体识别模型对待识别文本进行目标识别处理,确定待识别文本的实体;其中,训练后的实体识别模型用于对待识别文本进行纠错处理,得到待识别文本对应的纠正文本,并对纠正文本进行实体识别,得到纠正文本的参考实体;将纠正文本的参考实体确定为待识别文本的实体;待识别文本的实体用于进行与第一媒体数据关联的推荐。解决了在实体识别时没有考虑文本中存在错误,导致无法有效识别相应实体的问题,提升文本中存在错误时的实体识别的准确性。
127.基于上述实体识别方法实施例的描述,本技术实施例还公开了一种计算机设备,请参见图8,该计算机设备80至少可包括处理器801、输入设备802、输出设备803以及存储器804。其中,计算机设备内的处理器801、输入设备802、输出设备803以及存储器804可通过总线或其他方式连接。
128.所述存储器804是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的存储器804既可以包括计算机设备的内置存储介质,当然也可以包括计算机设备支持的扩展存储介质。存储器804提供存储空间,该存储空间存储了计算机设备的操作系统。并且,在该存储空间中还存放计算机程序(包括程序代码)。需要说明的是,此处的计算机存储介质可以是高速ram存储器;可选的,还可以是至少一个远离前述处理器的计算机存储介质、所述处理器可以称为中央处理单元(central processing unit,cpu),是计算机设备的核心以及控制中心,用于运行所述存储器804中存储的计算机程序。
129.在一种实施方式中,可由处理器801加载并执行存储器804中存放的计算机程序,以实现上述有关实体识别方法实施例中的方法的相应步骤;具体的,所述处理器801加载并执行存储器804中存放的计算机程序,用于:
130.确定第一媒体数据,并获取所述第一媒体数据对应的待识别文本;
131.调用训练后的实体识别模型对所述待识别文本进行目标识别处理,确定所述待识别文本的实体,其中,训练后的实体识别模型对所述待识别文本进行纠错处理,得到纠正文本,并对所述纠正文本进行实体识别,得到所述纠正文本的参考实体;将所述纠正文本的参考实体确定为所述待识别文本的实体;所述待识别文本的实体用于进行与第一媒体数据关联的推荐。
132.在一个实施例中,所述第一媒体数据的数量为多个,每个第一媒体数据对应一个待识别文本;所述处理器801加载并执行存储器804中存放的计算机程序,还用于:
133.获取参考媒体数据,并基于所述参考媒体数据从多个第一媒体数据中确定目标媒体数据;所述目标媒体数据对应的待识别文本的实体与所述参考媒体数据对应的文本的实
体匹配;
134.输出目标媒体数据。
135.在一个实施例中,所述处理器801加载并执行存储器804中存放的计算机程序,还用于:
136.基于所述待识别文本的实体进行实体匹配,确定第二媒体数据,所述第二媒体数据对应的文本的实体与所述待识别文本的实体匹配;
137.输出第二媒体数据。
138.在一个实施例中,所述训练后的实体识别模型包括训练后的纠错模型和训练后的实体预测模型,在调用训练后的实体识别模型对所述待识别文本进行目标识别处理,确定所述待识别文本的实体时,所述处理器801加载并执行存储器804中存放的计算机程序,可具体用于:
139.调用所述训练后的纠错模型对所述待识别文本进行纠错处理,得到所述待识别文本对应的纠正文本;
140.调用所述训练后的实体预测模型对所述纠正文本进行实体识别,得到所述纠正文本的参考实体;
141.将所述纠正文本的参考实体确定为所述待识别文本的实体。
142.在一个实施例中,所述训练后的实体识别模型包括训练后的实体预测端到端模型,所述处理器801加载并执行存储器804中存放的计算机程序,还用于:
143.调用所述训练后的实体预测端到端模型对所述待识别文本进行特征提取,得到所述待识别文本对应的文本向量;
144.对所述纠正文本进行特征提取,得到所述纠正文本对应的文本向量;
145.对所述纠正文本的参考实体进行特征提取,得到所述纠正文本的参考实体对应的实体向量;
146.基于所述待识别文本对应的文本向量、所述纠正文本对应的文本向量和所述参考实体对应的实体向量对所述待识别文本进行实体识别,得到所述待识别文本的候选实体;
147.将所述待识别文本的候选实体确定为所述待识别文本的实体。
148.在一个实施例中,所述处理器801加载并执行存储器804中存放的计算机程序,还用于:
149.将所述待识别文本的候选实体和所述纠正文本的参考实体进行实体融合,得到所述待识别文本的实体。
150.在一个实施例中,在基于所述待识别文本对应的文本向量、所述纠正文本对应的文本向量和所述参考实体对应的实体向量对所述待识别文本进行实体识别,得到所述待识别文本的候选实体时,所述处理器801加载并执行存储器804中存放的计算机程序,具体用于:
151.调用所述训练后的实体预测端到端模型中的第一注意力模块对所述纠正文本对应的文本向量和所述待识别文本对应的文本向量进行注意分析,得到所述待识别文本的预测实体的实体向量;
152.调用所述训练后的实体预测端到端模型中的第二注意力模块对所述待识别文本的预测实体的实体向量和所述参考实体对应的实体向量进行注意分析,得到所述待识别文
本的候选实体。
153.在一个实施例中,在调用所述训练后的实体预测端到端模型中的第一注意力模块对所述纠正文本对应的文本向量和所述待识别文本对应的文本向量进行注意分析,得到所述待识别文本的预测实体的实体向量时,所述处理器801加载并执行存储器804中存放的计算机程序,具体用于:
154.对所述纠正文本对应的文本向量和所述待识别文本对应的文本向量进行差异分析,得到所述纠正文本对应的纠错位置,所述纠错位置用于指示所述纠正文本中与所述待识别文本所包含的对应字符不同的目标字符在所述纠正文本中所处的位置;
155.调用所述训练后的实体预测端到端模型对所述纠错位置和所述纠正文本进行注意力分析,得到所述待识别文本的预测实体的实体向量。
156.在一个实施例中,在调用所述训练后的实体预测端到端模型中的第二注意力模块对所述待识别文本的预测实体的实体向量和所述参考实体对应的实体向量进行注意分析,得到所述待识别文本的候选实体时,所述处理器801加载并执行存储器804中存放的计算机程序,可具体用于:
157.基于所述参考实体对应的实体向量,确定所述参考实体在所述纠正文本中的目标位置;
158.在所述待识别文本中确定所述目标位置对应的预测实体的实体向量;
159.调用所述训练后的实体预测端到端模型中的第二注意力模块对所述目标位置对应的预测实体的实体向量进行注意分析,得到所述待识别文本的候选实体。
160.在一个实施例中,所述处理器801加载并执行存储器804中存放的计算机程序,还用于:获取第一训练文本以及所述第一训练文本对应的实体标签;调用实体识别模型对所述第一训练文本进行纠错处理,得到所述第一训练文本对应的纠正文本,并对所述第一训练文本对应的纠正文本进行实体识别,得到所述第一训练文本的预测实体;基于所述第一训练文本的预测实体和对应的实体标签对所述实体识别模型进行训练,得到训练后的实体识别模型。
161.在一个实施例中,所述处理器801加载并执行存储器804中存放的计算机程序,还用于:获取第二训练文本以及所述第二训练文本对应的纠正文本标签;调用纠错模型对所述第二训练文本进行纠错处理,得到所述第二训练文本对应的预测纠正文本;基于所述第二训练文本的预测纠正文本和对应的纠正文本标签对所述纠错模型进行训练,得到训练后的纠错模型。
162.在一个实施例中,所述处理器801加载并执行存储器804中存放的计算机程序,还用于:获取第三训练文本以及所述第三训练文本对应的实体标签;调用训练后的纠错模型对所述第三训练文本进行纠错处理,得到所述第三训练文本对应的纠正文本;对所述第三训练文本对应的纠正文本进行实体识别,得到所述第三训练文本的预测实体;基于所述第三训练文本的预测实体和对应的实体标签对所述实体预测模型进行训练,得到训练后的实体预测模型。
163.在一个实施例中,所述处理器801加载并执行存储器804中存放的计算机程序,还用于:获取第四训练文本、所述第四训练文本对应的训练纠正文本、所述训练纠正文本的训练实体和所述第四训练文本对应的实体标签;采用实体预测端到端模型对所述第四训练文
本进行特征提取,得到所述第四训练文本对应的文本向量;对所述训练纠正文本进行特征提取,得到所述训练纠正文本对应的文本向量;对所述训练纠正文本的训练实体进行特征提取,得到所述训练纠正文本的训练实体对应的实体向量;基于所述第四训练文本对应的文本向量、所述训练纠正文本对应的文本向量以及所述训练纠正文本的训练实体对应的实体向量对所述第四训练文本进行实体识别,得到所述第四训练文本的预测实体;基于所述第四训练文本的预测实体和对应的实体标签对所述实体预测端到端模型进行训练,得到训练后的实体预测端到端模型。
164.应当理解,在本技术实施例中,所称处理器801可以是中央处理单元(central processing unit,cpu),该处理器801还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
165.在本技术实施例中,确定第一媒体数据,并获取第一媒体数据对应的待识别文本;调用训练后的实体识别模型对待识别文本进行目标识别处理,确定待识别文本的实体;其中,训练后的实体识别模型用于对待识别文本进行纠错处理,得到待识别文本对应的纠正文本,并对纠正文本进行实体识别,得到纠正文本的参考实体;将纠正文本的参考实体确定为待识别文本的实体;待识别文本的实体用于进行与第一媒体数据关联的推荐。解决了在实体识别时没有考虑文本中存在错误,导致无法有效识别相应实体的问题,提升文本中存在错误时的实体识别的准确性。
166.本技术实施例中提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,可执行上述所有实施例中所执行的步骤。
167.本技术实施例还提供一种计算机程序产品或计算机程序,计算机程序产品或计算机程序包括计算机指令,计算机指令存储在计算机可读存储介质中,计算机指令被计算机设备的处理器执行时,执行上述所有实施例中的方法。
168.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)或随机存储记忆体(random access memory,ram)等。
169.以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献