文本标注方法、装置、设备以及存储介质与流程
- 国知局
- 2024-10-21 15:07:05
本申请涉及自然语言处理领域,尤其涉及一种文本标注方法、装置、设备以及存储介质。
背景技术:
1、自然语言处理是一种涉及计算机处理和人类语言理解的领域,它涵盖了从语言模型和语义理解到文本生成和信息检索等广泛的应用。在自然语言处理的发展过程中,文本标注技术显得尤为重要。文本标注技术通过给文本中的词汇、短语或句子赋予预定义的标签或类别,从而使得计算机能够更好地理解和处理文本内容。
2、目前的文本标注方法主要是通过正则表达式进行匹配,匹配场景单一。
3、上述内容仅用于辅助理解本申请的技术方案,并不代表承认上述内容是现有技术。
技术实现思路
1、本申请的主要目的在于提供一种文本标注方法、装置、设备以及存储介质,旨在解决目前文本标注方法匹配场景单一的技术问题。
2、为实现上述目的,本申请提出一种文本标注方法,所述的方法包括:
3、获取示例场景文本;
4、将所述示例场景文本输入预设的场景公式生成模型,得到场景公式,所述场景公式生成模型是由预先训练得到的跳字模型、适用于所述跳字模型的评分标准以及预设的特征词典学习库构成;
5、获取待标注文本;
6、基于所述场景公式对所述待标注文本进行标注。
7、在一实施例中,所述将所述示例场景文本输入预设的场景公式生成模型,得到场景公式的步骤包括:
8、对所述示例场景文本进行预处理,得到初始词汇节点集;
9、将所述初始词汇节点集输入所述跳字模型,得到词嵌入向量;
10、基于所述评分标准对所述词嵌入向量进行评分,将评分超过预设阈值的词嵌入向量作为最终词汇节点集;
11、基于所述最终词汇节点集进行词性特征回填,得到若干公式;
12、基于所述特征词典学习库对所述若干公式进行匹配,将匹配到的词汇作为所述场景公式。
13、在一实施例中,所述将所述示例场景文本进行预处理,得到初始词汇节点集的步骤包括:
14、通过预设的分词模型对所述示例场景文本进行分词处理,得到第一词汇节点集;
15、对所述第一词汇节点集中的词汇节点进行特征标注,得到第二词汇节点集;
16、从所述第二词汇节点集中删除不必要的词汇节点,得到所述初始词汇节点集。
17、在一实施例中,所述基于所述最终词汇节点集进行词性特征回填,得到若干公式的步骤包括:
18、判断所述示例场景文本中是否存在已标注词汇节点;
19、若不存在,则将所述示例场景文本作为所述已标注词汇节点;
20、对所述最终词汇节点集、所述已标注词汇节点进行词性特征回填,得到所述若干公式。
21、在一实施例中,所述预设的特征词典学习库包含一级特征,所述基于所述特征词典学习库对所述若干公式进行匹配,将匹配到的词汇作为所述场景公式的步骤包括:
22、基于所述一级特征衍生二级特征;
23、基于所述一级特征和/或所述二级特征对所述若干公式进行匹配,将匹配到的词汇作为所述场景公式。
24、在一实施例中,所述将所述示例场景文本输入预设的场景公式生成模型,得到场景公式的步骤之后包括:
25、从预设的语料库中抽取样本文本;
26、通过所述场景公式对所述样本文本进行标注,得到标注结果;
27、判断所述标注结果是否准确;
28、若否,则基于所述标注结果优化所述场景公式,并基于所述标注结果更新所述特征词典学习库;
29、所述基于所述场景公式对所述待标注文本进行标注的步骤包括:
30、基于优化后的场景公式对所述待标注文本进行标注。
31、在一实施例中,所述基于所述场景公式对所述待标注文本进行标注的步骤包括:
32、获取所述待标注文本中的目标段落和/或目标语句;
33、基于所述场景公式对所述目标段落以及相应的相邻段落,和/或,对所述目标语句以及相邻语句进行标注。
34、此外,为实现上述目的,本申请还提出一种文本标注装置,所述文本标注装置包括:
35、数据获取模块,用于获取示例场景文本;
36、场景公式生成模块,用于将所述示例场景文本输入预设的场景公式生成模型,得到场景公式,所述场景公式生成模型是由预先训练得到的跳字模型、适用于所述跳字模型的评分标准以及预设的特征词典学习库构成;
37、文本标注模块,用于获取待标注文本;基于所述场景公式对所述待标注文本进行标注。
38、此外,为实现上述目的,本申请还提出一种文本标注设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序配置为实现如上文所述的文本标注方法的步骤。
39、此外,为实现上述目的,本申请还提出一种存储介质,所述存储介质为计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上文所述的文本标注方法的步骤。
40、本申请提出的一个或多个技术方案,至少具有以下技术效果:
41、本申请基于预先训练得到的跳字模型、适用于跳字模型的评分标准以及预设的特征词典学习库构成场景公式生成模型,然后基于场景公式生成模型生成场景公式;其中,跳字模型能够通过神经网络预测上下文的词嵌入向量,从而更好地捕捉词与词之间的语义关系,提高对上下文信息的理解和预测能力。再通过评分标准对词嵌入向量进行评分,可以帮助识别和筛选出相关的词嵌入向量。而特征词典学习库包含了大量与目标场景相关的特征词和短语,可以帮助场景公式生成模型在生成场景公式时更准确地捕捉关键信息。由此基于跳字模型、评分标准以及特征词典学习库构成的场景公式生成模型能够适应不同类型的文本和场景,确保在复杂的文本环境中仍具备精确的标注能力。
技术特征:1.一种文本标注方法,其特征在于,所述方法包括:
2.如权利要求1所述的方法,其特征在于,所述将所述示例场景文本输入预设的场景公式生成模型,得到场景公式的步骤包括:
3.如权利要求2所述的方法,其特征在于,所述将所述示例场景文本进行预处理,得到初始词汇节点集的步骤包括:
4.如权利要求2所述的方法,其特征在于,所述基于所述最终词汇节点集进行词性特征回填,得到若干公式的步骤包括:
5.如权利要求2所述的方法,其特征在于,所述预设的特征词典学习库包含一级特征,所述基于所述特征词典学习库对所述若干公式进行匹配,将匹配到的词汇作为所述场景公式的步骤包括:
6.如权利要求1所述的方法,其特征在于,所述将所述示例场景文本输入预设的场景公式生成模型,得到场景公式的步骤之后包括:
7.如权利要求1所述的方法,其特征在于,所述基于所述场景公式对所述待标注文本进行标注的步骤包括:
8.一种文本标注装置,其特征在于,所述装置包括:
9.一种文本标注设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序配置为实现如权利要求1至7中任一项所述的文本标注方法的步骤。
10.一种存储介质,其特征在于,所述存储介质为计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的文本标注方法的步骤。
技术总结本申请公开了一种文本标注方法、装置、设备以及存储介质,涉及自然语言处理领域,方法包括:获取示例场景文本;将所述示例场景文本输入预设的场景公式生成模型,得到场景公式,所述场景公式生成模型是由预先训练得到的跳字模型、适用于所述跳字模型的评分标准以及预设的特征词典学习库构成;获取待标注文本;基于所述场景公式对所述待标注文本进行标注。本申请能够适用于复杂的业务场景。技术研发人员:叶飞受保护的技术使用者:招商银行股份有限公司技术研发日:技术公布日:2024/10/17本文地址:https://www.jishuxx.com/zhuanli/20241021/320588.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表