技术新讯 > 计算推算,计数设备的制造及其应用技术 > 文本参数抽取方法、设备及存储介质与流程  >  正文

文本参数抽取方法、设备及存储介质与流程

  • 国知局
  • 2024-07-31 23:02:00

本技术涉及自然语言处理,具体而言,涉及一种文本参数抽取方法、设备及存储介质。

背景技术:

1、文本参数抽取是自然语言处理领域的一个重要任务,通过从非结构化的自然语言文本中抽取出结构化信息,以将句子对齐下游迁移任务和语料库模板,从而实现智能问答等分析、检索和推理的任务。

2、目前,由于语料库模板的参数数量并不统一,且用户任意输入的文本多种多样,因此往往无法快速准确地从输入句中抽取出与语料库模板对齐的参数。综上,亟需一种能够提高对齐效率和准确率的文本参数抽取方案。

技术实现思路

1、本技术实施例的目的在于提供一种文本参数抽取方法、设备及存储介质,用以提高输入语句与语料库模板的对齐效率和准确率。

2、第一方面,本技术实施例提供了一种文本参数抽取方法,包括:

3、获取与输入语句相匹配的语料模板;其中,所述语料模板包括多个问题模板以及对应的一个答案模板;

4、从所述多个问题模板中筛选出与所述输入语句相匹配的目标问题模板,并基于所述输入语句与所述目标问题模板的对齐关系,从所述输入语句中抽取出至少一候选参数;

5、基于所述至少一候选参数和所述目标问题模板确定若干候选问题语句;

6、获取每一所述候选问题语句与所述输入语句的相似度结果,根据所述相似度结果从所述若干候选问题语句中选取出目标问题语句,并将所述目标问题语句对应的候选参数作为用于填充至所述答案模板的目标文本参数。

7、在本技术实施例中,通过在从输入句中提取得到若干候选参数之后,再基于这些候选参数构成若干候选问题语句,并根据候选问题语句与输入语句的相似度筛选对应的文本参数,从而有效提高输入语句与语料库模板的对齐效率和准确率。

8、在一些可能的实施例中,所述从所述多个问题模板中筛选出与所述输入语句相匹配的目标问题模板,包括:

9、确定所述输入语句的第一词性映射信息集,并确定每一所述问题模板的第二词性映射信息集;

10、基于每一所述第二词性映射信息集与所述第一词性映射信息集的相似度,从所述多个问题模板中筛选出与所述输入语句相匹配的目标问题模板。

11、在本技术实施例中,通过将输入语句和问题模板转换为词属性的映射方式,并根据这些词属性映射信息的相似度筛选目标问题模板,进一步提高文本参数抽取的准确性。

12、在一些可能的实施例中,所述确定所述输入语句的第一词性映射信息集,并确定每一所述问题模板的第二词性映射信息集,包括:

13、对于每一问题模板,确定所述输入语句的第一spo三元组以及所述问题模板的第二spo三元组,并确定所述第一spo三元组与所述第二spo三元组的spo匹配词;

14、基于所述spo匹配词分别确定所述输入语句的第一初始映射信息集,并分别确定所述问题模板的第二初始映射信息集;

15、基于所述输入语句中每一分词的词性以及所述第一初始映射信息集,确定所述输入语句的第一词性映射信息集;

16、基于所述问题模板中每一分词的词性以及所述第二初始映射信息集,确定所述问题模板的第二词性映射信息集;

17、其中,所述第一初始映射信息集包括所述输入语句中每一分词的词功能信息以及每一分词相对于所述spo匹配词的位置信息;所述第二初始映射信息集包括所述问题模板中每一分词的词功能信息以及每一分词相对于所述spo匹配词的位置信息。

18、在本技术实施例中,通过首先确定输入句和问题模板的spo三元组,再根据确定的spo匹配词来获取输入句和问题模板的词属性映射信息,进一步提高文本参数抽取的准确性。

19、在一些可能的实施例中,所述确定所述输入语句的第一spo三元组以及所述问题模板的第二spo三元组,并确定所述第一spo三元组与所述第二spo三元组的spo匹配词,包括:

20、从预设的提取模型库中选取与所述输入语句相匹配的目标提取模型;其中,所述提取模型库包括正则提取模型、门控机制提取模型、自注意力机制提取模型中的至少两种;

21、基于所述目标提取模型确定所述输入语句的第一spo三元组以及所述问题模板的第二spo三元组,并确定所述第一spo三元组与所述第二spo三元组的spo匹配词。

22、在本技术实施例中,通过根据情况从多种提取模型中选取适当模型来提取输入句和问题模板的spo三元组,从而进一步提高文本参数抽取的准确性。

23、在一些可能的实施例中,所述基于所述至少一候选参数和所述目标问题模板确定若干候选问题语句,包括:

24、确定所述至少一候选参数中存在功能和词性均一致的至少一对候选参数,基于所述至少一候选参数和所述目标问题模板确定若干候选问题语句。

25、在本技术实施例中,通过增加判断是否需要筛选文本参数的步骤,在确认满足相关条件后再进行参数筛选,从而进一步提高文本参数抽取的效率。

26、在一些可能的实施例中,所述基于所述至少一候选参数和所述目标问题模板确定若干候选问题语句,包括:

27、从所述至少一候选参数中筛选出功能和词性均一致的第一候选参数,并将所述第一候选参数以不同的替换方案与所述目标问题模板进行组合,得到若干候选问题语句。

28、在本技术实施例中,通过将相同词性和功能的候选参数交叉互换组合至问题模板中,能够排除相同词性和功能的参数干扰,从而进一步提高文本参数抽取的准确性。

29、在一些可能的实施例中,所述获取每一所述候选问题语句与所述输入语句的相似度结果,包括:

30、对于每一问题模板,利用预设的随机森林分类模型基于所述第二初始映射信息集预测所述问题模板中每一分词的权重;

31、基于所述至少一候选参数与各个问题模板的对应关系确定每一所述候选参数的词性权重;

32、获取每一所述候选问题语句与所述输入语句的向量相似度,基于所述向量相似度以及所述候选问题语句中候选参数的词性权重,确定所述候选问题语句与所述输入语句的相似度结果。

33、在本技术实施例中,通过随机森林分类模型确定参数的词性权重,并结合该词性权重确定候选问题语句与输入句的相似度,从而进一步提高文本参数抽取的准确性。

34、第二方面,本技术实施例提供了一种文本参数抽取装置,包括:

35、模板获取模块,用于获取与输入语句相匹配的语料模板;其中,所述语料模板包括多个问题模板以及对应的一个答案模板;

36、模板筛选模块,用于从所述多个问题模板中筛选出与所述输入语句相匹配的目标问题模板,并基于所述输入语句与所述目标问题模板的对齐关系,从所述输入语句中抽取出至少一候选参数;

37、语句确定模块,用于基于所述至少一候选参数和所述目标问题模板确定若干候选问题语句;

38、参数确定模块,用于获取每一所述候选问题语句与所述输入语句的相似度结果,根据所述相似度结果从所述若干候选问题语句中选取出目标问题语句,并将所述目标问题语句对应的候选参数作为用于填充至所述答案模板的目标文本参数。

39、第三方面,本技术实施例提供了一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述程序时可实现第一方面任一实施例所述的方法。

40、第四方面,本技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时可实现第一方面任一实施例所述的方法。

41、第五方面,本技术实施例提供了一种计算机程序产品,所述的计算机程序产品包括计算机程序,其中,所述的计算机程序被处理器执行时可实现第一方面任一实施例所述的方法。

本文地址:https://www.jishuxx.com/zhuanli/20240730/195697.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。