一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于多工具的自然语言处理方法、设备及介质与流程

2022-06-05 06:38:26 来源:中国专利 TAG:

技术特征:
1.一种基于多工具的自然语言处理方法,其特征在于,包括:获取多个开源nlp工具,所述开源nlp工具支持对特定语言进行处理;根据所述特定语言的属性,将所述特定语言划分成与所述特定语言适配的多个维度;确定预先获取的训练样本,所述训练样本中,至少部分结构以所述特定语言的形式体现;针对每个所述开源nlp工具,使用其对所述训练样本进行自然语言处理分析,以将所述训练样本在每个所述维度下进行分析,得到所述多个维度分别对应的分析结果;针对每个所述维度,获取所述多个开源nlp工具在该维度下的所述分析结果,以训练得到该维度对应的nlp维度模型;根据多个所述nlp维度模型,实现对所述特定语言的自然语言处理。2.如权利要求1所述的方法,其特征在于,所述特定语言为汉语,所述维度包括语言词性维度;所述针对每个所述开源nlp工具,使用其对所述训练样本进行自然语言处理分析,以将所述训练样本在每个所述维度下进行分析,得到所述多个维度分别对应的分析结果,具体包括:针对每个所述开源nlp工具,使用其对所述训练样本进行自然语言处理分析,以将所述训练样本在所述语言词性维度下进行分析,得到所述语言词性维度对应的第一分析结果;将所述第一分析结果作为影响因子,将所述训练样本在其他维度下进行分析,得到所述其他维度对应的第二分析结果,以便通过所述第一分析结果和所述第二分析结果训练得到不同维度对应的nlp维度模型。3.如权利要求2所述的方法,其特征在于,所述将所述第一分析结果作为影响因子,将所述训练样本在其他维度下进行分析,得到所述其他维度对应的第二分析结果,具体包括:根据所述第一分析结果,确定所述训练样本中,所述语言词性维度为停用词的指定词语;将所述指定词语替换为分隔符,以对通过所述分隔符分隔得到的其他词语,在其他维度下进行分析,得到所述其他维度对应的第二分析结果。4.如权利要求3所述的方法,其特征在于,所述通过所述分隔符分隔得到的其他词语,在其他维度下进行分析,得到所述其他维度对应的第二分析结果,具体包括:确定通过所述分隔符分隔得到的其他词语;针对所述其他词语中的至少部分词语,在实体类型维度,和/或,情感分析维度,进行分析,得到所述实体类型维度,和/或,所述情感分析维度分别对应的第二分析结果。5.如权利要求1所述的方法,其特征在于,所述根据多个所述nlp维度模型,实现对所述特定语言的自然语言处理,具体包括:根据用户需求,在多个所述nlp维度模型中选择所需的nlp维度模型,并通过所述所需的nlp维度模型,实现对所述特定语言的自然语言处理。6.如权利要求1所述的方法,其特征在于,所述训练得到该维度对应的nlp维度模型,具体包括:确定该维度与各所述开源nlp工具之间的关联等级;根据所述关联等级,确定各所述开源nlp工具在该维度中所占的占权重,所述关联等级
和所述权重呈正相关;根据所述权重,在该维度中各所述开源nlp工具对应的分析结果选取部分分析结果,用于训练得到该维度对应的nlp维度模型。7.如权利要求1所述的方法,其特征在于,所述得到所述多个维度分别对应的分析结果之后,所述方法还包括:将所述分析结果存储至基于指定搜索库的分布式搜索服务器存储中,所述指定搜索库为全文检索引擎的架构。8.如权利要求2所述的方法,其特征在于,所述开源自然语言处理工具包括stanfordnlp模型、fudannlp模型、hanlp模型中的至少一种。9.一种基于多工具的自然语言处理设备,其特征在于,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如:获取多个开源nlp工具,所述开源nlp工具支持对特定语言进行处理;根据所述特定语言的属性,将所述特定语言划分成与所述特定语言适配的多个维度;确定预先获取的训练样本,所述训练样本中,至少部分结构以所述特定语言的形式体现;针对每个所述开源nlp工具,使用其对所述训练样本进行自然语言处理分析,以将所述训练样本在每个所述维度下进行分析,得到所述多个维度分别对应的分析结果;针对每个所述维度,获取所述多个开源nlp工具在该维度下的所述分析结果,以训练得到该维度对应的nlp维度模型;根据多个所述nlp维度模型,实现对所述特定语言的自然语言处理。10.一种非易失性计算机存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令设置为:获取多个开源nlp工具,所述开源nlp工具支持对特定语言进行处理;根据所述特定语言的属性,将所述特定语言划分成与所述特定语言适配的多个维度;确定预先获取的训练样本,所述训练样本中,至少部分结构以所述特定语言的形式体现;针对每个所述开源nlp工具,使用其对所述训练样本进行自然语言处理分析,以将所述训练样本在每个所述维度下进行分析,得到所述多个维度分别对应的分析结果;针对每个所述维度,获取所述多个开源nlp工具在该维度下的所述分析结果,以训练得到该维度对应的nlp维度模型;根据多个所述nlp维度模型,实现对所述特定语言的自然语言处理。

技术总结
本申请公开了一种基于多工具的自然语言处理方法、设备及介质,方法包括:获取多个开源NLP工具;将特定语言划分成与特定语言适配的多个维度;确定预先获取的训练样本,训练样本中,至少部分结构以特定语言的形式体现;针对每个开源NLP工具,使用其对训练样本进行自然语言处理分析,以将训练样本在每个维度下进行分析,得到多个维度分别对应的分析结果;针对每个维度,获取多个开源NLP工具在该维度下的分析结果,以训练得到该维度对应的NLP维度模型;根据多个NLP维度模型,实现对特定语言的自然语言处理。通过多个开源NLP工具进行自然语言处理,得到特定语言在多个维度下的分析结果,解决使用单一基础NLP工具分析准确性较低的问题,提升了可用性。提升了可用性。提升了可用性。


技术研发人员:赵志庆 侯玉柱 王巍 张雨铭威 董席峰 刘孟
受保护的技术使用者:戎行技术有限公司
技术研发日:2022.03.03
技术公布日:2022/6/4
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献