技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于知识图谱的专利文献智能检索方法及其系统与流程 > 正文

基于知识图谱的专利文献智能检索方法及其系统与流程

国知局
2024-09-11 14:44:14

本发明涉及知识产权，尤其涉及一种基于知识图谱的专利文献智能检索方法及其系统。

背景技术：

1、专利文献是记载专利申请、审査、批准过程中所产生的各种有关文件的文件资料。在现代信息时代，随着专利文献的不断增加，专利文献信息爆炸和信息分散已经成为一个急需解决的问题。

2、目前传统的专利检索方法是，申请人在申请专利前，依据技术关键字、技术领域检索相关的专利文献，评估该项发明是否具有新颖性、创造性与实用性，以免提出申请后不能获得专利权。但是，通过关键字匹配检索内容的方式容易匹配大量关联度低的无效专利数据，检索精度较低，需要专业人员进行二次以上检索以筛选出关联度最高的专利数据，操作繁琐，对技术人员的专业性要求高。现有的技术的检索需要专业的人员，提取关键字对专利文献进行多次检索，普通的研发人员检索难度较大，检索出来的信息的准确性不够，出现漏检索或者无用的信息较大，现有技术的检索需要效率较低，大量浪费在检索的时间。其次，目前的检索方法，通常是直接罗列大量专利，无法直观地发现专利、发明人以及申请人之间存在的内在关系，难以谓语关系稀疏，不利于图谱模型的训练与后续的自动补全。

3、因此，亟需设计一种除了考量关键字因素，还可以利用知识图谱进行数据关联匹配的专利文献智能检索方法，从而提供更为准确的检索结果。

技术实现思路

1、为了克服现有技术的缺陷，本发明所要解决的技术问题在于提出一种基于知识图谱的专利文献智能检索方法及其系统，通过数据采集处理及知识图谱的方式，提高专利文献的检索效率，降低专利检索门槛，保证检索结果更精准可靠、高效便捷。

2、为达此目的，本发明采用以下技术方案：

3、本发明提供的一种基于知识图谱的专利文献智能检索方法，所述方法包括：

4、s10：从多种数据源采集专利文献数据，获取专利申请文本信息以及专利属性信息，建立专利数据库；

5、s20：对专利数据库中的专利文献数据执行预处理操作，包括文本清洗、文本分词、词性标注及模型训练；

6、s30：从预处理操作后的文本数据中，执行标准化处理操作，获取数据的实体类型、实体属性以及实体关系，将识别出的实体、关系和属性存入图数据库中，搭建专利知识图谱系统；

7、s40：根据检索信息的关键字和其他查询条件，将所述检索信息与所述专利知识图谱系统中的实体和关系进行匹配，利用相似度算法以及迭代遗传算法，输出与所述检索信息相似度最高的检索结果作为最优检索结果。

8、本发明优选的技术方案在于，所述从预处理操作后的文本数据中，执行标准化处理操作，包括：

9、对专利文献数据进行文本清洗、文本分词、词性标注、去除停用词及模型训练，获得消除无用文本后的预处理文本数据，清洗构建数据并根据相似度算法对数据进行分离；

10、对预处理文本数据采用命名实体识别模型，识别专利知识图谱中的实体类型以及实体属性，采用实体链接算法，将识别出的实体链接到知识图谱中对应的实体节点，获取实体在知识图谱中的属性和关系信息；

11、采用关系抽取模型，从专利文献数据中抽取出实体之间的关系，将抽取出的关系信息与知识图谱中的关系进行对比，以验证关系是否准确完整；

12、利用损失函数，对实体和关系进行嵌入表示，搭建专利知识图谱系统。

13、本发明优选的技术方案在于，所述利用损失函数，对实体和关系进行嵌入表示，搭建专利知识图谱系统，包括：

14、定义专利知识图谱中的图谱元素、关系以及结果图谱元素分别为专利知识图谱的三元组(h，r，t)，利用所述损失函数对知识图谱中的实体和关系进行嵌入表示，所述损失函数为：

15、

16、其中，头实体h为图谱元素，关系r为图谱元素之间相关的关系描述，尾实体t为结果图谱元素，s为正样本集合，s＇为负样本集合，d表示距离函数，[]+表示取正部分，γ为间隔参数。

17、本发明优选的技术方案在于，所述利用相似度算法，包括：

18、采用卷积神经网络模型，对与所述检索信息相匹配的实体和关系的语义进行相似度分析，根据所述检索信息的关键字和查询条件作为卷积神经网络的初始输入，遍历模糊检索生成的专利名称、图谱层级节点以及检索关键字；

19、基于相似度匹配评分函数计算每一层网络的相似度，若相似度大于预设阈值，则作为下一级网络的输入，经过多次迭代，输出与所述检索信息相似度最高的检索结果作为最优检索结果。

20、本发明优选的技术方案在于，所述采用卷积神经网络模型，对与所述检索信息相匹配的实体和关系的语义进行相似度分析，包括：

21、通过所述专利知识图谱系统定位所述检索信息相关联的专利技术领域以及专利分类号，根据不同的专利技术领域以及专利分类号，对检索的实体进行分类；

22、对经过检索分类的实体对象的专利名称以及专利摘要，与所述检索信息的关键字进行相似度评估；

23、若相似度小于预设阈值，则舍弃该专利检索结果；

24、若相似度大于预设阈值，则作为下一节点层级网络的相关输入。

25、本发明优选的技术方案在于，所述将识别出的实体、关系和属性存入图数据库中，搭建专利知识图谱系统，包括：

26、以专利基本信息、专利发明人、专利申请人作为实体，根据实体的属性信息，建立实体之间的关系，形成包含实体节点以及实体节点关系的所述专利知识图谱系统。

27、本发明优选的技术方案在于，所述实体节点关系包括相同类型实体之间的节点关系以及不同类型实体之间的节点关系；

28、所述相同类型实体之间的节点关系包括专利之间的节点关系、发明人之间的节点关系以及申请人之间的节点关系；

29、所述不同类型实体之间的节点关系包括专利与发明人之间的节点关系、专利与申请人之间的节点关系以及发明人与申请人之间的节点关系。

30、本发明优选的技术方案在于，通过余弦相似度算法计算两个专利文本之间的相似度，以建立所述专利之间的节点关系，包括：

31、所述余弦相似度算法的计算公式为：

32、

33、定义分词向量k＝{k1，k2，...，kn}和k'＝{k'1，k'2，...，k'm}分别表示专利a和专利b的分词向量，其中ki和k'i分别表示关键字集合中的词在专利a和专利b中的词频，通过计算余弦相似度，得到专利a和专利b之间的相似度值；

34、若专利a和专利b之间的相似度大于预设阈值，则建立专利a和专利b之间的节点关系。

35、本发明优选的技术方案在于，在所述卷积神经网络模型中引入注意力机制算法，关注专利文献中权重值高的实体和关系，其中，权重值高的实体为设定的专利关键字。

36、本发明优选的技术方案在于，所述迭代遗传算法，包括：

37、使用检索条件，新建一个虚构个体，放入到相似度最高值的专利知识图谱分支中，设置迭代层数及终止条件，输出最优个体，使得经过所述迭代遗传算法的每个个体符合设定的检索目标。

38、本发明提供的一种采用所述基于知识图谱的专利文献智能检索方法的系统，包括：

39、数据采集单元，用于从多种数据源获取专利文献数据，建立专利数据库；

40、数据处理单元，用于对专利文献数据进行加工处理，以获取数据的实体类型、实体属性以及实体关系；

41、知识图谱构建单元，用于将识别出的实体、关系和属性存入图数据库中，搭建专利知识图谱系统；

42、智能检索单元，用于利用相似度算法，输出与所述检索信息相似度最高的检索结果作为最优检索结果。

43、本发明的有益效果为：

44、通过数据采集及知识图谱的方式有效的分辨了专利之间的相关性，并借助图匹配的方法实现相关专利内容之间检索，降低了基于关键字等传统检索方法的难度与步骤，并进而利用相似性计算给出相关专利之间的相似度，使专利检索过程高效，通过相似度的阈值计算评估，使得检索结果更加精准，且可以更直观的展现专利数据实体间存在的层次关系，便于用户查找相关信息，保证检索结果更精准可靠、高效便捷。