技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种专利技术路线的生成方法、装置及计算机设备  >  正文

一种专利技术路线的生成方法、装置及计算机设备

  • 国知局
  • 2024-08-08 16:50:02

本发明属于自然语言处理领域,具体涉及一种专利技术路线的生成方法、装置及计算机设备。

背景技术:

1、随着全球专利数量的爆炸式增长,对于海量专利数据的挖掘和分析变得越来越重要。其中,专利技术路线分析是一种旨在揭示某一技术领域内的主要技术发展路径和关键技术节点的分析方法。它通过对历史和现有的专利数据进行深入研究,从更加全面、结构化的视角来理解技术的进化和潜在的技术趋势。

2、专利技术分析难度大的原因之一在于对专利文本的阅读理解,其不光需要对商业市场的了解,更需要对专利技术的把握。已有的专利技术路线分析,大多基于专利的申请人、ipc分类号等基本信息构建的专利技术路线图,再由人工进行进一步对专利文本进行详细的技术分析,这需要耗费大量的人力。而在自然语言处理领域,对专利的阅读理解技术方面,由于专利文本本身的特点以及人工标注数据集的缺乏,大多数研究仍聚集于关键词抽取和简单的文本生成等方面,效果也不甚理想。

3、对专利文本的阅读理解具有以下需要克服的主要困难:中文处理需要分词带来语义分割;专利文档含大量专业名词和缩写,通用语言模型理解能力有限;缺乏大规模高质量人工标注数据;对专利的阅读理解具有较强的主观性,很容易根据从业人员的个人主观因素导致结果的偏差。

4、近年来,大语言模型(large language model,llm)模型取得了较大的进步,在语言理解和生成任务上超过或接近人类水平。其利用大规模预训练获取语言知识,学习将语言表示为向量,在nlp的各项任务中均展现出了较高的性能。chatglm、llama等最近发布的llm模型在多领域展现出专家级语言理解和生成能力。有论文基于rlhf这一大语言模型的训练过程,进一步提出rlaif的方法,借助大语言模型的能力来对其他语言模型进行训练。这使得研究者能够用大语言模型来完成对专利的阅读理解,通过构建合适的提示词来抽取出高质量的关键词来弥补这方面人工标注数据集的缺失。这在一定程度上可以避免人工标注的主观性,也大大减少了人工标注的成本。

5、在构建专利技术图谱的方面,大多数研究由于各种nlp任务在专利领域的局限性,很难在广泛的数据集上达到较好的效果,并且对于大多数专利知识图谱的研究在专利文本的语义分析上还停留在对一些技术短语相似度的分析,其对技术短语的抽取质量具有强依赖性,并且在对专利文本的语义解读不够明确,效果不佳的情况下,专利知识图谱在其他相关算法的进一步应用上也寸步难行

技术实现思路

1、基于现有技术存在的问题,本发明提出了一种专利技术路线的生成方法、装置及计算机设备,将大语言模型和时序知识图谱的相关技术运用到专利路线生成中,利用大语言模型采用了大语言模型训练中关键的rlhf、rlaif方法,训练一个具有专利文本阅读理解能力的语言模型,该语言模型可以提取专利中的核心技术、技术功效以及技术领域的关键词,达到将专利文本信息序化的效果。根据序化后的专利文本信息进行专利技术图谱的构建和可视化可以清晰的描述专利的主要技术路线。根据专利技术图谱来获取相应的时序序列数据集,使用数据集训练时序预测模型来达到对专利技术热点预测和交叉技术领域的专利点挖掘的效果。

2、在本发明的第一方面,本发明提供了一种专利技术路线的生成方法,所述方法包括:

3、获取专利文本数据以及专利著作项信息;

4、采用预先训练后的专利技术信息抽取模型对专利文本数据进行处理,生成专利技术分析结果;所述专利技术分析结果包括所属专利的核心技术关键词、技术功效关键词和技术领域关键词的聚类列表;

5、对核心技术关键词、技术功效关键词和技术领域关键词的聚类列表按照聚类大小进行排序,划分出主要聚类和次要聚类;

6、根据主要聚类和次要聚类的融合向量,计算专利技术分析结果之间的相似度;

7、根据专利的著作项信息以及专利技术分析结果之间的相似度,构建出专利技术图谱;

8、在专利技术图谱中搜索特定技术关键词,生成专利技术路线分析图;

9、采用预先训练后的专利技术路线预测模型对专利技术路线分析图进行处理,生成专利技术路线。

10、在本发明的第二方面,本发明还提供了一种专利技术路线的生成装置,所述装置包括:

11、数据获取模块,用于获取专利文本数据以及专利著作项信息;

12、数据生成模块,用于采用预先训练后的专利技术信息抽取模型对专利文本数据进行处理,生成专利技术分析结果;所述专利技术分析结果包括所属专利的核心技术聚类列表、技术功效聚类列表以及技术领域关键词聚类列表;

13、图谱构建模块,用于对核心技术聚类列表、技术功效聚类列表以及技术领域关键词聚类列表分别按照聚类大小进行排序,划分出主要聚类和次要聚类;根据主要聚类和次要聚类的融合向量,计算专利技术分析结果之间的相似度;根据专利的著作项信息以及专利技术分析结果之间的相似度,构建出专利技术图谱;

14、路线分析模块,用于在专利技术图谱中搜索特定技术关键词,生成专利技术路线分析图;

15、路线生成模块,用于采用预先训练后的专利技术路线预测模型对专利技术路线分析图进行处理,生成专利技术路线。

16、在本发明的第三方面,本发明还提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行以实现如本发明第一方面所述的专利技术路线的生成方法。

17、本发明中叙述的专利技术路线图分析方法具备如下优点:

18、1、利用已有大语言生成模型的语义理解能力显著增强了对专利技术分析的准确度和细粒度,并利用聚类算法对模型生成内容进行评估,无监督且客观的获得专利关键词数据集。

19、2、本发明借助rlaif方法的思想,在预训练语言模型的基础上,针对专利技术分析任务进行强化学习,从而用更少的资源,更小的模型在专利关键词提取任务也即专利技术信息抽取模型上获得和大语言模型相当的性能,并且便于在新数据上迭代更新。

20、3、本发明构建的专利时序图谱融合了专利的核心技术、技术功效、技术领域以及其他基础信息,以此为基础构建的时序序列数据集具有多项专利技术特征,可以通过时序预测模型进行对于专利热点和专利技术改进的预测,有效生成专利的技术路线。

技术特征:

1.一种专利技术路线的生成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的一种专利技术路线的生成方法,其特征在于,所述专利技术信息抽取模型的预先训练过程包括获取专利文本训练集数据;将所述专利文本训练集数据输入到大语言模型中,使用特定模板生成专利文本训练数据,所述专利文本训练数据包括prompt提示词、answer回答和score分数的关键词评分;利用专利文本训练数据对奖励模型进行训练,生成专利训练文本数据的内容质量信息;利用内容质量信息对强化学习模型进行训练,生成专利训练文本数据的专利技术分析结果。

3.根据权利要求2所述的一种专利技术路线的生成方法,其特征在于,将所述专利文本训练集数据输入到大语言模型中,使用特定模板生成专利文本训练数据包括:

4.根据权利要求3所述的一种专利技术路线的生成方法,其特征在于,每个关键词所在聚类的评分表示为:

5.根据权利要求1所述的一种专利技术路线的生成方法,其特征在于,所述主要聚类和次要聚类的融合向量的计算方式包括:

6.根据权利要求1所述的一种专利技术路线的生成方法,其特征在于,将所述根据专利的著作项信息以及专利技术分析结果之间的相似度,构建出专利技术图谱包括将专利著作项中的同一时序信息相同的专利节点构建无向边;将专利著作项中的同一时序信息不同的专利节点构建有向边,并按照两个专利节点的时序信息的大小连接有向边;按照专利节点的专利技术分析结果之间的相似度构建出边权值,也即是将相似度超过预设阈值的作为对应有向边或无向边的边权值,将相似度未超过预设阈值的有向边或无向边删除;将专利节点按照有向边、无向边和边权值构建出技术图谱。

7.根据权利要求1所述的一种专利技术路线的生成方法,其特征在于,所述在专利技术图谱中搜索特定技术关键词,生成专利技术路线分析图包括在专利技术图谱中搜索特定技术关键词,以时间为轴,生成以该技术关键词为主干,以树状图的形式对相关技术进行发散的技术路径分析图。

8.根据权利要求1所述的一种专利技术路线的生成方法,其特征在于,所述采用预先训练后的专利技术路线预测模型对专利技术路线分析图进行处理,生成专利技术路线包括根据专利技术路线分析图生成时序序列数据集,从时序信息最小的任一节点开始,在限定跳数的前提下,通过对无向图的广度优先遍历,获得若干个子图按照所述专利技术路线分析图中时序信息进行排列的序列;

9.一种专利技术路线的生成装置,其特征在于,所述装置包括:

10.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行以实现如权利要求1至8任一所述的专利技术路线的生成方法。

技术总结本发明属于自然语言处理领域,具体涉及一种专利技术路线的生成方法、装置及计算机设备;所述方法包括获取专利文本数据以及专利著作项信息;采用专利技术信息抽取模型生成专利技术分析结果;对核心技术关键词、技术功效关键词和技术领域关键词的聚类列表划分出主要聚类和次要聚类;根据主要聚类和次要聚类的融合向量,计算专利技术分析结果之间的相似度;根据专利的著作项信息以及专利技术分析结果之间的相似度,构建出专利技术图谱;在专利技术图谱中搜索特定技术关键词,生成专利技术路线分析图;采用专利技术路线预测模型生成专利技术路线。本发明将大语言模型和时序知识图谱的相关技术运用到专利路线生成中,达到将专利文本信息序化的效果。技术研发人员:程克非,张彧烜受保护的技术使用者:重庆邮电大学技术研发日:技术公布日:2024/8/5

本文地址:https://www.jishuxx.com/zhuanli/20240808/270651.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。