一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于语义的研发设计资源全景空间构建方法与流程

2022-03-16 00:34:31 来源:中国专利 TAG:

技术特征:
1.一种基于语义的研发设计资源全景空间构建方法,包括下列步骤:第一步,提取在设计全流程中的文本类企业共享资源,构建研发设计资源文本语料集;第二步,对研发设计资源文本语料集进行文本预处理生成研发设计资源文本语料库;第三步:lda处理分别对研发设计资源文本语料库和研发设计子语料库进行lda处理,生成研发设计资源全局主题和研发设计资源局部主题两部分主题内容;其中研发设计资源文本语料库是在研发设计全流程中的全资源文本,研发设计子语料库是基于研发设计子流程中的资源文本,是研发设计语料库的子集;具体方法如下:1)基于研发设计全流程,构建研发设计资源全局主题对研发设计资源文本语料库进行lda处理,包括确定相对应的最优主题数;首先,研发设计资源全局主题的最优主题数通过层次聚类的方法得到,选取覆盖研发设计资源文本语料库内容所在的聚类簇数作为研发设计资源全局主题的最优主题数k;其次,对通过层次聚类方法得到的最优主题数k进行主题一致性评估以判断其合理性,主题一致性得分越高,研发设计资源全局主题的最优主题数k所对应的lda模型效果越好;最后,根据lda算法的α和β参数以及研发设计资源全局主题的最优主题数k,构建具有k个主题数的研发设计资源全局主题g
i∈[1,k]
;2)基于研发设计子流程,构建研发设计资源局部主题根据研发设计全流程中的各个子流程阶段,将研发设计资源文本语料库划分成为分属于各个研发设计子流程的研发设计资源文本子语料库,并对每一个研发设计资源文本子语料库进行lda处理;其中各个研发设计资源文本子语料库最优主题数r
t
(t∈1,2,3,...),r
t
通过困惑度计算得到,研发设计资源子语料库困惑度的计算公式如下:其中,m表示研发设计资源文本子语料库;n
m
表示在单个研发设计子流程下研发设计资源文本子语料库m中总词数;p(w)表示词w在研发设计资源文本m中的概率;p(z|m)表示主题z在研发设计资源文本m中的概率分布;p(w|z)表示词w在主题z中的概率分布;最后利用lda算法以及研发设计资源局部主题的最优主题数(r1,r2,..)构建具有r1,r2,..个主题数的研发设计资源局部主题第四步:主题向量化对生成的研发设计资源全局主题和研发设计资源局部主题进行word2vec向量化构建;第五步:主题关联性计算;通过余弦相似度公式,分别计算每一个研发设计资源全局主题向量和局部主题之间的关联性;其中关联性计算包括:研发设计资源全局主题向量间的关联性计算;研发设计资源局部主题向量间的关联性计算;研发设计资源全局主题向量与研发设计资源局部主题向量的关联计算;
第六步:主题关联关系图谱绘制;设定余弦相似度阈值用以表示主题间关联程度,当阈值大于0.5,则表明两个主题间具有关联关系,反之则表明两个主题间无关联关系;其中在阈值大于0.5的关联中又进一步分为三个关联强度间隔,分别以强、中、弱关联程度表示;1)首先,计算相邻研发设计子流程中的研发设计资源局部主题向量间的关联性,按照研发设计资源局部主题向量间的强中弱关联强度将相邻研发设计子流程中的研发设计资源局部主题l
j∈[1,r]
关联关系构建;生成研发设计资源局部主题间关联关系图谱;2)计算研发设计资源全局主题向量与研发设计资源局部主题向量的关联性,生成研发设计资源全局主题的关联关系图谱;3)根据研发设计资源全局主题的关联关系图谱以及相对应的主题词构建研发设计资源全景空间,为研发设计人员提供支持。2.根据权利要求1所述的研发设计资源全景空间构建方法,其特征在于,第二步的预处理包括数字和特殊字符的清理,停用词和特殊词去除,使用zip’s定律去除研发设计资源文本语料库中过于常见或罕见的词汇。3.根据权利要求1所述的研发设计资源全景空间构建方法,其特征在于,第四步的主题向量化方法具体步骤如下:1)分别将研发设计资源全局主题g
i∈[1,k]
和研发设计资源局部主题中的各个主题词作为输入,将研发设计资源文本语料库中的文本作为输出。经过训练,得到word2vec模型。其中研发设计资源全局主题g
i∈[1,k]
和研发设计资源局部主题中的每个主题词都在word2vec模型中以100-300维度的向量形式表达。2)通过lda处理得到的研发设计资源全局主题g
i∈[1,k]
和研发设计资源局部主题中的各个主题均以“主题词*权重 主题词*权重
…”
的形式呈现,将研发设计全局主题g
i∈[1,k]
和研发设计资源局部主题中的各主题词向量及其权重加权求和,最终得到100-300维度向量空间的研发设计资源全局主题向量和研发设计资源局部主题向量

技术总结
本发明涉及一种基于语义的研发设计资源全景空间构建方法,包括下列步骤:提取在设计全流程中的文本类企业共享资源,构建研发设计资源文本语料集;对研发设计资源文本语料集进行文本预处理生成研发设计资源文本语料库;LDA处理:分别对研发设计资源文本语料库和研发设计子语料库进行LDA处理,生成研发设计资源全局主题和研发设计资源局部主题两部分主题内容;其中研发设计资源文本语料库是在研发设计全流程中的全资源文本,研发设计子语料库是基于研发设计子流程中的资源文本,是研发设计语料库的子集;主题向量化;主题关联性计算;主题关联关系图谱绘制。主题关联关系图谱绘制。主题关联关系图谱绘制。


技术研发人员:马剑 王磊 王庆鹏
受保护的技术使用者:天津大学
技术研发日:2021.10.16
技术公布日:2022/3/14
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献