技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于大数据技术的科技成果转化平台的制作方法  >  正文

一种基于大数据技术的科技成果转化平台的制作方法

  • 国知局
  • 2024-10-09 16:37:29

本发明涉及大数据,具体地说,涉及一种基于大数据技术的科技成果转化平台。

背景技术:

1、一种基于大数据技术的科技成果转化平台旨在提高科技成果转化效率和精准匹配技术需求与科技成果,通过在计算标签匹配度和余弦特征相似度时引入技术需求和科技成果的时间相关性因子,以及使用局部优化匹配匈牙利算法找到匹配度矩阵中的最佳匹配对,实现了对最新技术需求数据和科技成果数据的高效、精准分析分类,优化科技成果的转化过程,提升匹配的实用性和准确性。现有的科技成果转化平台通常难以有效处理大规模和多样化的数据,且由于技术需求和市场需求变化快以及信息共享和交流不足,会导致科技成果和需求方的匹配并转化效率低的问题,因此,设计一种基于大数据技术的科技成果转化平台。

技术实现思路

1、本发明的目的在于提供一种基于大数据技术的科技成果转化平台,以解决上述背景技术中提出的由于技术需求和市场需求变化快以及信息共享和交流不足,会导致科技成果和需求方的匹配并转化效率低的问题。

2、为实现上述目的,本发明目的在于提供了一种基于大数据技术的科技成果转化平台,包括:

3、信息采集单元,所述信息采集单元基于数据收集策略,收集来自企业和科研机构历史和最新技术需求数据和科技成果数据,将历史和最新技术需求数据和科技成果数据提供给数据处理中心进一步处理;

4、还包括数据处理中心,所述数据处理中心使用apache spark结合pandas对历史和最新技术需求数据和科技成果数据进行清洗与转换,并使用scikit-learn和随机森林分类器,训练技术需求分类模型和科技成果分类模型;

5、还包括分类与匹配单元,所述分类与匹配单元利用技术需求分类模型和科技成果分类模型,对数据处理中心提供最新技术需求数据和科技成果数据进行分类,并使用分类匹配函数,引入技术需求和科技成果的时间相关性因子,并结合局部优化匹配匈牙利算法进行技术需求与科技成果分类结果的匹配;

6、还包括管理转化单元,所述管理转化单元用于管理科技成果的匹配转化过程。

7、作为本技术方案的进一步改进,所述数据收集策略用于辅助信息采集单元收集历史和最新技术需求数据和科技成果数据,数据收集策略具体包括:收集数据类型;数据源选择;数据抓取频率;数据格式规范;隐私与合规;异常处理机制。

8、作为本技术方案的进一步改进,所述信息采集单元基于数据收集策略,收集历史和最新技术需求数据和科技成果数据,具体步骤如下:

9、s1.1、配置网络爬虫和api接口,设置爬取规则,自动抓取数据源的历史和最新技术需求数据和科技成果数据,并存储在临时数据库中;

10、s1.2、将历史和最新技术需求数据和科技成果数据转换为统一的json格式,去除重复的数据,并根据历史和最新技术需求数据和科技成果数据之间的关联属性进行数据合并,得到历史和最新技术需求数据和科技成果数据;

11、s1.3、将历史和最新技术需求数据和科技成果数据传递至数据处理中心。

12、作为本技术方案的进一步改进,所述数据处理中心包括清洗转换模块和数据训练模块;

13、其中,所述清洗转换模块使用apache spark和pandas处理历史和最新技术需求数据和科技成果数据的缺失值与异常值,并将历史和最新技术需求数据和科技成果数据转化为json格式;

14、所述数据训练模块使用scikit-learn和随机森林分类器,并基于历史技术需求数据和科技成果数据,训练技术需求分类模型和科技成果分类模型。

15、作为本技术方案的进一步改进,所述清洗转换模块使用apache spark和pandas处理历史和最新技术需求数据和科技成果数据的缺失值与异常值,并将历史和最新技术需求数据和科技成果数据转化为json格式:

16、s2.1.1、从json文件中读取历史和最新技术需求数据和科技成果数据,并将其加载到spark dataframe中;

17、s2.1.2、去除包含缺失值的行,以及过滤异常值的行;

18、s2.1.3、将spark dataframe转换为pandas dataframe;

19、s2.1.4、去除包含缺失值的行,以及过滤异常值的行;

20、s2.1.5、将pandas dataframe转换为json格式。

21、作为本技术方案的进一步改进,所述数据训练模块使用scikit-learn和随机森林分类器,并基于历史技术需求数据和历史科技成果数据,训练技术需求分类模型和科技成果分类模型,具体方法如下:

22、s2.2.1、将历史技术需求数据分为特征矩阵和标签向量,并将百分之七十的历史技术需求数据划分为训练集,将百分之三十的历史技术需求数据划分为测试集;

23、s2.2.2、将历史科技成果数据分为特征矩阵和标签向量,并将百分之七十的历史科技成果数据划分为训练集,将百分之三十的历史科技成果数据划分为测试集;

24、s2.2.3、使用随机森林分类器对历史技术需求数据的训练集进行训练,建立技术需求分类模型:

25、;

26、其中,表示随机森林分类器;表示历史技术需求数据预测的标签;

27、s2.2.4、使用随机森林分类器对历史科技成果数据的训练集进行训练,建立科技成果分类模型:

28、;

29、其中,表示随机森林分类器;表示历史科技成果数据预测的标签;

30、s2.2.5、使用历史技术需求数据的测试集对技术需求分类模型进行模型测试和使用历史科技成果数据的测试集对科技成果分类模型进行模型测试。

31、作为本技术方案的进一步改进,所述分类与匹配单元,包括数据分类模块和需求匹配模块;

32、其中,所述数据分类模块使用技术需求分类模型和科技成果分类模型对最新技术需求数据和最新科技成果数据进行分类;

33、所述需求匹配模块使用分类匹配函数,引入技术需求和科技成果的时间相关性因子,并结合局部优化匹配匈牙利算法进行技术需求与科技成果分类结果的匹配,具体方法如下:

34、s3.1、获取最新技术需求分类模型分类结果和特征矩阵以及获取最新科技成果分类模型分类结果和特征矩阵;

35、s3.2、定义时间相关性因子为技术需求和科技成果的时间差异的函数,并根据时间相关性因子计算标签匹配度和余弦特征相似度,构建引入时间相关性因素的匹配度矩阵;

36、s3.3、使用局部优化匹配匈牙利算法找到匹配度矩阵中的匹配对,并输出匹配对。

37、所述s3.2中,计算标签匹配度和余弦特征相似度,构建匹配度矩阵,具体方法如下:

38、时间相关性因子:

39、;

40、其中,为技术需求的时间戳;为科技成果的时间戳;是时间尺度因子;

41、标签匹配度:

42、;

43、其中,为最新技术需求数据第条记录的预测标签;为最新科技成果数据第条记录的预测标签;

44、余弦特征相似度:

45、;

46、其中,为最新技术需求数据第条记录的特征向量;为最新科技成果数据第条记录的特征向量;为最新技术需求特征向量的欧氏范数;为最新科技成果特征向量的欧氏范数;

47、匹配度矩阵:

48、;

49、所述s3.2中,使用局部优化匹配匈牙利算法找到匹配度矩阵中的匹配对,并输出匹配对,具体方法如下:

50、s3.2.1、对初步匹配对进行局部搜索,寻找和使得最大化,对每个匹配对,计算相邻元素的匹配度:

51、;

52、s3.2.2、若局部搜索得到更优匹配对,则更新匹配对;

53、s3.2.3、计算全局匹配:

54、;

55、其中,是优化后的匹配决策变量,值为1时表示与匹配,为0时表示与不匹配;

56、s3.2.4、将匹配的技术需求和科技成果数据对输出,形成最终的匹配对列表。

57、作为本技术方案的进一步改进,所述管理转化单元包括合同管理模块、进度跟踪模块和绩效评估模块;

58、其中,所述合同管理模块用于记录和跟踪科技成果转化合同;进度跟踪模块用于跟踪技术需求和科技成果匹配后的转化进度;绩效评估模块用于评估科技成果转化的绩效。

59、与现有技术相比,本发明的有益效果:

60、1、该基于大数据技术的科技成果转化平台中,通过构建技术需求分类模型和科技成果分类模型,并在计算标签匹配度和余弦特征相似度时引入时间相关性因子,对最新技术需求数据和科技成果数据进行分类,可以显著提高分类的准确性和效率,确保技术需求和科技成果在技术和时间维度上的精确分类。

61、2、该基于大数据技术的科技成果转化平台中,使用局部优化匹配匈牙利算法对分类匹配函数match进行改进,找到匹配度矩阵中的最佳匹配对,可以实现高效且精准地匹配技术需求与科技成果,确保科技成果能够快速满足具体技术需求,从而大幅提高转化成功率。

本文地址:https://www.jishuxx.com/zhuanli/20240929/313588.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。