基于自适应相似性度量的技术发展阶段判断方法与系统与流程

2022-06-29 17:50:31 来源：中国专利 TAG：

1.本技术涉及信息处理技术领域，尤其涉及一种基于自适应相似性度量的技术发展阶段判断方法与系统。

背景技术：

2.随着科学技术的发展，科技战略研究越来越受到人们的重视，对不同领域的科学技术进行评估具有重要的实际意义。目前，科学技术评估方法已经由传统的定性分析方法向定量分析、定性与定量结合的分析方法转变，在以往的研究中，通常是利用德尔菲法、层次分析法和情景分析法等传统方法分析特定领域技术发展状况，该类方法对专家知识的依赖性较强，需要根据经验进行判断，虽然分析结果的领域权威性和专业性能够得到保障，但任务实现的客观性、一致性和全面性较差。而在当前发展时期下，新兴技术层出不穷，科技情报需求也更加动态多样，随着数据资源的迅猛发展和人工智能技术的进步，定量方法逐渐应用于技术分析中，将科技数据(比如，论文等)与统计学习方法相结合的技术分析方法为科技评估创造了更多的可能性。
3.其中，技术成熟度曲线(the hype cycle)是由高德纳(gartner)咨询公司创建的一种用来评估新科技的可见度，确定是否采用新科技的工具，高德纳曲线(gartner hype cycle)是定性与定量相结合实现技术成熟度评估的重要方法，基于hype cycle发布的新兴技术成熟度方法层出不穷，成为技术评估领域重要的基础原理与工具。根据把握领域技术发展态势、客观评估技术成熟度和合理选择技术介入时机等实际需求，结合hype cycle可以研究与制定相关实施方案对技术的成熟程度及发展阶段进行评定。
4.然而，hype cycle的生成需要依靠大量的专家和领域知识，在实际应用中面向不同应用场景时，很难应用该方法把握技术发展的进程，实现对技术成熟度、技术发展阶段乃至整个领域的个性化和定量化评估，并且，由于不同领域技术发展周期时间尺度不同，相关技术中的基于hype cycle的技术发展阶段评估方法，评估的科学性、客观性和准确性均较低。

技术实现要素：

5.本技术旨在至少在一定程度上解决相关技术中的技术问题之一。
6.为此，本技术的第一个目的在于提出一种基于自适应相似性度量的技术发展阶段判断方法，该方法基于高德纳技术成熟度曲线、自适应的时序数据特征提取算法和相似性度量对技术发展阶段进行多尺度的判断，通过人工调整阈值，控制算法细节特征提取粒度，实现科技成果时序数据自适应处理，并将处理后的时序数据与高德纳曲线进行比对实现技术发展阶段判定，提高了对技术发展阶段进行判定的准确性、适用性和科学性。
7.本技术的第二个目的在于提出一种基于自适应相似性度量的技术发展阶段判断系统。
8.本技术的第三个目的在于提出一种非临时性计算机可读存储介质。
9.为达上述目的，本技术的第一方面实施例提出了一种基于自适应相似性度量的技术发展阶段判断方法，包括以下步骤：
10.对高德纳曲线进行分割，定义多个技术发展阶段，其中，每个所述技术发展阶段包括所述高德纳曲线中相邻的两个时期；
11.在预设的数据集中搜索技术关键词，根据搜索结果生成表示所述技术关键词对应的科技数据的数量随时间变化的时序数据，并对所述时序数据进行预处理；
12.基于预设的细节分辨率对所述预处理后的时序数据进行子序列划分，连接各个所述子序列生成主序列，以实现所述预处理后的时序数据的特征提取，并将所述主序列转换为三元组的形式存储；
13.通过动态时间扭曲dtw将转换后的主序列与代表各个所述技术发展阶段的曲线进行相似性度量，并对所述转换后的主序列与每个所述技术发展阶段的相似性程度进行排序；
14.将相似性程度最高的技术发展阶段判定为所述时序数据表示的技术所处的目标技术发展阶段。
15.可选地，在本技术的一个实施例中，基于预设的细节分辨率对所述预处理后的时序数据进行子序列划分，包括：
16.s1:设置所述标准化处理后的时序数据为目标序列；
17.s2:将所述目标序列的首尾两个端点标记为第一关键点，连接所述首尾两个端点生成基准线；
18.s3:计算所述目标序列中除所述首尾两个端点之外的每个数据点至所述基准线的垂直距离，并在全部垂直距离中筛选出最大距离，确定所述最大距离对应的数据点；
19.s4:基于所述细节分辨率确定对应的分辨率距离，将所述最大距离与所述分辨率距离进行比较，若所述最大距离大于所述分辨率距离，则将所述最大距离对应的数据点标记为第二关键点，并根据所述第二关键点将所述目标序列分割为第一子序列和第二子序列；
20.s5:分别将所述目标序列更新为每个重新划分出的子序列，针对每个更新后的目标序列重复执行步骤s2至步骤s4，直至不再产生新的子序列。
21.可选地，在本技术的一个实施例中，基于所述细节分辨率确定对应的分辨率距离，包括：
22.在所述全部垂直距离中筛选出最大距离和最小距离；
23.通过以下公式计算所述分辨率距离：
[0024][0025]
其中，reso是预设的细节分辨率，distance
max
是最大距离，distance
min
是最小距离，distance
reso
是分辨率距离。
[0026]
可选地，在本技术的一个实施例中，将所述主序列转换为三元组的形式存储，包括：计算每个所述子序列包含的数据点的均值；计算每个所述子序列首尾两个端点的连线的斜率；确定每个所述子序列的首端点在所述目标序列中的索引，根据每个所述子序列的索引、均值和斜率将对应的子序列表示为三元组。
[0027]
可选地，在本技术的一个实施例中，通过动态时间扭曲dtw将所述主序列与每个所述技术发展阶段进行相似性度量，包括：将每个所述技术发展阶段对应的序列段转换为三元组形式；根据所述转换后的主序列和任一转换后的技术发展阶段对应的序列段构建距离矩阵，并通过动态时间扭曲dtw确定所述距离矩阵的最优路径；根据所述最优路径将所述转换后的主序列和所述任一转换后的技术发展阶段对应的序列段中的三元组进行对齐，并计算对齐后的每两个相对应的三元组之间的距离；计算全部距离的和，以所述和为所述主序列与所述任一转换后的技术发展阶段的相似性。
[0028]
可选地，在本技术的一个实施例中，通过以下公式计算对齐后的每两个相对应的三元组之间的距离：
[0029][0030]
其中，m1和m2分别表示每两个相对应的三元组的均值，q1和q2分别表示每两个相对应的三元组的斜率。
[0031]
可选地，在本技术的一个实施例中，对所述时序数据进行预处理，包括：对所述时序数据进行z-score标准化处理。
[0032]
为达上述目的，本技术的第二方面实施例提出了一种基于自适应相似性度量的技术发展阶段判断系统，包括以下模块：
[0033]
定义模块，用于对高德纳曲线进行分割，定义多个技术发展阶段，其中，每个所述技术发展阶段包括所述高德纳曲线中相邻的两个时期；
[0034]
生成模块，用于在预设的数据集中搜索技术关键词，根据搜索结果生成表示所述技术关键词对应的科技数据的数量随时间变化的时序数据，并对所述时序数据进行预处理；
[0035]
特征提取模块，用于基于预设的细节分辨率对所述预处理后的时序数据进行子序列划分，连接各个所述子序列生成主序列，以实现所述预处理后的时序数据的特征提取，并将所述主序列转换为三元组的形式存储；
[0036]
相似性度量模块，用于通过动态时间扭曲dtw将转换后的主序列与代表各个所述技术发展阶段的曲线进行相似性度量，并对所述转换后的主序列与每个所述技术发展阶段的相似性程度进行排序；
[0037]
判断模块，用于将相似性程度最高的技术发展阶段判定为所述时序数据表示的技术所处的目标技术发展阶段。
[0038]
可选地，在本技术的一个实施例中，特征提取模块，还包括：
[0039]
设置单元，用于设置所述标准化处理后的时序数据为目标序列；
[0040]
标记单元，用于将所述目标序列的首尾两个端点标记为第一关键点，连接所述首尾两个端点生成基准线；
[0041]
计算单元，用于计算所述目标序列中除所述首尾两个端点之外的每个数据点至所述基准线的垂直距离，并在全部垂直距离中筛选出最大距离，确定所述最大距离对应的数据点；
[0042]
分割单元，用于基于所述细节分辨率确定对应的分辨率距离，将所述最大距离与所述分辨率距离进行比较，若所述最大距离大于所述分辨率距离，则将所述最大距离对应
的数据点标记为第二关键点，并根据所述第二关键点将所述目标序列分割为第一子序列和第二子序列；
[0043]
更新单元，用于分别将所述目标序列更新为每个重新划分出的子序列，针对每个更新后的目标序列控制所述标记单元、所述计算单元和所述分割单元重复执行自身的功能，直至不再产生新的子序列。
[0044]
本技术的实施例提供的技术方案至少带来以下有益效果：本技术先基于高德纳曲线划分与定义技术发展阶段，再通过预设的数据库进行基于技术关键字的论文检索，生成科技论文数量变化时序曲线，在完成必要的数据预处理操作后，针对目标样本序列进行特征提取与表示，并通过设定可调整阈值，控制序列特征提取的分辨率，最后通过与高德纳曲线进行相似性度量实现技术发展阶段判定。由此，本技术基于高德纳技术成熟度曲线、自适应的时序数据特征提取算法和相似性度量对技术发展阶段进行多尺度的判断，在应对不同领域特定技术评估需求时，通过人工调整阈值控制算法细节特征提取粒度，实现了科技成果时序数据自适应处理，能够适用于各领域技术的评估。从而，实现了基于科技数据的定量分析与领域知识相结合的技术评估，推动了科技大数据、人工智能的定量分析方法与科技发展规律相结合，获得的评估结果可以为科技情报分析提供参考，并且有利于实现相应的系统增加算法的可操作和可视化程度，提高了对技术发展阶段进行判定的准确性、适用性和科学性。
[0045]
为了实现上述实施例，本技术第三方面实施例还提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中的基于自适应相似性度量的技术发展阶段判断方法。
[0046]
本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。
附图说明
[0047]
本技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中
[0048]
图1为本技术实施例提出的一种基于自适应相似性度量的技术发展阶段判断方法的流程图；
[0049]
图2为本技术实施例提出的一种具体的高德纳曲线的示意图；
[0050]
图3为本技术实施例提出的一种技术发展阶段对应的曲线的示意图；
[0051]
图4为本技术实施例提出的另一种技术发展阶段对应的曲线的示意图；
[0052]
图5为本技术实施例提出的又一种技术发展阶段对应的曲线的示意图；
[0053]
图6为本技术实施例提出的再一种技术发展阶段对应的曲线的示意图；
[0054]
图7为本技术实施例提出的一种具体的技术关键词的搜索结果的数量随时间变化的曲线示意图；
[0055]
图8为本技术实施例提出的一种具体的对时序数据进行特征提取的方法的流程图；
[0056]
图9为本技术实施例提出的一种具体的通过动态时间扭曲dtw对主序列与技术发展阶段进行相似性度量的方法的流程图；
[0057]
图10为本技术实施例提出的一种具体的基于自适应相似性度量的技术发展阶段判断方法的流程图；
[0058]
图11为本技术实施例提出的一种基于自适应相似性度量的技术发展阶段判断系统的结构示意图。
具体实施方式
[0059]
下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。
[0060]
需要说明的是，针对相关技术中，结合hype cycle按照领域技术评估需求鉴定技术发展阶段面对的技术问题，申请人发现，可以引入机器学习方法对科技数据进行分析，以提高技术评估方法的适用性。
[0061]
其中，相似性度量是机器学习领域用于解决时序问题的典型方法，可以分为锁步度量和弹性相似度量，弹性相似度量方法，比如，动态时间扭曲(dynamic time warping，简称dtw)，可以通过收缩或者拉伸时间轴来找到序列之间的最佳比对。然而，在技术评估的实际任务中，以科技论文等科技数据为依托，单纯地基于相似性度量对科技成果随时间变化的趋势进行判断存在可扩展性差和多任务场景下难以协调等缺点，需要加入可调整的控制参数对时间序列数据进行特征提取粒度控制，实现多尺度的、适用于不同领域技术评估的方法。
[0062]
基于此，申请人提出一种基于自适应相似性度量的技术发展阶段判断方法与系统，本技术基于高德纳曲线和相似性度量基本思想，研发多尺度的时序处理方法并实现相应的系统，针对不同领域技术评估的需求，使其适用于各领域技术的评估，能够实现基于科技数据的定量分析与领域知识相结合的技术分析目标，有利于实现技术发展阶段研判和技术发展风险把控。
[0063]
下面参考附图描述本发明实施例所提出的一种基于自适应相似性度量的技术发展阶段判断方法与系统。
[0064]
图1为本技术实施例提出的一种基于自适应相似性度量的技术发展阶段判断方法的流程图，如图1示，该方法包括以下步骤：
[0065]
步骤s101，对高德纳曲线进行分割，定义多个技术发展阶段，其中，每个技术发展阶段包括高德纳曲线中相邻的两个时期。
[0066]
其中，高德纳曲线(gartner hype cycle)即高德纳(gartner)咨询公司创建的技术成熟度曲线(hype cycle)，通过技术成熟度曲线可以实现定性与定量相结合进行技术成熟度评估，hype cycle可以用于探索技术创新演化的基本规律，是整体把握技术创新发展态势和客观评估技术创新成熟程度的有效工具。
[0067]
其中，如图2所示，技术成熟度曲线根据时间变化将技术发展的成熟度划分为5个时期：技术萌芽期、期望膨胀期、泡沫化低谷期、稳步提升光明期和实质生产高峰期，图2中横坐标为时间，图中的虚线将gartner hype cycle划分为不同的时期。
[0068]
具体的，对高德纳曲线进行分割，根据分割结果定义出多个技术发展阶段，其中，每个技术发展阶段包括高德纳曲线中相邻的两个时期。具体而言，在本技术实施例中，以高
德纳曲线为研究基础，按照hype cycle曲线所包含的技术发展阶段将曲线进行分割，分割后的每段曲线包含hype cycle中的两个发展阶段，以体现技术发展的变化过程，即在本实施例中，将上述5个时期中每相邻的两个时期分割在一个曲线段中，根据各段曲线段定义技术发展阶段。
[0069]
作为一种示例，分割后的曲线如图3至图6所示，其中，图3表示“技术萌芽转膨胀阶段”(简称“萌芽-膨胀”)，图4表示“技术膨胀转泡沫化低谷期”(简称“膨胀-泡沫”)，图5表示“泡沫化低谷期转光明期”(简称“泡沫-光明”)，图6表示“光明期转实质生产高峰期”(简称“光明-高峰”)，图中横坐标为时间，纵坐标表示原先的高德纳曲线的值。从而，通过技术发展阶段的划分便于后续依据实际数据进行研判和验证。
[0070]
在本技术实施例中，按照该方式进行划分后，每一个子段的曲线形状能够包含技术所在阶段及可能的转变状态，相比单一时期的划分方式，本技术的划分规则可以包含更加丰富的曲线信息，同时避免关键信息的忽略。通过图3至图6所示的划分结果可以看出，不同时期的曲线具有明显的形状特征，具备特殊性可以互相区分，因此能够作为判断依据。便于后续通过时间序列相似性度量研究，判断目标曲线与各子段的相似程度，由此得到技术所处时期的信息。
[0071]
步骤s102，在预设的数据集中搜索技术关键词，根据搜索结果生成表示技术关键词对应的科技数据的数量随时间变化的时序数据，并对时序数据进行预处理。
[0072]
其中，预设的数据集是作为技术发展阶段研判的实验数据集，技术关键词是表示当前待判断的技术的关键词。数据集和技术关键词可以根据进行技术发展阶段判断的实际情况和需要设置。
[0073]
举例而言，本技术可以设置webofscience(wos)数据库作为技术发展阶段研判的实验数据集。webofscience是一种综合的信息服务平台，支持自然科学、社会科学、艺术与人文学科的文献检索，其数据来源于期刊、图书、专利、会议记录和网络资源等各种资源，能够为技术发展阶段定性研究提供科学、充分的基础，因此，本技术将此作为技术评估在线验证与实施阶段的数据集。当需要对机器学习这一技术当前所处的技术发展阶段进行判断时，可以在wos中搜索关键词“机器学习”或“machinelearning”。
[0074]
在本技术实施例中，根据具体技术关键词在预设的数据集中的搜索结果生成其数量数据按照时间发展的变化数据，以生成相应的时序数据集作为技术判定的依据。继续以上述搜索“机器学习”为例，获取在wos的搜索结果，即技术关键词对应的科技数据，并根据搜索结果对应的时间生成图7所示的，历年的相关论文、专利和著作等科技数据的数量的时序数据，图7中横坐标为时间，纵坐标为搜索结果的数量。
[0075]
进一步的，对时序数据进行预处理。
[0076]
在本技术一个实施例中，由于不同领域的研究状况不同，根据各个领域的实际情况和情报分析人员的实际需求进行技术评估时，为了抵消由数量级差异造成的结果差异，可以对生成的时序数据进行标准化处理。
[0077]
作为一种可能的实现方式，对生成的时序数据进行z-score标准化处理，将不同量级的数据转化为统一量度的z-score分值进行比较。对于生成的目标序列s＝(s1,s2,s3…
sn)，计算得到标准化后的序列s
′
＝(s
′1,s
′2,
…
,s
′n)，计算方式如以下公式所示：
[0078][0079]
其中，μ为原始序列s中各数据的均值，σ为原始序列s中各数据的标准差。
[0080]
需要说明的是，本技术还可以根据实际情况选择其他的标注化处理方法，比如，最大最小标准化方法或小数定标法等。本技术在进行标准化处理前，还可以对生成的时序数据进行去除误差数据，以及结合其他数据集包含的数据对时序数据进行补齐和补充等其他预处理步骤，以进一步提高获取的时序数据的精确性和全面性，有利于提高有后续技术发展阶段判断的准确性。
[0081]
步骤s103，基于预设的细节分辨率对预处理后的时序数据进行子序列划分，连接各个子序列生成主序列，以实现预处理后的时序数据的特征提取，并将主序列转换为三元组的形式存储。
[0082]
具体的，对预处理后的时序数据进行特征提取，由于不同领域技术发展的特征不同，获取的不同领域对应的时序数据也具有不同的特征，为了满足情报分析人员在不同场景下的研究需求，本技术设置时序数据特征提取的分辨率的控制参数，即预设的细节分辨率，实现通过参数的调整对曲线的特征进行提取，可以根据需要忽略时序数据的细节波动特征，只对其主要趋势进行记录，从而适用于总体趋势的分析。
[0083]
具体实施时，在本技术一个实施例中，对于标准化后的序列s
′
，本技术通过预设的细节分辨率参数，即参数reso控制特征提取的分辨率，当设置较大的reso值时，可以粗略地提取序列的趋势，当设置相对较小的reso值时，可以更详细地把握序列的局部特征。为了更加清楚的说明本技术根据细节分辨率参数进行特征提取的具体实现过程，以面以本实施例中提出的一种具体的对时序数据进行特征提取的方法进行示例性说明，如图8所示，该方法包括以下步骤：
[0084]
s1:设置标准化处理后的时序数据为目标序列。
[0085]
具体的，获取预设的细节分辨率即给定的reso值，假设标准化后的序列s
′
＝(s
′1,s
′2,
…
,s
′n)，以s
′
为当前进行子序列划分的目标序列。
[0086]
s2:将目标序列的首尾两个端点标记为第一关键点，连接首尾两个端点生成基准线。
[0087]
具体的，将序列s
′
的首尾端点s
′1、s
′n标记为关键点，将二者相连得到基准线l
1n
。
[0088]
s3:计算目标序列中除首尾两个端点之外的每个数据点至基准线的垂直距离，并在全部垂直距离中筛选出最大距离，确定最大距离对应的数据点。
[0089]
具体的，逐一计算s
′
中其余点s
′2,
…
,s
′
n-1
到l
1n
的垂直距离distance(s
′i,l
1n
)，其中，i＝2,3,
…
,n-1，在计算出的所有垂直距离中找出使距离最大的点s
′d并记录，记该点所对应的距离为distance
max
＝(s
′d,l
1n
)。
[0090]
s4:基于细节分辨率确定对应的分辨率距离，将最大距离与分辨率距离进行比较，若最大距离大于分辨率距离，则将最大距离对应的数据点标记为第二关键点，并根据第二关键点将目标序列分割为第一子序列和第二子序列。
[0091]
具体的，对distance
max
进行判断，先基于细节分辨率确定对应的分辨率距离distance
reso
，再将最大距离与分辨率距离进行比较，若distance
max
》distance
reso
，则将s
′d标记为关键点，依据该点分割s
′
为l1(s
′1,s
′2,
…
,s
′d)和l2(s
′
d 1
,s
′
d 2
,
…
,s
′n)，即根据第
二关键点将目标序列分割为第一子序列和第二子序列，若distance
max
≤distance
reso
，则仅保留s
′1和s
′n为重要点，忽略其余点。
[0092]
其中，distance
reso
是预先设定的控制参数，可以基于细节分辨率确定对应的分辨率距离distance
reso
。具体实施时，可以先在全部垂直距离中通过比较筛选出最大距离distance
max
和最小距离distance
min
，根据最大距离、最小距离及预设的reso值计算distance
reso
，本技术实施例中将该参数reso表示为当前序列中除端点外的全部点到基准线的距离(distance
reso
)与其中的最大距离distance
max
和最小距离distance
min
的函数，具体可通过以下公式计算分辨率距离：
[0093][0094]
其中，reso是预设的细节分辨率，distance
max
是最大距离，distance
min
是最小距离，distance
reso
是分辨率距离，在reso、distance
max
和distance
min
数值已知的情况下，代入上述公式可计算出distance
reso
。
[0095]
由上述公知可知，当reso设定为1时，表示仅保留目标序列的两个端点为关键点，忽略其余点；当reso设定为0时，表示将当前序列中所有的点均视为关键点。由此，通过调整reso值，可以实现对目标序列进行提取的细节分辨率的调整。
[0096]
s5:分别将目标序列更新为每个重新划分出的子序列，针对每个更新后的目标序列重复执行步骤s2至步骤s4，直至不再产生新的子序列。
[0097]
具体的，以l1(s
′1,s
′2,
…
,s
′d)和l2(s
′
d 1
,s
′
d 2
,
…
,s
′n)为进行下一轮子序列划分的目标序列，分别对l1和l2重复执行上述步骤s2至步骤s4的操作，以分别对l1和l2进行子序列的划分，并通过迭代，对每轮产生的子序列通过步骤s2至步骤s4的方式进行划分，直至不再产生新的子序列，即上一轮产生的子序列中不再存在关键点，则结束迭代。
[0098]
进一步的，在完成迭代后，连接各个子序列生成主序列，即将全部子序列首尾相连得到对预处理后的时序数据进行特征提取后生成的主序列l。
[0099]
由此，通过本技术实施例的对时序数据进行特征提取的方法，可以在时序数据的序列过长、局部波动过多的情况下，根据设定的细节分辨率参数进行特征提取，有效避免了噪音或者不重要的细节特征影响最终的相似性度量的效果和效率，提高了本技术的技术发展阶段判断方法在实际应用中的适用性。
[0100]
更进一步的，将主序列转换为三元组的形式存储，本技术将每个子序列表示为三元组的形式，从而将连接而成的主序列转换为三元组的形式进行存储，作为后续进行相似性度量的依据。
[0101]
作为一种可能的实现方式，将主序列转换为三元组的形式包括以下步骤，先计算每个子序列包含的数据点的均值，再计算每个子序列首尾两个端点的连线的斜率，并确定每个子序列的首端点在目标序列中的索引，进而根据每个子序列的索引、均值和斜率将对应的子序列表示为三元组。
[0102]
举例而言，通过计算主序列l中每个子序列的均值与斜率对主序列进行表示，包含k条子序列的主序列l可写作：l＝(《p1,m1,q1》,《p2,m2,q2》,
…
,《pk,mk,qk》)，其中，p表示当前子序列起始点在原始序列中的索引，m代表该子序列包含数据点的均值，q代表该子序列的起始点和终点连线的斜率，按照时序数据的实际情况可计算得到。
[0103]
步骤s104，通过动态时间扭曲dtw将转换后的主序列与代表各个技术发展阶段的曲线进行相似性度量，并对转换后的主序列与每个技术发展阶段的相似性程度进行排序。
[0104]
具体的，以步骤s101中对hype cycle划分后的技术发展阶段为依据，分别度量特征提取后的样本序列与不同技术发展阶段之间的相似性。需要说明的是，由于经过特征提取后的主序列的序列长度与代表各个技术发展阶段的曲线的序列长度可能不同，在进行相似性度量时，采用动态时间扭曲(dynamic time warping，简称dtw)作为度量方法，分别度量主序列与代表各个发展阶段的曲线的相似程度。
[0105]
其中，dtw可以计算不同长度、不同节奏的两个序列的相似度，dtw可以自动扭曲序列(比如，在时间序列进行延伸和缩短)，使得两个序列的形态尽可能的一致，便于计算两个序列之间的相似性。
[0106]
为了更加清楚的说明本技术通过dtw将主序列与每个技术发展阶段进行相似性度量的具体实现过程，以面以本技术实施例中提出的一种具体的通过动态时间扭曲dtw对主序列与技术发展阶段进行相似性度量的方法进行示例性说明，如图9所示，该方法包括以下步骤：
[0107]
s901:将每个技术发展阶段对应的序列段转换为三元组形式。
[0108]
具体的，由于hype cycle的形态特征明显，不存在局部细节过多的情况，不需要再对其进行特征提取，因此，可以直接将每个技术发展阶段对应的序列段转存为三元组进行相似性比对。
[0109]
举例而言，以生成的技术关键词的时序数据作为时间序列s1，以当前任意一个进行比对的技术发展阶段作为时间序列s2，s1经特征提取和三元组转换后的结果为经特征提取和三元组转换后的结果为s2经过三元组转换表示后的结果为经过三元组转换表示后的结果为
[0110]
s902:根据转换后的主序列和任一转换后的技术发展阶段对应的序列段构建距离矩阵，并通过动态时间扭曲dtw确定距离矩阵的最优路径。
[0111]
具体的，根据l1和l2中的三元组个数确定距离矩阵的尺寸，即构建出m
×
n的距离矩阵，再采用dtw寻找通过该矩阵网格的最优路径，并记录该路径。其中，最优路径可以是调整效率和对齐程度最高的路径。
[0112]
s903:根据最优路径将转换后的主序列和该任一转换后的技术发展阶段对应的序列段中的三元组进行对齐，并计算对齐后的每两个相对应的三元组之间的距离。
[0113]
具体的，按照s902中获取的最优路径将l1和l2中的三元组对齐，并计算对齐后的l1和l2中每两个相对应的三元组之间的距离。作为一种可能的实现方式，可以通过以下公式计算对齐后的每两个相对应的三元组之间的距离：
[0114][0115]
其中，m1和m2分别表示每两个相对应的三元组的均值，q1和q2分别表示每两个相对应的三元组的斜率。
[0116]
举例而言，假设当前进行距离计算两个三元组分别为和
则距离计算公式为：
[0117][0118]
s904:计算全部距离的和，以该和值作为主序列与该任一转换后的技术发展阶段的相似性。
[0119]
具体的，通过s903中的计算公式依次计算出每两个相对应的三元组之间的距离后，对所有距离求和，所得结果代表s1和s2的相似性。
[0120]
进一步，选取下一个技术发展阶段作为时间序列s2，通过该相似性度量的方法可以依次将主序列与每个技术发展阶段进行相似性度量，即将主序列分别与“萌芽-膨胀”、“膨胀-泡沫”、“泡沫-光明”和“光明-高峰”阶段的曲线进行度量。
[0121]
然后，再对相似性度量结果进行排序，即将各个相似性度量结果进行比较后，按照从大至小的顺序对主序列与每个技术发展阶段的相似性程度进行排序。
[0122]
步骤s105，将相似性程度最高的技术发展阶段判定为时序数据表示的技术所处的目标技术发展阶段。
[0123]
具体的，根据排序结果获取与主序列相似程度最高的技术发展，以该相似程度最高的技术发展阶段作为搜索得到的时序数据所代表的技术所处的发展阶段，即作为待判断的该技术所处的发展阶段，从而实现技术发展阶段的判断。
[0124]
在本技术一个实施例中，可以在人机交互界面展示生成的判断结果，比如，在技术发展阶段判断的应用的交互界面上，设置技术关键词搜索框和发展阶段判断结果展示区域，在用户根据实际需要搜索技术关键词后，通过计算后在展示区域展示相应的技术所处的发展阶段，提高了用户进行操作和获取判断结果的便利性。
[0125]
由此，该方法通过将wos技术检索结果时序数据与划分技术发展阶段的gartner hype cycle进行相似性度量进行技术发展阶段的研判，其中，通过采用可调整的参数控制时序数据特征提取分辨率，对技术相关的时序数据进行多尺度的时序数据特征提取，提高了判断的准确性。
[0126]
综上所述，本技术实施例的基于自适应相似性度量的技术发展阶段判断方法，先基于高德纳曲线划分与定义技术发展阶段，再通过预设的数据库进行基于技术关键字的论文检索，生成科技论文数量变化时序曲线，在完成必要的数据预处理操作后，针对目标样本序列进行特征提取与表示，并通过设定可调整阈值，控制序列特征提取的分辨率，最后通过与高德纳曲线进行相似性度量实现技术发展阶段判定。由此，该方法基于高德纳技术成熟度曲线和相似性度量对技术发展阶段进行多尺度的判断，在应对不同领域特定技术评估需求时，通过人工调整阈值控制算法细节特征提取粒度，实现了科技成果时序数据自适应处理，能够适用于各领域技术的评估。从而，实现了基于科技数据的定量分析与领域知识相结合的技术评估，推动了科技大数据、人工智能的定量分析方法与科技发展规律相结合，并且有利于实现相应的系统增加算法的可操作和可视化程度，提高了对技术发展阶段进行判定的准确性、适用性和便捷性。
[0127]
为了更加清楚的说明本技术实施例的基于自适应相似性度量的技术发展阶段判断方法，下面结合图10以一个具体的实施例进行说明，如图10所示，该方法包括以下步骤：
[0128]
s10:以gartner hype cycle为基准定义技术发展阶段。
[0129]
在本步骤中，以高德纳曲线为研究基础，按照hype cycle曲线所包含的技术发展阶段将曲线进行分割，每段曲线包含hype cycle中的两个发展阶段，体现技术发展的变化过程，主要阶段包含“技术萌芽转膨胀阶段”(简称“萌芽-膨胀”)、“技术膨胀转泡沫化低谷期”(简称“膨胀-泡沫”)、“泡沫化低谷期转光明期”(简称“泡沫-光明”)、“光明期转实质生产高峰期”(简称“光明-高峰”)，通过技术发展阶段的划分为进一步依据实际数据进行研判和验证奠定基础。
[0130]
s20:根据搜索的技术关键词生成基于科技大数据的时序数据，并进行数据的预处理。
[0131]
在本步骤中，通过具体技术关键词在wos的搜索结果生成其数量数据按照时间发展的变化数据，生成相应的时序数据集，作为技术判定的依据。由于不同领域的研究状况不同，为了抵消由数量级差异造成的结果差异，对生成的时序数据进行z-score标准化处理。
[0132]
s30:对时序数据基于细节分辨率进行特征提取与表示。
[0133]
在本步骤中，为了满足不同领域技术的研究需求，提出多尺度的相似性度量方法，能够满足按照实际情况调整阈值，对曲线不同尺度的特征进行提取。针对时序数据进行基于细节分辨率reso的子序列划分，通过迭代提取所有满足条件的子序列，首尾相接得到主序列。再对提取后的主序列以三元组形式存储，作为相似性度量的依据。
[0134]
s40:将主序列与高德纳曲线进行相似性度量。
[0135]
在本步骤中，将研究样本与hype cycle进行比对，按照其与不同阶段相似性程度的高低进行排序。
[0136]
具体的，以hypecycle划分后的分段序列为依据，分别度量特征提取后的样本序列与不同技术分段之间的相似性，为满足不同长度时间序列数据之间的相似性度量，采用动态时间扭曲(dtw)作为度量方法，按照其与不同阶段相似程度的高低进行排序。
[0137]
s50:研发判定系统实现技术发展阶段的研判。
[0138]
在本步骤中，实现相应的系统，以相似程度最高的发展阶段作为时序样本所代表技术所处的发展阶段，实现技术发展阶段的研判。为了使该方法的操作与实现更加便捷，研发相应的系统，实现整体展示研判结果。
[0139]
该方法基于高德纳曲线划分与定义技术发展阶段，通过(wos数据库进行基于技术关键字的论文检索，生成科技论文数量变化时序曲线，完成必要的数据预处理操作后，针对目标样本序列进行特征提取与表示，通过设定可调整阈值，控制序列特征提取的分辨率，通过与gartner hype cycle进行相似性度量实现技术发展阶段判定，实现相应的系统增加算法的可操作和可视化程度。
[0140]
为了实现上述实施例，本技术还提出了一种基于自适应相似性度量的技术发展阶段判断系统，图11为本技术实施例提出的一种基于自适应相似性度量的技术发展阶段判断系统的结构示意图。
[0141]
如图11所示，该基于自适应相似性度量的技术发展阶段判断系统包括：定义模块100、生成模块200、特征提取模块300、相似性度量模块400和判断模块500。
[0142]
其中，定义模块100，用于对高德纳曲线进行分割，定义多个技术发展阶段，其中，每个技术发展阶段包括高德纳曲线中相邻的两个时期。
[0143]
生成模块200，用于在预设的数据集中搜索技术关键词，根据搜索结果生成表示技
术关键词对应的科技数据的数量随时间变化的时序数据，并对时序数据进行预处理。
[0144]
特征提取模块300，用于基于预设的细节分辨率对预处理后的时序数据进行子序列划分，连接各个子序列生成主序列，以实现预处理后的时序数据的特征提取，并将主序列转换为三元组的形式存储。
[0145]
相似性度量模块400，用于通过动态时间扭曲dtw将转换后的主序列与代表各个技术发展阶段的曲线进行相似性度量，并对转换后的主序列与每个技术发展阶段的相似性程度进行排序。
[0146]
判断模块500，用于将相似性程度最高的技术发展阶段判定为时序数据表示的技术所处的目标技术发展阶段。
[0147]
可选地，在本技术的一个实施例中，特征提取模块300，还包括：设置单元，用于设置标准化处理后的时序数据为目标序列；标记单元，用于将目标序列的首尾两个端点标记为第一关键点，连接首尾两个端点生成基准线；计算单元，用于计算目标序列中除首尾两个端点之外的每个数据点至基准线的垂直距离，并在全部垂直距离中筛选出最大距离，确定最大距离对应的数据点；分割单元，用于基于细节分辨率确定对应的分辨率距离，将最大距离与分辨率距离进行比较，若最大距离大于分辨率距离，则将最大距离对应的数据点标记为第二关键点，并根据第二关键点将目标序列分割为第一子序列和第二子序列；更新单元，用于分别将目标序列更新为第一子序列和第二子序列，针对每个更新后的目标序列控制标记单元、计算单元和分割单元重复执行自身的功能，直至不再产生新的子序列。
[0148]
可选地，在本技术的一个实施例中，分割单元，具体用于：在全部垂直距离中筛选出最大距离和最小距离；
[0149]
通过以下公式计算分辨率距离：
[0150][0151]
其中，reso是预设的细节分辨率，distance
max
是最大距离，distance
min
是最小距离，distance
reso
是分辨率距离。
[0152]
可选地，在本技术的一个实施例中，特征提取模块300具体用于：计算每个子序列包含的数据点的均值；计算每个子序列首尾两个端点的连线的斜率；确定每个子序列的首端点在目标序列中的索引，根据每个子序列的索引、均值和斜率将对应的子序列表示为三元组。
[0153]
可选地，在本技术的一个实施例中，相似性度量模块400具体用于：将每个技术发展阶段对应的序列段转换为三元组形式；根据转换后的主序列和任一转换后的技术发展阶段对应的序列段构建距离矩阵，并通过动态时间扭曲dtw确定距离矩阵的最优路径；根据最优路径将转换后的主序列和任一转换后的技术发展阶段对应的序列段中的三元组进行对齐，并计算对齐后的每两个相对应的三元组之间的距离；计算全部距离的和，以和为主序列与任一转换后的技术发展阶段的相似性。
[0154]
可选地，在本技术的一个实施例中，相似性度量模块400具体用于：通过以下公式计算对齐后的每两个相对应的三元组之间的距离：
[0155]
[0156]
其中，m1和m2分别表示每两个相对应的三元组的均值，q1和q2分别表示每两个相对应的三元组的斜率。
[0157]
可选地，在本技术的一个实施例中，生成模块200，还用于：对时序数据进行z-score标准化处理。
[0158]
综上所述，本技术实施例的基于自适应相似性度量的技术发展阶段判断系统，基于高德纳技术成熟度曲线、自适应的时序数据特征提取算法和相似性度量对技术发展阶段进行多尺度的判断，在应对不同领域特定技术评估需求时，通过人工调整阈值控制算法细节特征提取粒度，实现了科技成果时序数据自适应处理，能够适用于各领域技术的评估。从而，实现了基于科技数据的定量分析与领域知识相结合的技术评估，推动了科技大数据、人工智能的定量分析方法与科技发展规律相结合，并且有利于实现相应的系统增加算法的可操作和可视化程度，提高了对技术发展阶段进行判定的准确性、适用性和科学性。
[0159]
为了实现上述实施例，本发明还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本技术第一方面实施例所述的一种基于自适应相似性度量的技术发展阶段判断方法。
[0160]
在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本技术的至少一个实施例或示例中。在本说明书中，若在多个实施例或示例中采用了对上述术语的示意性表述，不代表这些实施例或示例是相同的。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0161]
此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本技术的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。
[0162]
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本技术的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本技术的实施例所属技术领域的技术人员所理解。
[0163]
在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(ram)，只读存储器(rom)，可擦除可编辑只读存储器(eprom或闪速存储器)，光纤装置，以及便携式光盘只读存
储器(cdrom)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。
[0164]
应当理解，本技术的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(pga)，现场可编程门阵列(fpga)等。
[0165]
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。
[0166]
此外，在本技术各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。
[0167]
上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本技术的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本技术的限制，本领域的普通技术人员在本技术的范围内可以对上述实施例进行变化、修改、替换和变型。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于物联网的安防资源部署系统的制作方法

基于自适应相似性度量的技术发展阶段判断方法与系统与流程

相关文献

最热文献