一种柴油机数据识别方法与流程

2022-05-11 11:16:15 来源：中国专利 TAG：

1.本发明属于工业数据挖掘技术领域，尤其是涉及一种结合专家知识规则库与机器学习分类器的柴油机数据识别方法。

背景技术：

2.大功率增压柴油机试验数据目前采用的入数据库方式多为离线入库，由于实采入库数据量较大，在入库、文件迁移过程中无法避免字段丢失，该问题出现将造成原有历史数据无法使用，造成大量可以支撑数据分析、故障研究的信息资源浪费。另一方面，如单纯利用专家经验处理这类数据，海量数据的识别准确性、及时性无法保证。现有技术中，针对工业场景，尤其是针对大功率增压柴油机实采数据识别的方法极少，而面向信息化办公的柴油机数据识别方法并不适用工业场景，故很难借鉴。

技术实现要素：

3.有鉴于此，本发明旨在提出一种柴油机数据识别方法，以解决大功率增压柴油机的实采数据字段缺失的问题。
4.为达到上述目的，本发明的技术方案是这样实现的：
5.一种柴油机数据识别方法，包括模型构建、模型应用两部分，所述模型构建包括如下步骤：
6.s1：基于领域的通识认知建立通识规则库、基于专家的领域知识建立规则库；
7.s2：读取容量不低于4g且字段信息完整的数据表，将其高斯滤波后的数据作为训练样本；
8.s3：结合专家知识规则库准则将训练样本分为a、b、c三类训练样本；
9.s4：分别针对a、b、c三类训练样本进行特征提取，并对特征数据进行标签处理；
10.s5：将特征数据与标签作为最终训练集导入随机森林分类器，以标签作为分类类型对随机森林分类器进行训练分别得到a、b、c子分类器；
11.模型应用部分包括以下步骤：
12.p1：读取数据条目高于5000条的待识别柴油机数据表，然后按照所述s2的方法完成高斯平滑降噪，如果数据处理完成后的数据条目不足，则跳过本次数据识别过程，p2～p5不执行；
13.p2：基于步骤s1中已内置的通识规则库识别导入数据中的时间戳字段、编号序列字段；按照所述s3的步骤完成a、b、c三类训练数据集归并；
14.p3：按照所述步骤s4中分别针对a、b、c三类训练样本进行特征提取形成特征数据样本；
15.p4：分别将a、b、c三类特征数据样本输入a、b、c子分类器，a、b、c子分类器将分别输出其多个字段数据所对应的标签值；
16.p5：根据预测标签值给原始导入数据表单添加列名，形成带有表头信息的规整的
数据表格。
17.进一步的，所述s1中建立的领域知识规则库的具体方法为：在知识规则库内部预置入3条数据分类规则条件，分别为：
18.①
满足如下条件的归为a类数据，使a类数据包含要求转速、实际转速、要求齿杆：
19.x(i)》＝800，x(i)指的是a类数据内的任一变量的数据序列；
20.所述规则普遍适应运行状态正常的大功率增压柴油机，但不排除存在极少数的随机异常数据的出现，下式引入的滤波算子能够消除该随机因素：
21.∑sgnx(x(i)-800)》0.99*n，n为差分序列长度，0.99为滤波算子；
22.②
满足如下条件归为c类数据，使c类数据包括大气压力、进气温度、水温、电压值：
23.x(i)《110，x(i)指的是c类数据内的任一变量形成的数据序列；
24.所述规则普遍适应运行状态正常的大功率增压柴油机，但不排除存在极少数的随机异常数据的出现，下式引入的滤波算子能够消除该随机因素：
25.∑sgnx(110-x(i))》0.99*n,n为差分序列长度，0.99为滤波算子；
26.③
不满足
①
、
②
的归为b类数据，使b类数据包括机油压力、进气压力、排气温度。
27.进一步的，所述s1的知识规则库至少包括2条通识规则条件，一是时间戳字符串编码格式必须符合国际编码方式才判定为时间戳字段，如无符合条件字段则不输出；二是编号序列以整形变量形式进行存储，且变量数值升序排列，升序增量为1，该规则同样引入滤波算子平滑随机噪声：
28.∑sgnx(diff_x(i))》0.99*n
29.其中,diff_x为编号序列形成的差分序列，n为差分序列长度，0.99为滤波算子。满足所述条件才判定为编号序列字段，如无符合条件字段则不输出。
30.进一步的，所述s2具体包括：针对容量高于4g的导入数据的各列数据序列，采用指定模板大小为3
×
3，标准差为0.8的高斯滤波器完成各序列的平滑降噪。
31.进一步的，所述s3具体包括：按照步骤s1内置的领域知识规则库进行数据的划分，所述的规则能够保证将要求转速、实际转速、要求齿杆作为训练样本a；将机油压力、进气压力、排气温度作为训练样本b；将进气温度、大气压力、水温、15v电压、24v电压作为训练样本c。
32.进一步的，所述步骤s4的具体方法为：
33.s41：确定特征集合，针对训练样本a的各列数据样本，每5000条数据序列作为1个单位时窗数据xa分别计算其最大值、最小值、平均值、信噪比、功率谱密度、一阶主频、均方根；上述7维特征形成1条训练样本，并将该数据序列列名作为其标签值；
34.s42：根据所确定特征集合，针对训练样本b的各列数据样本，每5000条数据序列作为1个单位时窗数据xb分别计算其平均值、最大值、峰度、偏度、峭度、中位值、最小值、一阶差分；上述8维特征形成1条训练样本，并将该数据序列列名作为其标签值；
35.s43：根据所确定特征集合，针对训练样本c的各列数据样本，每5000条数据序列作为1个单位时窗数据xc分别计算其平均值、标准差、中位值、一阶差分值、最小值；上述5维特征形成1条训练样本，并将该数据序列列名作为其标签值。
36.相对于现有技术，本发明所述的柴油机数据识别方法具有以下优势：
37.(1)本发明所述的柴油机数据识别方法，针对大功率增压柴油机实采数据具备较
佳的数据识别匹配的准确性。
38.(2)本发明所述的柴油机数据识别方法，在专家知识规则库的支撑下，自动解决历史数据字段缺失、标识缺失等问题，提高工作效率，降低人工时间成本。
附图说明
39.构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：
40.图1为本发明实施例中结合专家知识规则库与机器学习分类器的柴油机数据识别方法流程图；
41.图2为本发明实施例中专家知识规则库的具体判别规则；
42.图3为本发明实施例中通识规则库的具体判别规则；
43.图4为本发明实施例中不同类型数据集采用的特征集合；
44.图5为本发明实施例中特征提取样本生成方式示意图。
具体实施方式
45.需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。
46.在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。
47.在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以通过具体情况理解上述术语在本发明中的具体含义。
48.下面将参考附图并结合实施例来详细说明本发明。
49.一种柴油机数据识别方法，如图1至图5所示，包括模型构建、模型应用两部分，模型构建包括如下步骤：
50.s1：基于领域的通识认知建立通识规则库、基于专家的领域知识建立规则库；
51.s2：读取容量不低于4g且字段信息完整的数据表，将其高斯滤波后的数据作为训练样本；
52.s3：结合专家知识规则库准则将训练样本分为a、b、c三类训练样本；
53.s4：分别针对a、b、c三类训练样本进行特征提取，并对特征数据进行标签处理；
54.s5：将特征数据与标签作为最终训练集导入随机森林分类器，以标签作为分类类
型对随机森林分类器进行训练分别得到a、b、c子分类器；
55.专家知识在性能评估中占有重要地位，尤其是在数据关系复杂、数据分布相似的情况下能够借助专家的经验、洞察力等给出具有参考意义的指导。而专家知识系统中，通识/常识性知识亦可以认为是一类简单的专家知识。如本实施例图2所示，本实施例中的专家知识是借助大功率增压柴油机实车多项参数实际变化范围得出的阈值参考范围，包括：
56.1)大功率增压柴油机正常运行工况的转速范围800～2300r/min；
57.2)大功率增压柴油机机油压力正常范围250～800kpa；
58.3)大功率增压柴油机排气温度正常范围不高于750℃；
59.4)大功率增压柴油机进气温度正常范围不高于110℃；
60.5)大功率增压柴油机水温正常范围不高于100℃；
61.6)大功率增压柴油机电压浮动范围不超过15％；
62.7)试验场地大气压力一般不高于101kpa；
63.借助上述专家输入，所述s1中建立的领域知识规则库如附图2所示，本实施例使用的3种分类规则条件与本专利s1中所述的领域知识规则库条件无差别，即：
64.①
满足如下条件的归为a类数据，使a类数据包含要求转速、实际转速、要求齿杆：
65.∑sgnx(x(i)-800)》0.99*n，n为差分序列长度，0.99为滤波算子。
66.②
满足如下条件归为c类数据，使c类数据包括大气压力、进气温度、水温、电压值：
67.∑sgnx(110-x(i))》0.99*n,n为差分序列长度，0.99为滤波算子。
68.③
不满足
①
、
②
的归为b类数据，使b类数据包括机油压力、进气压力、排气温度；
69.进一步地，所述s1的通识规则库如附图3所示，至少包括2条通识规则条件，一是时间戳字符串编码格式必须符合国际编码方式才判定为时间戳字段，如无符合条件字段则不输出；二是编号序列以整形变量形式进行存储，且变量数值升序排列，升序增量为1，该规则同样引入滤波算子平滑随机噪声：
70.∑sgnx(diff_x(i))》0.99*n
71.其中,diff_x为编号序列形成的差分序列，n为差分序列长度，0.99为滤波算子。满足所述条件才判定为编号序列字段，如无符合条件字段则不输出。
72.所述s2具体包括：针对容量高于4g的导入数据的各列数据序列，采用指定模板大小为3
×
3，标准差为0.8的高斯滤波器完成各序列的平滑降噪。
73.所述s3具体包括：按照s1内置的领域知识规则库进行数据的划分，所述的规则能够保证将要求转速、实际转速、要求齿杆作为训练样本a；将机油压力、进气压力、排气温度作为训练样本b；将进气温度、大气压力、水温、15v电压、24v电压作为训练样本c。
74.所述s4具体包括：s41：根据附图4中所确定特征集合，针对训练样本a的各列数据样本，每5000条数据序列作为1个单位时窗数据xa分别计算其最大值、最小值、平均值、信噪比、功率谱密度、一阶主频、均方根；上述7维特征形成1条训练样本，并将该数据序列列名作为其标签值。s42：根据附图4中所确定特征集合，针对训练样本b的各列数据样本，每5000条数据序列作为1个单位时窗数据xb分别计算其平均值、最大值、峰度、偏度、峭度、中位值、最小值、一阶差分；上述8维特征形成1条训练样本，并将该数据序列列名作为其标签值。s43：根据附图4中所确定特征集合，针对训练样本c的各列数据样本，每5000条数据序列作为1个单位时窗数据xc分别计算其平均值、标准差、中位值、一阶差分值、最小值；上述5维特征形
成1条训练样本，并将该数据序列列名作为其标签值。本步骤中a、b、c三类数据形成的特征样本的形式符合附图5。
75.所述的柴油机数据识别方法的模型应用部分，如附图1所示，其包括以下步骤：
76.p1：读取数据条目高于5000条的待识别柴油机数据表，然后按照所述s2的方法完成高斯平滑降噪。如果数据处理完成后的数据条目不足，则跳过本次数据识别过程，p2～p5不执行；
77.数据清洗&滤波主要是应用python脚本，将大功率增压柴油机实采的大量历史数据进行批量整合，并且完成该数据的异常值剔除与降噪处理。降噪处理所应用的高斯滤波是一种线性平滑滤波器，对于服从正态分布的噪声有很好的抑制作用,该处理能够明显的提高机器学习子分类器模型的准确率，且模板、标准差参数配置的越合理、数据量越大通常子分类器的匹配精度就越高。
78.p2：基于s1中已内置的如附图3所示的通识规则库识别导入数据中的时间戳字段、编号序列字段；其次按照所述s3的步骤完成a、b、c三类训练数据集归并；
79.p3：按照s4所述步骤分别针对a、b、c三类训练样本进行特征提取形成如附图5所示的特征数据样本；
80.p4：分别将a、b、c三类特征数据样本输入a、b、c子分类器，a、b、c子分类器将分别输出其多个字段数据所对应的标签值(即列名)；
81.p5：根据预测标签值(即列名)给原始导入数据表单添加列名，形成带有表头信息的规整的数据表格。
82.所述p4具体包括：p41：将各列a类预测输入样本灌入子分类器a，依次记录输出的标签值；p42：各列b类预测输入样本灌入子分类器b，依次记录输出的标签值；p43：各列c类预测输入样本灌入子分类器c，依次记录输出的标签值。
83.所述p5具体包括：将子分类器a、b、c输出的各类标签值分别还原至原始数据表头上，令待识别的数据表格的每一列数据都具备完善的表头，已完成数据匹配的整体流程。
84.如附图3所示，本实施例使用的通识规则与本专利s1中所述的通识规则库条件无差别，即：
85.①
时间戳字符串编码格式必须符合国际编码方式才判定为时间戳字段；
86.②
编号序列以整形变量形式进行存储，且变量数值升序排列，升序增量为1，该规则同样引入滤波算子平滑随机噪声：
87.∑sgnx(diff_x(i))》0.99*n
88.其中,diff_x为编号序列形成的差分序列，n为差分序列长度，0.99为滤波算子。
89.基本统计特征、频域特征是在工业数据挖掘领域有效的衍生(升维)方法，识别高权重特征是实现准确分类的必备条件。随机森林就是通过集成学习的思想将多棵树集成的一种算法，它的基本单元是决策树，而它的本质属于机器学习的一大分支——集成学习方法，实践表明，随机森林在准确率方面还是相当有优势。随机森林分类模型的训练主要是获取同类数据集中具备不同标签值得特征样本作为训练样本，通过一定数量的样本数据训练之后得到有效的随机森林分类器，因此本实施例中采用的随机森林分类器作为子分类器。
90.下面是对本实施例体征提取以及分类模型训练实现方式的详细说明：
91.1、统计(频域)特征提取，主要包括：
92.1)滑动窗口处理：为了提取到具备一定统计意义的特征量，将完成数据清洗后的某类历史数据(如a类)进行滑窗分割，即每5000条数据作为1个特征提取基础数据集，相邻基础数据集之间不存在数据重叠。显然，长度为100000的历史数据能够分割为20组基础数据集；
93.2)特征样本生成：单组(如a类)基础数据集的任一列进行对应特征集的求解，数据集类型与特征集的对应关系如图5所示。如图4所示，将求解后的特征依次排列形成某列数据的1个特征样本，原始数据量越大，特征样本的数量越多；
94.2、随机森林子分类器模型的训练，主要包括：
95.1)样本特征计算：将特征样本feature与特征样本所对应的原始数据列名name合成训练样本(feature，name)；
96.2)对随机森林分类器进行训练，应用网格搜索法进行超参数调参，最终确定最优随机森林模型。
97.综上所述，本发明提供的方法，针对大功率增压柴油机实采数据具备较佳的数据识别匹配的准确性；虽然本发明已以较佳实施例示例如上，但是本实施例并不限定本发明，任何本领域、技术人员，在不脱离本发明的方法流程和范围内，当可作些许的修改和完善，因此本发明的保护范围当以权利要求书所界定的为准。
98.以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：家装模型的测评/推荐方法、装置、介质及产品与流程

一种柴油机数据识别方法与流程

相关文献

最热文献