一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种用于交通事故分析的不平衡数据处理方法

2022-05-11 15:57:14 来源:中国专利 TAG:

技术特征:
1.一种用于交通事故分析的不平衡数据处理方法,其特征在于,包括以下步骤:s1:获取交通事故数据,设定多个事故属性,事故属性包括n个影响因子和1个决策变量,其中决策变量是事故严重程度;s2:依据事故属性进行数据联合得到新的数据表,对得到的数据表进行数据清洗,获得交通事故的原始数据表;s3:对原始数据表中的事故严重程度进行等级划分,并对影响因子进行离散化,得到优化数据表;s4:在优化数据表中,根据事故严重程度的等级分布,划分出正样本和负样本,并对正样本进行不平衡数据重采样,得到平衡数据表;s5:将获得的平衡数据表和优化数据表输入贝叶斯分类器,依据最大后验概率确定事故案例的最终分类。2.根据权利要求1所述的不平衡数据处理方法,其特征在于,步骤s1中,包括14个影响因子,分别为:行驶状态、安全带使用情况、车辆安全气囊状态、事故形态、是否超载、道路横断面位置、路口路段类型、道路线形、道路类型、交通控制方式、事故发生时间、天气、能见度、照明条件。3.根据权利要求2所述的不平衡数据处理方法,其特征在于,步骤s2中,依据事故属性进行数据联合得到新的数据表的具体过程如下;在获取的交通事故数据中,应用sql多表关联查询语句,将14个影响因子和1个决策变量对应的数据提取出来,创建得到新的数据表;新的数据表中共有16列,首列为案例编号,尾列为事故严重程度,中间14列分别为14个影响因子,则该表中每行表示的是同一事故案例中影响因子和决策变量对应的数据。4.根据权利要求3所述的不平衡数据处理方法,其特征在于,步骤s2中,对得到的数据表进行数据清洗的具体过程如下;先清除重复的事故案例:在创建的数据表中标记出重复的案例编号,然后依据被标记的案例编号在表中的顺序,将排名最前的案例编号对应的行数据进行保留,其余重复的案例编号对应的行数据则进行删除;清除后,再进行填补缺失值:首先对数据表进行em估计和回归估计分析,找出缺失数据的单元格,然后求出该单元格所在的列的所有数据的平均数,最后将平均数填补在该单元格中,同理,以此对表中所有缺失数据的单元格进行填补。5.根据权利要求4所述的不平衡数据处理方法,其特征在于,缺失值填补后,将表中首列的案例编号剔除,得到原始数据表,则原始数据表中共有15列,包括前14列影响因子和最后1列的事故严重程度。6.根据权利要求1所述的不平衡数据处理方法,其特征在于,步骤s3中,事故严重程度的描述包括财产损失、人员轻伤、人员重伤和人员死亡4种;在进行划分时,将财产损失和人员轻伤归为1级,人员重伤归为2级,人员死亡归为3级,以此将事故严重程度划分为3个等级。7.根据权利要求1所述的不平衡数据处理方法,其特征在于,步骤s3中,对影响因子进
行离散化的具体过程如下:将任一影响因子对应的数值划分为互不相交的若干数值区间,对每个数值区间进行赋值,以首个区间的赋值编码为“1”开始,则第二个区间的赋值编码为“2”,以此类推,按顺序对每个数值区间进行赋值,得到对该影响因子所有数值区间的赋值划分;同理,以此完成对所有影响因子的离散化。8.根据权利要求7所述的不平衡数据处理方法,其特征在于,步骤s4中,事故严重程度有m个等级,将事故严重程度对应案例最多的那个等级的案例数据划分为负样本,剩余的m-1个等级的事故严重程度对应的案例数据划分为正样本。9.根据权利要求8所述的不平衡数据处理方法,其特征在于,步骤s4中,对正样本进行不平衡数据重采样的具体过程如下:s401:将正样本划分为三种互不相交的类型:安全样本、噪声样本和危险样本,具体如下:在优化数据表上确定每个正样本s

的k近邻,近邻样本中占据多数空间的类记为s
maj
,当时,表示该样本为处在少数类决策空间的安全样本;当时,表示该样本处在边界附近,称为危险样本,被用来合成新的样本达到采样的目的;当s
maj
=k时,表示该样本处在多数类样本空间附近,称为噪声样本;s402:将危险样本作为待采样样本s
top
,移除安全样本和噪声样本;s403:计算待采样样本s
top
与负样本s-的不平衡比;s404:根据不平衡比ir对待采样样本s
top
进行边界合成少数类过采样,得到最终的平衡数据集。10.根据权利要求9所述的不平衡数据处理方法,其特征在于,步骤s5中,依据最大后验概率确定最终类别的具体过程如下:s501:结合多个事故属性q,q={x1,x2,x3,

,x
n
,y},以事故属性为节点变量,进行节点变量之间的相关性分析,获得皮尔逊相关系数,完成双尾显著性检验,其中x
n
表示第n个影响因子,y表示事故严重程度;s502:将节点变量的皮尔逊相关系数按从大到小进行排序,以决策变量y为末节点,依据相关性分析结果完成节点排序;s503:通过k2搜索策略和bd评分及基于drichlet先验分布的贝叶斯参数估计方法获得所有节点的联合概率,表示为:式中,w为节点个数;q
b
为第b个节点;π(q
b
)表示q
b
的父节点集;s504:确定事故严重程度的等级集合为c={y1,y2,

,y
m
},其中y
m
表示事故严重程度的第m个等级,影响因子的离散化集合为x
n
={a1,a2,

,a
q
},其中a
q
表示第n个影响因子的第q个赋值编码,贝叶斯分类器从交通事故数据中获取事故严重程度的每个等级的联合概率,依据最大后验概率p(c|x
n
)确定事故案例的最终分类,计算公式如下:
式中,m表示事故严重程度的等级数量,t表示事故严重程度的第t等级,θ表示节点变量的条件概率参数。

技术总结
本发明公开了一种用于交通事故分析的不平衡数据处理方法,先获取交通事故数据,并进行数据联合和数据清洗,得到原始数据表;再对原始数据表中的事故严重程度进行等级划分,并对影响因子进行离散化,得到优化数据表;然后在优化数据表中,根据事故严重程度的等级分布,划分出正样本和负样本,并对正样本进行不平衡数据重采样,得到平衡数据表;最后将获得的平衡数据表和优化数据表输入贝叶斯分类器,依据最大后验概率确定事故案例的最终分类。本发明有效解决通过原始不平衡交通事故数据集进行推理、预测分类时,分析结果偏向于多数类样本的问题,同时对少数类样本的识别能力保持在可接受的水平。在可接受的水平。在可接受的水平。


技术研发人员:李军 王琪 贾碧岑
受保护的技术使用者:中山大学
技术研发日:2022.01.27
技术公布日:2022/5/10
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献