一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种用于交通事故分析的不平衡数据处理方法

2022-05-11 15:57:14 来源:中国专利 TAG:


1.本发明涉及交通安全分析预测技术领域,特别是涉及一种用于交通事故分析的不平衡数据处理方法。


背景技术:

2.道路交通事故频发的问题一直是人们关注的焦点,虽然事故的发生具有随机性,但人员重伤、死亡等严重事故造成的负面影响远大于一般财产损失事故,对社会及个人的负担更为沉重。因此,针对道路交通事故严重程度的分析研究,对挖掘事故客观规律,提高交通安全水平有着重要意义。
3.然而,交通事故数据集通常是不平衡的,财产损失或人员轻伤事故占据较多实例作为负样本,人员死亡事故占据较少实例作为正样本。在实际情况中,少数类特征往往更加重要,将少数类样本误分通常会付出更大代价,针对事故严重程度的分析正面临这样的问题。
4.为提高模型对少数类样本的识别性能,充分挖掘数据集的潜在价值,对交通不平衡事故数据的预处理必不可少。然而现有研究在进行交通事故的推理、分类等分析研究时较少考虑交通事故数据的类不平衡性,即使获得较高的准确率也难以反映对少数类样本分析结果的“优劣”。


技术实现要素:

5.本发明提供一种用于交通事故分析的不平衡数据处理方法,该方法能够克服利用原始不平衡交通事故数据集进行推理、预测时,分析结果偏向于多数类样本的问题。
6.本发明的技术方案如下:
7.一种用于交通事故分析的不平衡数据处理方法,包括以下步骤:
8.s1:获取交通事故数据,设定多个事故属性,事故属性包括n个影响因子和1个决策变量,其中决策变量是事故严重程度;
9.s2:依据事故属性进行数据联合得到新的数据表,对得到的数据表进行数据清洗,获得交通事故的原始数据表;
10.s3:对原始数据表中的事故严重程度进行等级划分,并对影响因子进行离散化,得到优化数据表;
11.s4:在优化数据表中,根据事故严重程度的等级分布,划分出正样本和负样本,并对正样本进行不平衡数据重采样,得到平衡数据表;
12.s5:将获得的平衡数据表和优化数据表输入贝叶斯分类器,依据最大后验概率确定事故案例的最终分类。
13.进一步,步骤s1中,包括14个影响因子,分别为:行驶状态、安全带使用情况、车辆安全气囊状态、事故形态、是否超载、道路横断面位置、路口路段类型、道路线形、道路类型、交通控制方式、事故发生时间、天气、能见度、照明条件。
14.进一步,步骤s2中,依据事故属性进行数据联合得到新的数据表的具体过程如下;
15.在获取的交通事故数据中,应用sql多表关联查询语句,将14个影响因子和1个决策变量对应的数据提取出来,创建得到新的数据表;
16.新的数据表中共有16列,首列为案例编号,尾列为事故严重程度,中间14列分别为14个影响因子,则该表中每行表示的是同一事故案例中影响因子和决策变量对应的数据。
17.进一步,步骤s2中,对得到的数据表进行数据清洗的具体过程如下;
18.先清除重复的事故案例:
19.在创建的数据表中标记出重复的案例编号,然后依据被标记的案例编号在表中的顺序,将排名最前的案例编号对应的行数据进行保留,其余重复的案例编号对应的行数据则进行删除;
20.清除后,再进行填补缺失值:
21.首先对数据表进行em估计和回归估计分析,找出缺失数据的单元格,然后求出该单元格所在的列的所有数据的平均数,最后将平均数填补在该单元格中,同理,以此对表中所有缺失数据的单元格进行填补。
22.进一步,缺失值填补后,将表中首列的案例编号剔除,得到原始数据表,则原始数据表中共有15列,包括前14列影响因子和最后1列的事故严重程度。
23.进一步,步骤s3中,事故严重程度的描述包括财产损失、人员轻伤、人员重伤和人员死亡4种;在进行划分时,将财产损失和人员轻伤归为1级,人员重伤归为2级,人员死亡归为3级,以此将事故严重程度划分为3个等级。
24.进一步,步骤s3中,对影响因子进行离散化的具体过程如下:
25.将任一影响因子对应的数值划分为互不相交的若干数值区间,对每个数值区间进行赋值,以首个区间的赋值编码为“1”开始,则第二个区间的赋值编码为“2”,以此类推,按顺序对每个数值区间进行赋值,得到对该影响因子所有数值区间的赋值划分;
26.同理,以此完成对所有影响因子的离散化。
27.进一步,步骤s4中,事故严重程度有m个等级,将事故严重程度对应案例最多的那个等级的案例数据划分为负样本,剩余的m-1个等级的事故严重程度对应的案例数据划分为正样本。
28.进一步,步骤s4中,对正样本进行不平衡数据重采样的具体过程如下:
29.s401:将正样本划分为三种互不相交的类型:安全样本、噪声样本和危险样本,具体如下:
30.在优化数据表上确定每个正样本s

的k近邻,近邻样本中占据多数空间的类记为s
maj
,当时,表示该样本为处在少数类决策空间的安全样本;当时,表示该样本处在边界附近,称为危险样本,被用来合成新的样本达到采样的目的;当s
maj
=k时,表示该样本处在多数类样本空间附近,称为噪声样本;
31.s402:将危险样本作为待采样样本s
top
,移除安全样本和噪声样本;
32.s403:计算待采样样本s
top
与负样本s-的不平衡比;
33.34.s404:根据不平衡比ir对待采样样本s
top
进行边界合成少数类过采样,得到最终的平衡数据集。
35.进一步,步骤s5中,依据最大后验概率确定最终类别的具体过程如下:
36.s501:结合多个事故属性q,q={x1,x2,x3,

,xn,y},以事故属性为节点变量,进行节点变量之间的相关性分析,获得皮尔逊相关系数,完成双尾显著性检验,其中xn表示第n个影响因子,y表示事故严重程度;
37.s502:将节点变量的皮尔逊相关系数按从大到小进行排序,以决策变量y为末节点,依据相关性分析结果完成节点排序;
38.s503:通过k2搜索策略和bd评分及基于drichlet先验分布的贝叶斯参数估计方法获得所有节点的联合概率,表示为:
[0039][0040]
式中,w为节点个数;qb为第b个节点;π(qb)表示qb的父节点集;
[0041]
s504:确定事故严重程度的等级集合为c={y1,y2,

,ym},其中ym表示事故严重程度的第m个等级,影响因子的离散化集合为xn={a1,a2,

,aq},其中aq表示第n个影响因子的第q个赋值编码,贝叶斯分类器从交通事故数据中获取事故严重程度的每个等级的联合概率,依据最大后验概率p(c|xn)确定事故案例的最终分类,计算公式如下:
[0042][0043]
式中,m表示事故严重程度的等级数量,t表示事故严重程度的第t等级,θ表示节点变量的条件概率参数。
[0044]
本发明的有益效果为:
[0045]
本发明提供一种用于交通事故分析的不平衡数据处理方法,该方法以交通事故数据为基础,考虑到该数据的类不平衡性对事故分析结果的影响,进而对数据进行预处理得到优化数据表,并划分出正负样本,且设计特定化的不平衡数据重采样方法,将优化数据表和平衡数据集输入贝叶斯分类器,依据最大后验概率确定最终级别,与现有的分析方法比较,有效减少了对正样本的错误划分。因此,采用合适的不平衡数据重采样技术处理原始交通事故样本集,对事故的推理预测以及影响因子分析具有重要意义。
附图说明
[0046]
图1为本发明的用于交通事故分析的不平衡数据处理方法流程图。
具体实施方式
[0047]
附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明,不能理解为对本专利的限制。
[0048]
实施例1:
[0049]
如图1所示,一种用于交通事故分析的不平衡数据处理方法,包括以下步骤:
[0050]
s1:获取交通事故数据,设定多个事故属性,事故属性包括n个影响因子和1个决策变量,其中决策变量是事故严重程度;
[0051]
s2:依据事故属性进行数据联合得到新的数据表,对得到的数据表进行数据清洗,获得交通事故的原始数据表;
[0052]
s3:对原始数据表中的事故严重程度进行等级划分,并对影响因子进行离散化,得到优化数据表;
[0053]
s4:在优化数据表中,根据事故严重程度的等级分布,划分出正样本和负样本,并对正样本进行不平衡数据重采样,得到平衡数据表;
[0054]
s5:将获得的平衡数据表和优化数据表输入贝叶斯分类器,依据最大后验概率确定事故案例的最终分类。
[0055]
在本实施例中,步骤s1包括有14个影响因子,分别为:
[0056]
行驶状态(drv)、安全带使用情况(bel)、车辆安全气囊状态(air)、事故形态(col)、是否超载(ove)、道路横断面位置(cro)、路口路段类型(int)、道路线形(roa)、道路类型(typ)、交通控制方式(con)、事故发生时间(tim)、天气(wea)、能见度(vis)、照明条件(lig);1个决策变量,为事故严重程度(sev)。
[0057]
在本实施例中,步骤s2中依据事故属性进行数据联合得到新的数据表的具体过程如下;
[0058]
由于所设定的事故属性分布在多个表中,因此,应用sql多表关联查询语句,将14个影响因子和1个决策变量对应的数据提取出来,创建新表,将提取的数据信息插入其中完成数据联合过程;
[0059]
上述得到新的数据表中共有16列,首列为案例编号,尾列为事故严重程度,中间14列分别为14个影响因子,则该表中每行表示的是同一事故案例中影响因子和决策变量对应的数据。
[0060]
之后再对得到的数据表进行数据清洗,具体过程如下;
[0061]
先清除重复的事故案例:
[0062]
在创建的数据表中标记出重复的案例编号,然后依据被标记的案例编号在表中的顺序,将排名最前的案例编号对应的行数据进行保留,其余重复的案例编号对应的行数据则进行删除;
[0063]
清除后,再进行填补缺失值:
[0064]
首先在数据表中通过em估计和回归估计分析找出缺失数据的单元格,然后求出该单元格所在的列的所有数据的平均数,最后将平均数填补在该单元格中,同理,以此对表中所有缺失数据的单元格进行填补;
[0065]
缺失值填补后,将表中首列的案例编号剔除,得到原始数据表,则原始数据表中共有15列,包括前14列影响因子和最后1列的事故严重程度。
[0066]
在本实施例中,步骤s3中的事故严重程度包括财产损失、人员轻伤、人员重伤和人员死亡4种;
[0067]
在进行划分时,将财产损失和人员轻伤归为1级,人员重伤归为2级,人员死亡归为3级,以此将事故严重程度划分为3个等级。
[0068]
对影响因子进行离散化的具体过程如下:
[0069]
将任一影响因子对应的数值划分为互不相交的若干数值区间,对每个数值区间进行赋值,以首个区间的赋值编码为“1”开始,则第二个区间的赋值编码为“2”,以“事故发生时间”为例,根据时段属性将24小时分为4个区间,其中“0~6点”编码为“1”,“6~12点”编码为“2”,“12~18点”编码为“3”,“18~24点”编码为“4”。以此类推,按顺序对每个数值区间进行赋值,得到对该影响因子所有数值区间的赋值划分;同理,以此完成对所有影响因子的离散化。
[0070]
在本实施例中,由步骤s3可知,步骤s4的事故严重程度有3个等级,一般第1个等级对应的案例数最多,所以将第1个等级的事故严重程度对应的案例数据划分为负样本,剩余的2个等级的事故严重程度对应的案例数据划分为正样本。
[0071]
步骤s4中,对正样本进行不平衡数据重采样的具体过程如下:
[0072]
s401:将正样本划分为三种互不相交的类型:安全样本、噪声样本和危险样本,具体如下:
[0073]
在优化数据表上确定每个正样本s

的k近邻,近邻样本中占据多数空间的类记为s
maj

[0074]
当时,表示该样本为处在少数类决策空间的安全样本;
[0075]
当时,表示该样本处在边界附近,称为危险样本,被用来合成新的样本达到采样的目的;
[0076]
当s
maj
=k时,表示该样本处在多数类样本空间附近,称为噪声样本;
[0077]
s402:将危险样本作为待采样样本s
top
,移除安全样本和噪声样本;
[0078]
s403:计算待采样样本s
top
与负样本s-的不平衡比;
[0079][0080]
s404:根据不平衡比ir对待采样样本s
top
进行边界合成少数类过采样,得到最终的平衡数据集。
[0081]
在本实施例中,步骤s5中依据最大后验概率确定最终类别的具体过程如下:
[0082]
s501:结合多个事故属性q,q={x1,x2,x3,

,xn,y},以事故属性为节点变量,进行节点变量之间的相关性分析,获得皮尔逊相关系数,完成双尾显著性检验;
[0083]
其中xn表示第n个影响因子,y表示事故严重程度;
[0084]
由步骤s2可知,事故属性q有15个,则对应有15个节点变量,n=14;
[0085]
s502:将节点变量的皮尔逊相关系数按从大到小进行排序,以决策变量y为末节点,依据相关性分析结果完成节点排序;
[0086]
s503:通过k2搜索策略和bd评分及基于drichlet先验分布的贝叶斯参数估计方法获得所有节点的联合概率,表示为:
[0087][0088]
式中,w为节点个数;qb为第b个节点;π(qb)表示qb的父节点集;
[0089]
s504:确定事故严重程度的等级集合为c={y1,y2,

,ym},其中ym表示事故严重程度的第m个等级,影响因子的离散化集合为xn={a1,a2,

,aq},其中aq表示第n个影响因子的第q个赋值编码,贝叶斯分类器从交通事故数据中获取事故严重程度的每个等级的联合概率,依据最大后验概率p(c|xn)确定事故案例的最终分类,计算公式如下:
[0090][0091]
式中,m表示事故严重程度的等级数量(由步骤s3可知,m=3),t表示事故严重程度的第t等级,θ表示节点变量的条件概率参数。
[0092]
在贝叶斯分类器分别输入通过平衡数据表和优化数据表,上述的最大后验概率,可得到平衡数据表和优化数据表中事故案例的最终分类,再对该两个数据表的结果进行对比,明显是平衡数据表得到的分类结果比优化数据表得到的分类结果更准确,更符合目前的交通事故分析。
[0093]
本发明的方法以交通事故数据为基础,考虑到该数据的类不平衡性对事故分析结果的影响,进而对数据进行预处理得到优化数据表,并划分出正负样本,且设计特定化的不平衡数据重采样方法,将优化数据表和平衡数据集输入贝叶斯分类器,依据最大后验概率确定最终分类。与现有的分析方法比较,有效减少了对正样本的错误划分。
[0094]
本发明的方法能够提高对交通事故各类别的推理预测精度,以获得更为完善的影响事故严重程度的显著因素,对交通事故的深入分析具有重要意义。
[0095]
实施例2:
[0096]
本实施例使用的数据源为广东省2017~2018年的交通事故数据,共24816条记录,每条记录包括碰撞时的相关信息:基本信息、车辆信息、当事人信息、当事人信息和道路信息。
[0097]
s1:先设定好15个事故属性,包括14个影响因子和1个决策变量;
[0098]
s2:进行数据联合和数据清洗,生成了具有15列的原始数据表,则该原始数据表的行数为24816;以原始数据表中的16个案例的数据进行举例,如表1所示:
[0099]
表1
[0100]
belairoveroacrotypintweatimvisvigcondrvcolsev11212122112012/2/3 15:50:00311121有损失和轻伤13211122112014/1/19 10:50:00411121有损失和轻伤212112221120119/26 22:10:00321111有损失和轻伤11211122112011/11/5 15:50:00311111有损失和轻伤11213132122011/11/23 21:45:00331111有损失和重伤11213122132011/6/28 15:20:00311111有损失和轻伤21211221222011/12/20 13:30:00311111有损失、轻伤和死亡13211212112011/12/26 23:09:00221121有损失和轻伤11213132112011/12/24 14:20:00411121有损失和轻伤21213132112008/12/12 22:40:00131611轻伤11221122132011/9/29 11:30:00411131有损失和轻伤21211122112012/5/4 08:21:00411111有损失和死亡21221112112013/7/10 17:40:00411512有损失和轻伤11291132122014/2/15 13:00:00311111有损失和重伤
13211222112013/12/25 07:20:00411512有损失和死亡23211221232014/3/21 13:30:00411611有损失和轻伤
[0101]
s3:对事故严重程度进行等级划分并对影响因子进行离散化后,得到优化数据表,优化数据表上包含14个影响因子的赋值数据和事故严重程度的等级数据;以表1的数据为例,优化后得到的优化数据表中的16个案例的数据如表2所示:
[0102]
表2
[0103]
belairoveroacrotypintweatimvisvigcondrvcolsev112123213311131132113212411131212116214321111112113213311111112134224331112112133233311111212116123311113132115214221131112134213411131212134214131411112213232411151212113212411113212212213411421112214223311112132116212411423232116133411411
[0104]
s4:根据事故严重程度的3个等级分布,将24816个案例划分,得到财产损失事故和人员轻伤事故发生的频率为21564,人员重伤事故发生的频率为1067,人员死亡事故发生的频率为2185,即等级1有21564个案例,等级2有1067个案例,等级3有2185个案例,将拥有较多实例的1级称为负样本,拥有较少实例的2级和3级称为正样本;
[0105]
划分好正负样本后,对正样本进行不平衡数据重采样,通过上述特定化不平衡数据重采样方法获得待采样样本2013条,所以待采样样本与负样本的不平衡比为21564/2013,约等于10,最后根据不平衡比对待采样样本进行边界合成少数类过采样,得到含有20130条案例数据的新正样本,将新正样本与负样本合并形成平衡数据表,则该表中含有20130 21564=41694条案例数据;
[0106]
s5:将获得的平衡数据表和优化数据表输入贝叶斯分类器,依据最大后验概率确定事故案例的最终分类;
[0107]
本步骤中以决策变量为末节点,依据相关性分析结果完成节点排序,结果为:天气
‑‑
道路线形
‑‑
能见度
‑‑
安全带使用情况
‑‑
路口路段类型
‑‑
行驶状态
‑‑
道路横断面位置
‑‑
交通控制方式
‑‑
照明条件
‑‑
事故形态
‑‑
事故发生时间
‑‑
道路类型
‑‑
是否超载
‑‑
车辆安全气囊状态
‑‑
事故严重程度;通过上述方法生成的基于优化数据表和平衡数据表下的分类结果如表3、表4所示。
[0108]
表3基于优化数据表的分类结果
[0109][0110]
表4基于平衡数据表的分类结果
[0111][0112]
实例分析得知,通过不平衡数据重采样方法处理的平衡数据表和没有使用重采样的优化数据集相比,在进行事故数据推理、分类时,前者能够对各类别均获得较好的分析结果,本发明解决了因交通事故数据的类不平衡性而带来的对少数类样本识别较差的问题。
[0113]
实施例3:
[0114]
本实施例与实施例2相似,所不同之处在于,本实施例可以针对事故严重程度的等级分布特征进行分析,包括对决策变量和影响因子进行描述性统计,完成平均值、标准差、最大值、最小值以及后验分布特征的计算,其中后验分布特征的计算包括峰度和偏度的统计值及标准错误计算,则各事故属性的描述统计结果如表5所示;
[0115]
表5事故属性的描述统计表
[0116][0117]
本实施例中决策变量(事故严重程度)的等级案频数的平均值为1.22,标准差为0.589,最大值为3,最小值为1。通过上述的描述统计,可更清晰地分析得到交通事故严重程度的等级分布特征,便于为后续的划分数据的正负样本并设计特定化的不平衡数据重采样方法提供分析依据。
[0118]
显然,本发明的上述实施例仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献