论文背景
- 实时预测交通事故,阈值选择是关键一步,但目前对阈值选择方面研究很少,部分研究阈值选择也是根据主观因素进行选择的。
主要思想
- 使用mixed logit 模型根据交通条件预测交通事故发生的概率,使用阈值选择方法根据交通条件自动选择阈值,并与模型的概率进行比较,大于阈值则预测发生事故;否则,不发生。
实验步骤
- 模型使用 mixed logit 模型,预测事故概率
- 使用5种方法进行阈值选择
- 使用5折交叉验证对整个流程进行验证
结论
- 阈值选择使用Minimum cross-entropy 效果最好
模型
1.mixed logit 模型
- 该方法应考虑到影响碰撞风险的变量的影响可能会随着道路路段的不同而变化。
- 效用函数: U i n = V i n + ε i n + η i n U_{in} = V_{in} + \varepsilon_{in}+\eta_{in} Uin=Vin+εin+ηin
- V i n = β n X i n V_{in} = \beta_{n}X_{in} Vin=βnXin : β \beta β是参数, X i n X_{in} Xin 是属性
- ε i n \varepsilon_{in} εin:是均值为0的随机项,不依赖基础参数和数据
- η i n \eta_{in} ηin:是均值为0的随机项,其分布依赖于方案 i i i 和决策者 n n n
-
混合逻辑模型方程 :
2.阈值选择
数据集中车祸风险的直方图使用 n 1 , n 2 , ⋯ n i , ⋯ , n L n_1,n_2,\cdots n_i,\cdots , n_L n1,n2,⋯ni,⋯,nL表示,每个碰撞等级发生的概率使用 T 1 , T 2 , ⋯ , T k , ⋯ T L T_1, T_2,\cdots ,T_k,\cdots T_L T1,T2,⋯,Tk,⋯TL发,其中 n i n_i ni表示碰撞等级为 i i i的事件, L L L表示碰撞等级的数量。
那么碰撞等级为 i i i的事件发生的概率 p i = n i ∑ i = 1 L p_i = \frac{n_i}{\sum_{i=1}^L} pi=∑i=1Lni
-
双峰直方图阈值选取法
-
利用曲线拟合直方图,选取两个峰值之间的最小值(谷值)作为阈值
-
-
P-tile 法
- 碰撞事故数 / 非碰撞事故数 的比例
-
最大类间方差法(Otsu)
-
通过使两个类间的方差最大,选择最优阈值
-
选择 T ( k ) = k T(k) = k T(k)=k作为阈值,将数据分为两类: C 0 C_0 C0由【1,k】组成, C 1 C_1 C1由【k+1,L】组成,那么分到 C 0 C_0 C0类的概率 ρ 0 = ∑ i = 1 k p i \rho_0 = \sum_{i=1}^k p_i ρ0=∑i=1kpi,分到 C 1 C_1 C1类的概率 ρ 1 = ∑ i = k + 1 L p i = 1 − ρ 0 \rho_1 = \sum_{i=k+1}^L p_i = 1-\rho_0 ρ1=∑i=k+1Lpi=1−ρ0
-
计算类间方差: δ B 2 = ρ 0 ( μ 0 − μ ˉ ) 2 + ρ 1 ( μ 1 − μ ˉ ) 2 = ρ 0 ρ 1 ( μ 0 − μ 1 ) 2 \delta^{2}_{B} = \rho_0(\mu_0 - \bar{\mu})^2+\rho_1(\mu_1 - \bar{\mu})^2 = \rho_0\rho_1(\mu_0 - \mu_1)^2 δB2=ρ0(μ0−μˉ)2+ρ1(μ1−μˉ)2=ρ0ρ1(μ0−μ1)2
- μ 0 \mu_0 μ0:是 C 0 C_0 C0类的均值, μ 1 \mu_1 μ1:是 C 1 C_1 C1类的均值, μ ˉ \bar{\mu} μˉ:是整个数据集均值
- 然后通过最大化 δ B 2 \delta_B^2 δB2的方法, T k ∗ = a r g m a x δ B 2 T_{k^*} = argmax {\delta^2_B} Tk∗=argmaxδB2,得到最优阈值 T k ∗ T_{k^*} Tk∗,从上述公式可看出,两个均值 μ 0 , μ 1 \mu_0,\mu_1 μ0,μ1隔的越远 δ B 2 \delta_B^2 δB2就越大。
-
-
最大熵法
熵的定义: H ( D ) = − ∑ p p ( x ) l o g ( x ) H(D) = - \sum_pp(x)log(x) H(D)=−∑pp(x)log(x)
- 用阈值 T K T_K TK将碰撞风险分布,分为两个概率分布
- E 0 ( T k ) = − ∑ i = 0 k p i ρ 0 l n ( p i ρ 0 ) E_0(T_k) = -\sum_{i=0}^k\frac{p_i}{\rho_0}ln(\frac{p_i}{\rho_0}) E0(Tk)=−∑i=0kρ0piln(ρ0pi)
- E 1 ( T k ) = − ∑ i = k + 1 L p i 1 − ρ 0 l n ( p i 1 − ρ 0 ) E_1(T_k) = -\sum_{i=k+1}^L\frac{p_i}{1-\rho_0}ln(\frac{p_i}{1-\rho_0}) E1(Tk)=−∑i=k+1L1−ρ0piln(1−ρ0pi)
- 总熵: E ( T k ) = E 0 ( T k ) + E 1 ( T k ) E(T_k) = E_0(T_k) + E_1(T_k) E(Tk)=E0(Tk)+E1(Tk)
- 最佳阈值: T k ∗ = a r g m a x E ( T k ) T_k^* = argmax{E(T_k)} Tk∗=argmaxE(Tk),将最大的熵对应的阈值作为最终阈值。
-
最小交叉熵法
- C E ( T k ) = ∑ i = 1 k T i p i l n ( T i μ 0 ) + ∑ i = k + 1 L T i p i l n ( T i μ 1 ) CE(T_k) = \sum_{i=1}^kT_ip_iln(\frac{T_i}{\mu_0}) + \sum_{i=k+1}^LT_ip_iln(\frac{T_i}{\mu_1}) CE(Tk)=∑i=1kTipiln(μ0Ti)+∑i=k+1LTipiln(μ1Ti)
- 最小化上述公式,得到最优阈值 T k ∗ T_{k^*} Tk∗
数据
-
2013.9的交通事故数据 + 路段几何数据 + 实时检测到的交通数据
-
碰撞风险评估模型使用历史碰撞事故以及与历史碰撞事故相对应的实时检测的交通数据
-
研究车祸发生前半小时的变量,使用车祸发生前的3个路段和5个6分钟间隔,提取车祸发生前半小时的交通数据
-
事故数据与非事故数据的匹配(相同时间、相同地点,相同月份,相同周的某一天,在一个月内的不同周)【为了控制额外的因素:一天中的某个时间、季节、路段特征、驾驶人员】
评价指标
-
Youden’s 指数
- J = Sencitivity + Specificity - 1
- 灵敏度:Sencitivity = TP / (TP +FN) ——将实际是车祸的正确地判定为车祸的比例
- 特异性:Specificity = TN / (TN + FP) ——将实际非车祸的正确地判定为非车祸的比例
- J = Sencitivity + Specificity - 1
-
F-score
- F s c o r e = 2 ∗ P r e c i s i o n ∗ R e c a l l P r e c i s i o n + R e c a l l Fscore = \frac{2*Precision * Recall}{Precision + Recall} Fscore=Precision+Recall2∗Precision∗Recall
- Precision = TP / (TP + FP)
- Recall = TN / (TN + FP)
- F s c o r e = 2 ∗ P r e c i s i o n ∗ R e c a l l P r e c i s i o n + R e c a l l Fscore = \frac{2*Precision * Recall}{Precision + Recall} Fscore=Precision+Recall2∗Precision∗Recall
-
phi 相关系数
-
综合指数
结果分析
模型参数
- TVU2(上游总交通流量)、SVU2(上游交通流量标准差)、ASC2(事故路段平均速度)、SSC2(事故路段速度标准差)、SVD2(下游路段流量标准差)
模型参数估计
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hBqtEyKC-1604300383310)(C:\Users\renco\Desktop\文件夹\CSDN博客\交通安全评价\参数分析.png)]
- 【上游总交通流量】和【上游交通流量标准差】为正,表明上游路段的交通量和交通变化较大会增加车祸风险
- 【事故路段平均速度】为负,表示在事故路段降低速度会增加车祸风险
- 【事故路段速度标准差】为正,表示在事故路段速度变化较大将增大车祸风险
- 【下游路段流量标准差】为正,表示下游路段交通流量增大可能会增加追尾的可能性
阈值选择
通过评价指标评价结果
使用5折交叉法验证结果
最终整体的方案