How to determine an optimal threshold to classify real-time crash-prone traffic conditions论文笔记

论文背景

实时预测交通事故，阈值选择是关键一步，但目前对阈值选择方面研究很少，部分研究阈值选择也是根据主观因素进行选择的。

主要思想

使用mixed logit 模型根据交通条件预测交通事故发生的概率，使用阈值选择方法根据交通条件自动选择阈值，并与模型的概率进行比较，大于阈值则预测发生事故；否则，不发生。

实验步骤

模型使用 mixed logit 模型，预测事故概率
使用5种方法进行阈值选择
使用5折交叉验证对整个流程进行验证

结论

阈值选择使用Minimum cross-entropy 效果最好

在这里插入图片描述

模型

1.mixed logit 模型

该方法应考虑到影响碰撞风险的变量的影响可能会随着道路路段的不同而变化。
效用函数： $U_{in} = V_{in} + \varepsilon_{in}+\eta_{in}$
- $V_{in} = \beta_{n}X_{in}$ ： $\beta$ 是参数， $X_{in}$ 是属性
- $\varepsilon_{in}$ ：是均值为0的随机项，不依赖基础参数和数据
- $\eta_{in}$ ：是均值为0的随机项，其分布依赖于方案 $i$ 和决策者 $n$

在这里插入图片描述

混合逻辑模型方程 :

2.阈值选择

数据集中车祸风险的直方图使用 $n_1,n_2,\cdots n_i,\cdots , n_L$ 表示，每个碰撞等级发生的概率使用 $T_1, T_2,\cdots ,T_k,\cdots T_L$ 发，其中 $n_i$ 表示碰撞等级为 $i$ 的事件， $L$ 表示碰撞等级的数量。

那么碰撞等级为 $i$ 的事件发生的概率 $p_i = \frac{n_i}{\sum_{i=1}^L}$

双峰直方图阈值选取法
- 利用曲线拟合直方图，选取两个峰值之间的最小值（谷值）作为阈值
P-tile 法
- 碰撞事故数 / 非碰撞事故数的比例
最大类间方差法（Otsu)
- 通过使两个类间的方差最大，选择最优阈值
- 选择 $T (k) = k$ 作为阈值，将数据分为两类： $C_0$ 由【1，k】组成， $C_1$ 由【k+1，L】组成，那么分到 $C_0$ 类的概率 $\rho_0 = \sum_{i=1}^k p_i$ ，分到 $C_1$ 类的概率 $\rho_1 = \sum_{i=k+1}^L p_i = 1-\rho_0$
- 计算类间方差： $\delta^{2}_{B} = \rho_0(\mu_0 - \bar{\mu})^2+\rho_1(\mu_1 - \bar{\mu})^2 = \rho_0\rho_1(\mu_0 - \mu_1)^2$
  - $\mu_0$ ：是 $C_0$ 类的均值， $\mu_1$ ：是 $C_1$ 类的均值， $\bar{\mu}$ ：是整个数据集均值
  - 然后通过最大化 $\delta_B^2$ 的方法， $T_{k^*} = argmax {\delta^2_B}$ ，得到最优阈值 $T_{k^*}$ ，从上述公式可看出，两个均值 $\mu_0,\mu_1$ 隔的越远 $\delta_B^2$ 就越大。
最大熵法

熵的定义： $\sum_pp(x)log(x)$
- 用阈值 $T_K$ 将碰撞风险分布，分为两个概率分布
- $E_0(T_k) = -\sum_{i=0}^k\frac{p_i}{\rho_0}ln(\frac{p_i}{\rho_0})$
- $E_1(T_k) = -\sum_{i=k+1}^L\frac{p_i}{1-\rho_0}ln(\frac{p_i}{1-\rho_0})$
- 总熵： $E(T_k) = E_0(T_k) + E_1(T_k)$
- 最佳阈值： $T_k^* = argmax{E(T_k)}$ ，将最大的熵对应的阈值作为最终阈值。
最小交叉熵法
- $CE(T_k) = \sum_{i=1}^kT_ip_iln(\frac{T_i}{\mu_0}) + \sum_{i=k+1}^LT_ip_iln(\frac{T_i}{\mu_1})$
- 最小化上述公式，得到最优阈值 $T_{k^*}$

数据

2013.9的交通事故数据 + 路段几何数据 + 实时检测到的交通数据
碰撞风险评估模型使用历史碰撞事故以及与历史碰撞事故相对应的实时检测的交通数据
研究车祸发生前半小时的变量，使用车祸发生前的3个路段和5个6分钟间隔，提取车祸发生前半小时的交通数据
事故数据与非事故数据的匹配（相同时间、相同地点，相同月份，相同周的某一天，在一个月内的不同周）【为了控制额外的因素：一天中的某个时间、季节、路段特征、驾驶人员】

评价指标

在这里插入图片描述

Youden’s 指数
- J = Sencitivity + Specificity - 1
  - 灵敏度：Sencitivity = TP / (TP +FN) ——将实际是车祸的正确地判定为车祸的比例
  - 特异性：Specificity = TN / (TN + FP) ——将实际非车祸的正确地判定为非车祸的比例
F-score
- $\frac{2*Precision * Recall}{Precision + Recall}$
  - Precision = TP / (TP + FP)
  - Recall = TN / (TN + FP)
phi 相关系数
综合指数