对于主干路的拥堵态势预测研究

        这个程序是我在研一的时候,当时和世纪高通公司有合作,他们给我提供数据,我来做的一个课题。

        我们的目标是根据已有的交通数据来建立一个拥堵情况预测的模型。整个过程大概可以分为如下步骤:

1、解读原始数据

2、数据的预处理

3、特征工程

4、建模评估

5、测试模型

解读原始数据:

因为之前对于这方面还没有了解,所以面对这些数据是一头雾水的。在原始数据中,给出了道路的名称,时间段,道路类型,车间距离,车速,密度,流量,以及作为标签的拥堵程度指数。在了解这些代表了什么意思,以及把相关的单位都统一之后,便开始进行数据的预处理。

数据的预处理:

原始数据是一段一段的按照时段给出来的,所以先要concat放在一起处理。然后计算一下拥堵指数大体的中位数,标准差,平均值,可以得到标签大致的分布情况。另一方面,就是看一下缺失值,一般都是用相近数据的平均值来填充。针对于异常值似乎没有什么太好的办法。

特征工程:

原始的特征是:车速、车间距、密度、流量、时间段、道路等级,而我们根据日期还补充了当时的天气情况。接下来就是需要对特征进行处理,从而让计算机可以理解。首先是对于量比较大的数据如密度、流量,进行归一化处理。然后再面对天气、时间段以及日期的时候,我们先根据时间分离出了早晚高峰、阴晴雨雪、工作日/假期的特征。然后根据这种情况进行one-hot编码。但是不同的地方在于,工作日/假期,早晚高峰平常时段这些都是对于交通情况有正向或者负向的影响的。所以这一部分也是值得注意的。在进行编码完成之后,就要建立模型进行训练了

建模评估:

在我尝试一些算法之后,使用GBDT和SVM的效果都不错。关于效果我是使用损失函数来计算预测数值和实际数值的损失数值来进行衡量的。

测试模型:

把原始数据中一些没有用于训练的测试集进行比对,来看效果是否好。

猜你喜欢

转载自blog.csdn.net/u010929628/article/details/88532875