预测通过拥挤道路所需的时间论文_赵璐,赵佳亮,张妍

华北理工大学数学建模创新实验室

摘要：交通拥堵会使得大量的时间资源被浪费，因此如何对拥堵时间进行合理预测是一个至关重要的问题。本文以世界著名拥堵公路洛杉矶的405洲际公路为研究对象，对拥堵时间进行预测。首先，采集关于405洲际公路的交通数据，并对数据进行特征提取与标准化处理。由于采集数据具有不均衡性，故采用Smote过采样使训练集的数据变得均衡，为建立准确的预测模型奠定基础。然后，对交通状况进行分类。将训练好的CART分类树用于测试，将道路状况分为拥堵与畅通两类，其AUC值为0.6704，该分类模型较优。最后，以道路状态是拥堵为前提，将拥堵数据用于训练KNN模型，预测后的拥堵时间为[4.2h-4.8h]，并对预测模型进行RMSE误差分析，RMSE值为0.396，该模型精度较高。

关键词：拥堵时间的预测；CART分类；KNN预测模型

一、引言

在交通堵塞的情况下，如何较为准确地预测交通堵塞的时间，需解决以下2个问题：

（1）明确“堵塞”的定义，建立一个分类模型；

（2）建立预测模型得出堵塞时间；

首先，对405洲际公路的交通数据进行数据处理与特征提取。考虑到洛杉矶工作日的交通数据远多于节假日交通数据，采集到的数据样本处于不均衡状态，故先对其进行Smote处理，以促进数据平衡。然后，基于处理后数据进行Cart分类，将道路状态分为堵塞状态与畅通状态，最后将在堵塞状态下建立KNN预测模型，预测堵塞时间。

二、模型的求解与建立

2.1模型准备

2.1.1数据处理

本文以洛杉矶405洲际公路交通数据为数据源，前期采集数据样本时发现405洲际公路在工作日时，交通数据变化很小，而在节假日时，交通数据会发生较大的波动[1]，如2018年感恩节405洲际公路遭遇特大型堵车，车流密度达到顶峰。而收集到的数据样本情况为：工作日数据样本远多于节假日数据样本。

首先对所有数据进行标准化处理。为了不忽略节假日数据样本的影响，将采集的交通数据样本中的80%作为训练集，基于Smote算法对其进行处理，以解决数据不均衡问题。将20%交通数据样本保留，作为测试集以便于后续建立的模型能够进行测试[2]。

2.1.2特征提取

查阅相关文献[3]，从中提取5个衡量道路状态的关键特征值，用于对道路状态进行判别并预测拥堵时间：

（1）交通量：分析单位截面上交通参与者数量；

（2）车速：车速的降低幅度会直接反应道路的堵塞程度；

（3）车流密度：单位长度路段上，一个车道某一瞬时的车辆数。

（4）排队长度：直接反应道路堵塞程度；

（5）路段饱和度：交通状态判别精确，基于交通量可计算得出。

2.2CART分类

根据数据处理中所选训练集，从根节点开始，递归地对每个节点进行以下操作，构建二叉决策树。设结点的训练集为D，计算前期提取的5个特征对该数据集的Gini系数。此时，对每一个特征A，对其可能取得每个值为a，根据样本点对A=a的测试为“拥堵”或“畅通”将D分隔为和两部分，计算A=a时的Gini系数。计算公式如下：

（1）

通过计算5个特征的Gini系数对训练集进行分类，分类系统最终识别出四种结果：

表1：分类结果

TP表示数据样本处于拥堵状态，分类结果为拥堵状态；

FP表示数据样本处于畅通状态，分类结果为拥堵状态；

TN表示数据样本处于畅通状态，分类结果为畅通状态；

FN表示数据样本处于拥堵状态，分类结果为畅通状态。

其中：

（1）G-Mean值：

（2）

代入数据计算得到G-Mean=0.655

（2）F-Measure值：

（3）

其中：

代入数据计算得到F-Measure=0.757

（3）ROC曲线及AUC值：

以TPR为y轴，以FPR为x轴，可直接得到ROC曲线。如下图所示：

图1：ROC曲线

TPR越高，FPR越小，所建模型就越高效。即ROC曲线越靠近左上越好。如上图所示。从几何的角度讲，ROC曲线下方的面积越大越大，则模型越优。所以也用ROC曲线下的面积，即AUC值来作为判断模型好坏的标准。

2.3建立KNN模型

2.2.1模型建立

KNN用于预测回归问题，通过数据样本间的某些相似特征来进行预测未知元素的值。在该问题中，训练集包括800个堵车时间的交通特征数据，对于测试集的200个数据，计算每一个堵车时间与训练集中800个堵车时间的距离远近，从中选出距离最近的K个样本，然后对K个样本的目标值去均值即可作为新样本的预测值。具体步骤如下：

Step1：采用欧氏距离计算待测点到已知点的距离,对新来的预测实例寻找K近邻。

Step2：选择K值，K值代表最近邻的个数，k值的选择对预测结果有较大影响。本文假设K=5，进而得最终预测结果，具体计算公式为：

（4）

2.2.2误差分析

均方根误差是用来衡量观测值与真值之间的偏差，故将利用KNN算法所得的预测拥堵时间与实际拥堵时间进行均方根误差检验，进而判断KNN模型预测精度。计算公式如下：

（5）

将数据代入公式计算得出均方根误差值为0.396。为更加直观地掌握预测拥堵时间与实际拥堵时间的波动幅度，作图如下：

观察图3可知，预测拥堵时间为[4.2h-4.8h]。KNN的RMSE值为0.396，其值较小，说明预测时间与实际情况相差较小，模型预测结果较为准确。

图2：误差分析图

2.2.3结果分析

通过计算得到的均方根误差可以看出，KNN模型对于汽车拥堵时间的预测较为准确。预测得到的拥堵时间范围稳定在[4.2h-4.8h]，与实际情况吻合程度良好，模型准确度较高。

三、结语

预测拥堵时间所建立的KNN模型，其预测指标几乎包括所有的重要因素，较完整地反映了道路拥堵状况，且将该模型应用于不同的城市时，误差较小，说明模型具有普适性。但在KNN选取阈值时可能选取的并不是最好的阈值，具有一定的局限性。

参考文献

[1]肖莹光.洛杉矶城市空间特征浅析[J].国际城市规划,2015,30(04):79 -87.

[2]王忠震,黄勃,方志军,高永彬,张娟.改进SMOTE的不平衡数据集成分类算法[J].计算机应用,2019,39(09):2591-2596.

[3]韩羽.基于出租车GPS数据的交通拥堵持续时间评估方法研究[D].长安大学,2018.

论文作者:赵璐,赵佳亮,张妍

论文发表刊物:《基层建设》2019年第30期

论文发表时间:2020/3/16

标签：数据论文; 模型论文; 样本论文; 时间论文; 状态论文; 交通论文; 误差论文; 《基层建设》2019年第30期论文;

预测通过拥挤道路所需的时间论文_赵璐,赵佳亮,张妍

猜你喜欢