该论文使用群众源健身追踪数据和机器学习方法分析了街道环境特征对路面跑步的影响!
【论文题目】
The effects of street environment features on road running: An analysis using crowdsourced fitness tracker data and machine learning
【题目翻译】
街道环境特征对路面跑步的影响:使用群众源健身追踪数据和机器学习进行的分析
【期刊信息】
Urban Analytics and City Science 2024, Vol. 51(2) 529–545
【作者信息】
Shuyang Zhang, 清华大学建筑学院,北京,中国
Nianxiong Liu, 清华大学建筑学院,北京,中国 [email protected]
Beini Ma,清华大学建筑学院,北京,中国
Shurui Yan,清华大学建筑学院,北京,中国
【论文链接】
https://doi.org/10.1177/23998083231185589
【关键词】
路面跑步,路面跑步强度,适于跑步的街道,群众源数据,机器学习,随机森林回归
【摘要】
城市街道为路面跑步提供了环境。该研究提出了一种非参数方法,使用机器学习模型来预测路面跑步强度。这些模型是利用来自Keep这一移动运动应用的路线签到数据,以及北京核心区的街道地理信息数据开发的。结果显示,蓝色空间和路径连续性是提高路面跑步强度的最重要因素。天空开放度和街道封闭性有一个最佳设计值,需要在满足道路光照的同时与遮荫达到平衡。同时,提供适当的视觉透视性也很重要。此外,与日常活动不同的是,功能混合和功能密度较高并未对路面跑步强度产生显著的正面影响。本研究提供了关于路面跑步的实证证据,并突出了规划者、景观设计师和城市管理者在设计适于跑步的城市街道时应考虑的关键因素。
【前言】
2.1 路面跑步与健康改善
近期研究发现,并非所有体育活动对人类健康的影响相同,中至高强度的体力活动(MVPA),例如骑自行车和跑步,可以帮助减少身心健康问题的风险,例如心血管疾病、心脏病、帕金森氏病、2型糖尿病、肥胖、抑郁和焦虑(Fang et al., 2018; Lee and Kwan, 2018; Nayor et al., 2021; Yerramalla et al., 2020)。在所有MVPA中,路面跑步因其与城市街道环境的紧密关联而显得尤为突出。大多数MVPA需要专门的运动场地,但路面跑步可以在城市街道、绿道和乡间小道上进行。
城市跑道大致可根据其位置分为三类:街道、公园和游乐场。许多研究者已研究了体育活动与街道和公园环境之间的关系(Chen et al., 2021; Su et al., 2014; Ying et al., 2015)。已注意到城市居民不仅依赖公园,街道也提供了大量的体育活动机会(Lu, 2019; Lu et al., 2018)。通常,公园比街道更环保。然而,由于距离、开放时间或门票访问限制,公园的可达性有限。相比之下,居民可以自由地在街道上锻炼(Bodin and Hartig, 2003)。作为一项重要的运动,路面跑步健康且易于参与。改善城市街道环境可以有效促进路面跑步(Coutts, 2008; Liu et al., 2016)。因此,研究路面跑步强度与街道环境特征之间的关系至关重要(图S1)。
图S1:研究区域内一些道路跑步强度较高的道路环境。
研究表明,高质量的绿蓝空间可以增加市民户外慢跑的机会(Karusisi et al., 2012; Schuurman et al., 2021)。蓝色空间(包括湖泊、河流和景观池塘)被视为一种视觉上吸引人的自然元素,可以促进路面跑步(Huang et al., 2022; 2023; Schuurman et al., 2021; Tan et al., 2021)。研究发现,绿道上的体育活动持续时间与居住地之间的距离有关,临近性会显著增加活动量(Humpel et al., 2004; Owen et al., 2004; Zhang et al., 2013)。而高度功能混合或土地使用混合也可以鼓励体育活动(Chen et al., 2021; Su et al., 2014; Ying et al., 2015)。根据研究,小径连续性是影响路面跑步者运动体验的关键因素(Majumdar et al., 2021)。大多数接受调查的路面跑步者表示,他们不希望路口打断他们的跑步连续性(Schuurman et al., 2021)。此外,高度封闭和黑暗的街道已被证明对行人来说是压抑和不安全的(Nagata et al., 2020),而设有良好照明的道路则可以是明亮和放松的(Schuurman et al., 2021)。
2.2 众包数据和机器学习模型
随着手机GPS定位、加速度计系统和大数据技术的普及,以及机器学习算法的发展,研究方法已经发生了变化。研究从低效的小样本问卷调查转向挖掘新的城市大数据,并从基于问卷数据的统计分析转向使用机器学习模型进行分析(Lu, 2019; Zhou et al., 2019)。这种新方法不仅耗时更少,允许更大的样本量,而且比传统方法更经济(Hoseinzadeh et al., 2020)。路面跑步轨迹和移动健身应用中的签到数据是一种新的、开放的众包数据集,由用户自愿收集和分享(Birenboim et al., 2021; Jankowska et al., 2015; Kwapisz et al., 2011; Vich et al., 2019)。这些数据具有大量的数据量和更精确的地理定位轨迹,没有回忆偏差(Korpilo et al., 2017; Lee and Kwan, 2018)。因此,研究人员可以利用众包数据来获取路面跑步的地理分布和强度。在研究旅游区域内休闲体育的空间分布和强度时,智能手机GPS跟踪与高分辨率卫星图像结合,用于景区的热点区域定位和路径规划(Korpilo et al., 2017)。还有研究利用体育应用中的行为数据来评估城市绿道环境对居民体育活动分布和多样性的影响(Liu et al., 2016)。
机器学习算法的家族已从传统的支持向量机(SVM)、贝叶斯算法和决策树演化为具有高预测准确度的集成学习算法,如随机森林和XGBoost。然而,尽管这些黑盒模型具有高预测性能,它们的可解释性较低,这通常通过使用事后解释来克服。
2.3 关于跑步友好街道的研究不足
在许多研究中探讨了环境特征与公园和街道的可步行性之间的关系(Lu, 2019),但关于道路跑步的研究相对较少。一些研究者尝试开发环境因素与活动强度之间关系的模型。Chen Long 等人使用线性回归分析了基于742个中国城市健身应用数据的休闲体育活动(LTPA)与建筑环境特征之间的相关性,结果表明连通性、道路密度、土地利用混合、兴趣点(POI)密度以及公园和广场密度与LTPA有显著的正向线性关系(Chen et al., 2021)。. No¨ella Karusisi et al.使用层次线性回归模型研究居住环境与慢跑行为之间的关系,发现街区内的慢跑可能性随着水面覆盖比例、公园覆盖率以及绿地和开放空间的存在和质量的增加而增加(Karusisi et al., 2012)。Su Meng 等人使用层次线性回归模型分析了杭州建筑环境与LTPA之间的关系,发现两者之间存在显著相关性(Su et al., 2014)。Zhang Ying 等人使用层次线性回归模型研究了上海中老年人的建筑环境与体育活动、肥胖和健康之间的关系,发现每增加10%的土地利用组合,体育活动增加49%(Ying et al., 2015)。Huang Dengkai 等人通过多层模型以及基于来自Strava的道路跑步数据和赫尔辛基道路跑者的问卷数据的逻辑回归模型,评估了街道环境对道路跑步强度的影响,发现沿海城市的蓝绿空间对跑步有显著积极影响(在这种情况下,蓝色空间主要位于沿海地区)(Huang et al., 2022; 2023)。
道路跑步与其他街头运动(如步行和骑自行车)相比,对环境有不同的要求。传统研究主要分析环境特征与活动强度之间的相关性,依赖于统计分析和层次线性回归模型,未能识别数据背后的特定影响机制(Chen et al., 2021; Karusisi et al., 2012; Su et al., 2014; Ying et al., 2015),因此环境特征与活动强度之间的真实关系并不清楚。
鉴于这些缺陷,本研究使用机器学习算法开发道路跑步强度的预测模型,并提取街道可跑性评估的关键特征。这种非参数机器学习方法允许在不假设任何形式的预测模型的情况下进行预测,而是使用数据提供的信息。这项研究的目标是:(1) 确定影响道路跑步强度的关键环境特征;(2) 比较多元线性回归(MLR)和机器学习模型的预测能力;(3) 理解道路跑步强度与环境特征之间的非线性影响机制,以便为设计(如建筑、道路和绿化的空间形态)提供跑步友好街道的支持。
论文的其余部分组织如下:首先提供数据概览和环境特征的提取。其次,为了构建预测模型,训练和评估不同的机器学习回归模型进行比较,并实施敏感性分析。分析并解释街道环境特征与道路跑步强度之间的影响机制。最后,根据分析结果,提出了可持续的设计指南,以建设跑步友好的街道。
【方法与数据】
3.1 道路跑步强度的数据来源和计算方法
本研究基于北京核心区域的道路跑步强度和街道环境特征。北京是中国的首都,一个内陆城市,夏季炎热多雨,冬季寒冷干燥。其核心区域拥有大量绿色公园和水体,人口密集,是国家政治、文化和国际交流中心的焦点,面积为62.3平方公里,人口为181.5万(北京市统计局,2021)。
图1显示了研究流程图。在数据获取方面,使用了来自Keep的群源轨迹和签到数据来计算道路跑步强度;使用腾讯电子地图和街景图像来获取街道环境特征(图S2);使用中国移动信号数据来获取居民的大致分布。Keep是中国最受欢迎的健身应用之一,截至2017年8月,累计注册用户超过1亿,2020年平均每月活跃用户达到2970万。使用Keep,人们可以追踪他们的锻炼路线,并记录日期、类型(步行、慢跑或骑行)、距离、速度和持续时间,以及在微信等社交媒体平台上分享。
图 1. 研究思路图。
图 S2. 街道环境特征的地理分布
该研究收集了973,000条跑步日志(或签到)在北京核心区域自2017年起创建的178条道路跑步路线上,其中134条为街道类型路线,拥有532,335条日志,分别占路线和日志的75.3%和54.7%。在2020年12月至2021年10月期间,共增加了320,495条跑步日志,其中街道类型路线增加了193,924条,占60.5%(图S3)。这表明街道类型路线不仅是分布最广的路线,还占据了一半以上的户外跑步活动。由于Keep每个用户每天只允许在每条路线上签到一次,路线的道路跑步强度可以使用方程式(1)计算。为了计算各个路段的道路跑步强度,为每个路段创建了50米的缓冲区,并使用WGS 1984 UTM Zone 50N投影坐标系统将路线覆盖并投影到各个路段上。经过校正后,得到了不同路段的道路跑步强度(图2下中)。
图 2. 北京核心区域的位置(左图)。来自Keep网站的原始轨迹数据(右上图)。北京核心区域道路段的跑步频率和居民分布(右下图)
图 S3.在178条路线的公园、街道和操场上,不同时间段内增加的日志(下图)与累计增加的日志(上图)的比较。
3.2 特征提取与分类
根据现有研究(Chen et al., 2021; Su et al., 2014; Ying et al., 2015),被认为可能影响 Freq run 的环境特征被视为潜在预测因子。为了进行特征提取,将手机信号数据、兴趣点(POI)数据、关注区域(AOI)数据、道路网络数据和建筑数据导入到 ArcGIS 中,以进一步统计居民人口密度、功能密度和混合度、与绿蓝空间的距离、每个道路段的宽度和长度、道路交叉口密度、建筑密度和街道墙连续性(Harvey et al., 2017)。使用每个道路段的腾讯街景(TSV)图像,通过 SegNet(一种图像的语义分割算法,Li et al., 2022)提取天空、建筑和树木的像素比例。TSV 图像还用于计算包含老建筑的图像比例。根据 TSV 图像和 AOI 数据中的绿蓝空间,确定了水边道路段。最后,对每个道路段进行了 500 米的空间整合计算,通过 Depthmap 完成。
表 1 详细说明了每个特征的数据来源和计算方法。特征可分为五类:人口特征、功能特征、自然特征、形态特征和人类尺度特征(Jiang et al., 2022)。形态特征与街道空间形态有关。人类尺度特征接近人类视角,包括由天空、建筑、树木和老旧立面所代表的街景视觉感知元素的比例。所有特征都是连续变量,除了水边步道段外。此外,根据规范(GB50180: 2018, 2018)中规定的十分钟步行距离,为每个道路段建立了500 米缓冲区,作为服务区域,服务于周围居民。
表 1. 特征的数据来源和计算方法
3.3 模型开发
本节提供了构建、训练和评估 Freq run 预测模型的详细工作流程。它包括数据预处理、特征和算法选择、超参数设置和优化,以及模型验证、评估和比较。在特征选择中,首先剔除了在皮尔逊相关性分析中 p 值大于 0.05 的变量,然后使用梯度提升决策树(GBDT)模型进行初步预测因子选择(见图 1)。在训练模型之后,基于它们的预测性能评估了多元线性回归(MLR)和机器学习回归算法。进一步分析了各种回归模型的学习曲线和交叉验证结果,并根据测试样本的均方根误差(RMSE)选择了最佳算法。本节基于 Scikit-Learn 版本 1.0.2(Pedregosa et al., 2011)开发,这是一个广泛使用的机器学习算法库。
3.4 数据预处理和预测因子选择
数据预处理包括数据清洗、特征的描述性统计(表 S2)、相关性分析、数据规范化、预测因子选择和数据分割。在观察数据特性后,为避免极端值的影响并确保样本具有代表性,保留了长度超过100米的道路段,最终得到959个道路段样本。可以基于皮尔逊相关系数(pcc)(见图 3)确定特征与 Freq run 的相关性。其中,p 值大于 0.05 的特征,即 500 米整合度,被剔除。
在预测因子选择方面,通过 Scikit-learn 库中的 SelectFromModel 类下的基于树的特征选择方法,基于 GBDT 模型获得了四个对 Freq run 有显著影响的初步预测因子(道路段长度、水边步道段、交叉口密度和居民密度)。以这些初步预测因子为参考,根据模型在测试集上的得分调整了六个回归模型的预测因子集(表 2)。
表 S2. 描述性统计。(样本量 = 959,最小-最大规范化之前)。
图 3. 特征与Freq run 之间的皮尔逊相关系数。(仅标记了 Freq run 的显著性)。
表 2.回归模型的结果。
3.5 算法选择与模型设定
在多元线性回归(MLR)模型中,独立变量的 p 值大于 0.05 需要被剔除。并且独立变量之间不能存在多重共线性。如果方差膨胀因子(VIF)大于 5,则独立变量存在多重共线性。
对于机器学习算法,考虑到模型复杂性和训练时间,选择了五种擅长处理结构化数据的集成学习算法进行预测,而不是选择深度学习算法。这五种算法都是基于树的模型,以决策树(DT)为子模型,分为两种类型:装袋法和提升法。装袋法包括随机森林(RF)和极端随机树(ET),提升法包括 AdaBoost、LightGBM和 XGBoost。训练集与测试集的比例为 8:2。
对于预测问题,模型的泛化性能和预测准确性是调整时的重要考虑因素。在构建基于树的模型时,必须确定几个关键的超参数,如决策树的深度和数量。为了优化影响泛化性能和预测准确性的超参数,本研究依赖于带有 10 折交叉验证的网格搜索方法来确定最佳的超参数组合。模型的最终参数设置显示在表 S1 中。
表 S1.参数设置
3.6 模型评估
为了评估模型,本研究使用 R 平方(方程(2))比较了测试集的模型,并基于 RMSE(方程(3))绘制学习曲线。此外,使用随机“洗牌分割交叉验证”(100次分割,分割比例为8:2)和 R 平方作为度量标准,调查了六个模型的泛化能力。随机交叉验证得分相对稳定,可以避免由于数据集分割不均导致的偶然情况,提供无偏误差估计。RMSE 衡量模型预测值和真实值之间的误差。学习曲线表示随着样本量增加,训练集和测试集的RMSE 变化情况。
【结果与讨论】
3.7 模型结果与比较
表 2展示了六个回归模型中独立变量的标准化系数或重要性。标准化系数和重要性的绝对值越大,该独立变量的权重越大。表 S3 比较了六个模型的得分。随机森林回归(RFR)模型在六个模型中表现最好,而多元线性回归(MLR)模型表现最差。与 MLR 模型相比,RFR 模型的 RMSE 降低了17.57%,R 平方提高了 17.86%。
表 2.回归模型的结果。
表 S3 比较了六种模型的得分。随机森林回归(RFR)模型在六个模型中表现最佳,而多元线性回归(MLR)模型表现最差。与 MLR 模型相比,RFR 模型的RMSE 降低了 17.57%,R 平方提高了 17.86%。
表 S3.回归模型比较(样本量为959)。
图 S4展示了六个模型的学习曲线。当样本量少于 340 时,RFR 模型在测试集上的表现不如 MLR 模型。当样本量大于 340 时,RFR 模型测试集的 RMSE 逐渐减少,预测效果逐渐改善,而 MLR 模型测试集的 RMSE 趋于稳定在 0.074 左右。因此,集成学习算法在较大样本量时有更大的改进潜力。然而,由于装袋算法比提升算法更能避免模型过拟合,使用测试集验证时装袋方法的表现优于提升方法。学习曲线的结果表明,RFR 模型是预测道路段行驶强度的最佳模型。
图 S4. 回归模型的学习曲线(使用最小-最大规范化)。
3.8 敏感性分析与偏依赖图讨论
敏感性分析有助于评估预测因子对因变量的影响程度,并识别关键特征。敏感性分析包括特征重要性分析和偏依赖图(PDP)分析。如表2所示,在RFR模型中,水岸、潜在的道路跑者数量、小径连续性、街道界面封闭性和天空开放度都对道路跑步强度有显著影响,影响程度依次递减。墙体连续性影响建筑物、墙体和其他结构对公共空间的封闭。TSV sky可以反映街道环境的天空开放度。
表 2.回归模型的结果。
偏依赖图(PDP)可用于绘制因变量和自变量之间的依赖关系,以便通过提供自变量每个可能值的平均响应来解释机器学习模型(Friedman, 2001)。PDP还与个体条件期望(ICE)图叠加,后者也显示了目标函数和感兴趣的输入特征之间的依赖关系,但通过每个样本单独一条线显示预测对特征的依赖。
图4基于RFR模型展示了PDP,显示了特征与道路跑步强度之间的非线性关系。由于水岸小径部分是一个具有较强影响力的二分变量,在PDP中包括它将导致在其他特征的影响下Freq run的变化不显著,因此从PDP分析中排除。
根据单向PDP(图4(b)),当道路段长度超过400米时,Freq run显著增加,显示了路跑者对连续小径的偏好。
图 4. RFR模型的敏感性分析与偏依赖图。
(a)特征重要性排名,(b)特征的单向偏依赖图
当Junction density在[20, 30](1/km²)范围内时,Freq run减少,而在[30, 40](1/km²)范围内达到最小值并保持稳定;当Junction density密度在[40, 50](1/km²)范围内时,Freq run略有增加并再次保持稳定。
对于TSVsky,当其小于0.17时,对Freq run的影响较小,因为道路相对封闭且昏暗;当TSVsky大于0.17时,Freq run明显增加。当TSVsky达到0.23时,Freq run最为有利,因为道路光线充足,周围建筑和树木提供了适宜的遮荫。当TSVsky超过0.23时,对遮荫的需求超过了对阳光的需求,Freq run倾向于再次下降。这表明天空开放度对道路跑步有一个最佳值。
当Resident density超过每平方公里10,000人时,Freq run的增加显而易见。在[0, 1](10,000/km²)区间内,Resident density约4000人/km²时,Freq run明显局部增加,但整个区间内Freq run的增加有限。
当Wall continuity小于0.1时,Freq run明显增加。而Wall continuity大于0.1后,Freq run逐渐减少。这表明墙体连续性有一个最佳值。
对于Function mix,与之前的研究结论相反,这些研究认为功能混合度高的道路鼓励更多活动(Chen et al., 2021; Su et al., 2014; Ying et al., 2015),在RFR模型中功能混合的影响不显著。
【实际应用和局限性】
本文旨在研究街道环境特征对道路跑步的影响,以及道路跑步强度与环境特征之间的非线性影响机制,以便为设计跑步友好的街道提供指导。
关于设计指南,对于内陆城市,水岸对道路跑步强度仍有显著影响(Huang et al., 2023)。因此,在规划跑步小径和设计街道环境时,尽可能利用蓝色空间,并在公园内的水体与外部街道之间尽可能使用围栏,以便共享蓝色空间资源。其次,当居民达到每平方公里10,000人时,道路跑步的提升明显,因此路线规划需要考虑居民密度高的街区,以增加跑步小径的使用。第三,更长的道路段可以减少由交叉口引起的中断,这有助于跑步的连续性和体验,可以通过提供斜坡式人行天桥或设计围绕街区的环形跑步小径来改善连续性,而不降低可达性(Huang et al., 2022)。
Wall continuity和TSVsky在PDP中有峰值,这表明这些街道环境特征有一个最优值。第四,TSVsky在0.23时最佳,因此街道横截面的高宽比有一个设计最优值。在确保街道光线充足的同时,街道的建筑和树木需要提供一些遮荫。对于较宽的街道,可以增加必要的行人设施和遮荫,并安装慢行系统以改善街道环境。第五,街道墙体的比例有一个设计最优值,建筑需要提供一定程度的视觉封闭和穿透(Ewing and Handy, 2009; Yin and Wang, 2016)。良好的封闭将提供一个舒适、有遮荫的环境(Tang and Long, 2017)。街道封闭可以通过设计建筑悬挑、使用树篱或围栏以及种植树木来调节。
与日常活动相比,高功能混合并不对道路跑步强度产生积极影响。高功能混合还会增加街道上的人流和混乱,这是喜欢安静路径的路跑者所不喜欢的。值得注意的是,在考虑了水岸特征后,TSVtree的效果变弱了。一种解释是水岸区域往往有大量植被;另一方面,可能是由于街景图像获取的时间点,因为在寒冷的北京冬季,大多数树叶都会掉落。因此,街道绿化对道路跑步强度的影响机制仍需探索。
此外,鉴于众包数据、TSV图像和PDP的特点,本研究存在以下局限性:(1)尽管Keep有庞大的用户基础,但它不包括使用其他运动应用、运动手环或隐藏运动数据的道路跑者(Janssen et al., 2020)。(2)TSV图像是由安装在沿街道行驶的车辆顶部的摄像机拍摄的,因此无法提供基于行人的视角。(3)PDP和ICE图在数据量低的区间容易过度解读。
【结论】
在模型开发过程中,得出了几个关键结论。蓝色空间对道路跑步强度有显著的积极影响,这可以归因于植被和水体提供的安全感和心理恢复(Hug et al., 2009; Lee and Kwan, 2018; Pasanen et al., 2019)。居民密度的增加显著提高了道路跑步强度。此外,具有较长路段和较少交叉口的小径,交通干扰较少,活动强度较高。
PDP显示了RFR模型中TSVsky和Wall continuity的非线性趋势线。当天空开放度超过17%后,道路跑步强度增加,而当开放度超过23%后逐渐减少。当街道墙体连续性小于0.1时,鼓励视觉封闭;当街道墙体连续性大于0.1时,鼓励视觉穿透。高功能混合可能会吸引更多人,引起人流,使小径对道路跑者的吸引力降低。
主要贡献如下:(1)确定了影响道路跑步的关键街道环境特征。(2)对于内陆城市,蓝色空间仍然是增加道路跑步强度的最重要因素。(3)研究了街道环境特征与道路跑步强度之间的非线性关系,并提供了设计指南。
户外跑步不仅是一种生活方式,也反映了城市居民对城市公共开放空间的环境健康和质量的要求。作为分布最广泛和最活跃的跑步小径类型,道路小径具有研究相关性和优化价值。研究跑步友好的街道可以帮助规划师、景观设计师和城市管理者改善跑步小径的环境和分布。这可以激发居民的体育活动,促进社会健康资源的公平性,并促进健康城市的发展和实施。