2017年河北秦皇岛天气数据的R语言分析报告

1.背景

AQI就是各项污染物空气质量分指数中的最大值。当AQI大于50时,IAQI最大的污染物为首要污染物,若IAQI最大的污染物为两项或两项以上时,并列为首要污染物。空气质量指数,综合表示空气污染程度或空气质量等级的无量纲的相对数值。数据源来自2017月,河北秦皇岛空气质量指数和其他的指标的数据。分析结果表明,2017年河北秦皇岛空气质量指数是在冬季比较高,在夏季比较低。根据相关检验上的p值推断,2017年河北秦皇岛空气质量指数与最高温度 ,最低温度, 天气 ,风向和风力都是有关的。基于最高温度 , 天气 ,风向和风力对空气质量指数进行预测,建立多元线性模型,线性模型的R2是0.9968,预测效果非常的好。

2.数据源说明

数据源来自2017月,河北秦皇岛空气质量指数和其他的指标的数据。

数据集df一共有个365行,10列。

将数据集导入R语言,查看每列的具体的情况

其中数据都是文本类型,需要进行一定的数据预处理的工作,比如将文本转化为数字。主要是最高温度和最低温度。

经过数据处理后,可以查看对应的类型,发现符合我的预期

在这里插入图片描述

3.数据描述

一、描述性统计

空气质量较好/较差?计算每一年的所有空气指标的统计结果
在这里插入图片描述

其中2017年河北秦皇岛天气空气污染情况大多数是优和良

二、单变量分析

基于数据集,绘制空气质量指数,最高温度和最低温度的趋势图。

在这里插入图片描述

基于数据集,绘制天气,风向,风力和空气污染程度的饼图。

在这里插入图片描述
在这里插入图片描述

三、双变量分析

空气质量主要受哪些因素的影响?
我进行相关检验,下面的检验的结果,如果p值小于0.05,说明了显著相关。

在这里插入图片描述

空气质量指数和最高,最低温度有关,是负相关,说明了温度越高,空气质量指数越低,也就是越好,也就是热的时候空气好,降温的时候空气不好,比如经常出现雾霾。

卡方检验,对于双变量的进行卡方检验,如果p值小于0.05,说明了显著相关。

在这里插入图片描述

卡方检验的p值都是小于0.05,说明了空气污染程度和天气,风向,风力显著相关。

双变量作图

在这里插入图片描述

统计建模

怎样预测一个城市的空气质量?基于上面的数据集,做多元线性模型。

在这里插入图片描述

在这里插入图片描述

多元线性模型预测的R2是0.9968

4.结束语

从整体来看,2017年河北秦皇岛空气质量指数是在冬季比较高,在夏季比较低。根据相关检验上的p值推断,2017年河北秦皇岛空气质量指数与最高温度 ,最低温度, 天气 ,风向和风力都是有关的。基于最高温度 , 天气 ,风向和风力对空气质量指数进行预测,建立多元线性模型,线性模型的R2是0.9968,预测效果非常的好。

猜你喜欢

转载自blog.csdn.net/weixin_54707168/article/details/132552971