初识线性回归(Excel-Python实现)

前言

本篇博客主要是用excel中数据分析功能做线性回归练习。分别选取20、200、2000(或20000)组数据,进行练习。记录回归方程式、相关系数R2 ;
用jupyter编程(不借助第三方库),用最小二乘法,重做第1题;
用jupyter编程,借助skleran,重做第1题。

一、用excel中数据分析功能做线性回归练习

1、在excel中引入数据分析工具

1、用excel打开下载的身高体重文件夹,点击开始——更多——选项,然后点击加载项,转到:
在这里插入图片描述
2、勾选下图的工具库,点击确定:
在这里插入图片描述
3、出现数据分析选项就成功了:
在这里插入图片描述

2、20组数据

1、点击数据分析
在这里插入图片描述
2、选择回归分析
在这里插入图片描述
3、选择数据范围:
在这里插入图片描述
线性回归方程:y=4.128x-152.23
相关系数:R^2=0.3254
在这里插入图片描述

3、200组数据

1、选择数据范围
在这里插入图片描述
线性回归方程:y=3.4317x-105.96
相关系数:R^2=0.31
在这里插入图片描述

4、2000组数据

1、选择数据范围:
在这里插入图片描述
线性回归方程:y=2.9555x-73.661
相关系数:R^2=0.2483
在这里插入图片描述

二、jupyter编程用最小二乘法实现线性回归

1、导入excel表

在这里插入图片描述
新建文本:
在这里插入图片描述

2、20组数据

代码:

import pandas as pd
import numpy as np
import math
#准备数据
p=pd.read_excel('weights_heights(身高-体重数据集).xls','weights_heights')
#读取20行数据
p1=p.head(20)
x=p1["Height"]
y=p1["Weight"]
# 平均值
x_mean = np.mean(x)
y_mean = np.mean(y)
#x(或y)列的总数(即n)
xsize = x.size
zi=((x-x_mean)*(y-y_mean)).sum()
mu=((x-x_mean)*(x-x_mean)).sum()
n=((y-y_mean)*(y-y_mean)).sum()
# 参数a b
a = zi / mu
b = y_mean - a * x_mean
#相关系数R的平方
m=((zi/math.sqrt(mu*n))**2)
# 这里对参数保留4位有效数字
a = np.around(a,decimals=4)
b = np.around(b,decimals=4)
m = np.around(m,decimals=4)
print(f'回归线方程:y = {a}x +({b})') 
print(f'相关回归系数为{m}')
#借助第三方库skleran画出拟合曲线
y1 = a*x + b
plt.scatter(x,y)
plt.plot(x,y1,c='r')

图表:
在这里插入图片描述
回归线方程:y = 4.128x +(-152.2338)
相关回归系数:0.3254

3、200组数据

修改代码:

p1=p.head(200)

图表:
在这里插入图片描述
回归线方程:y = 3.4317x +(-105.959)
相关回归系数为0.31

4、2000组数据

修改代码:

p1=p.head(2000)

图表:
在这里插入图片描述
回归线方程:y = 2.9555x +(-73.6608)
相关回归系数为0.2483

三、用jupyter编程,借助skleran实现线性回归

1、下载skleran库

!pip install scikit-learn  -i https://pypi.tuna.tsinghua.edu.cn/simple

在这里插入图片描述

2、20组数据

代码:

# 导入所需的模块
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression

p=pd.read_excel('weights_heights(身高-体重数据集).xls','weights_heights')
#读取数据行数
p1=p.head(20)
x=p1["Height"]
y=p1["Weight"]
# 数据处理
# sklearn 拟合输入输出一般都是二维数组,这里将一维转换为二维。
y = np.array(y).reshape(-1, 1)
x = np.array(x).reshape(-1, 1)
# 拟合
reg = LinearRegression()
reg.fit(x,y)
a = reg.coef_[0][0]     # 系数
b = reg.intercept_[0]   # 截距
print('拟合的方程为:Y = %.4fX + (%.4f)' % (a, b))
c=reg.score(x,y)    # 相关系数
print(f'相关回归系数为%.4f'%c)

# 可视化
prediction = reg.predict(y)                # 根据高度,按照拟合的曲线预测温度值
plt.xlabel('身高')
plt.ylabel('体重')
plt.scatter(x,y)
y1 = a*x + b
plt.plot(x,y1,c='r')

图表:
在这里插入图片描述
拟合的方程为:Y = 4.1280X + (-152.2338)
相关回归系数为0.3254

3、200组数据

修改代码:

p1=p.head(200)

图表:
在这里插入图片描述
拟合的方程为:Y = 3.4317X + (-105.9590)
相关回归系数为0.3100

4、2000组数据

修改代码:

p1=p.head(2000)

图表:
在这里插入图片描述
拟合的方程为:Y = 2.9555X + (-73.6608)
相关回归系数为0.2483

四、总结

本次对线性回归的计算练习主要使用了三种方法,其中excel表的方法比较直观,但是使用使用jupyter进行编程的话对线性回归公式的理解更加深刻,适合初学者深入理解,而使用sklearn库的话使用内置的库函数则十分方便。总的来说各有优点。

五、参考资料

初识线性回归
Excel和jupyter实现数据的线性回归

猜你喜欢

转载自blog.csdn.net/asdhnkhn/article/details/129618669