从sklearn中下载了加利福尼亚的房价模型,可能需要下载。
使用线性回归的方法对数据进行训练。
可以得到每个的系数并且观察每个因素对结果的影响大小。
其中人口数据项有小数点处理过了,其实影响因素特别的小。
from sklearn.linear_model import LinearRegression as LR
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.datasets import fetch_california_housing as fch
import pandas as pd
housevalue = fch()
X = pd.DataFrame(housevalue.data)
y = housevalue.target
X.columns = housevalue.feature_names
Xtrain, Xtest, Ytrain, Ytest = train_test_split(X, y, test_size=0.3, random_state=420)
for i in [Xtrain, Xtest]:
i.index = range(i.shape[0])
reg = LR().fit(Xtrain, Ytrain)
yhat = reg.predict(Xtest)
print(reg.coef_) # 线性回归方程中的系数
print([*zip(Xtrain.columns,reg.coef_)]) # 将系数与对应名称组合起来输出
print(reg.intercept_) # 线性回归中的截距项