sklearn 모듈 상세

면책 조항 :이 문서는 블로거 원본입니다, 추적 에 의해-SA의 CC 4.0 저작권 계약, 복제, 원본 소스 링크이 문을 첨부 해주세요.
이 링크 : https://blog.csdn.net/weixin_42297855/article/details/97917976

import sklearn

linear_model

자세한 일반화 선형 모델

  1. .LinearRegression(fit_intercept=True, normalize=False, copy_X=True, n_jobs=None)
  2. .Ridge(alpha=1.0, fit_intercept=True, normalize=False, copy_X=True, max_iter=None, tol=0.001, solver=’auto’, random_state=None)
  3. .RidgeCV(alphas=(0.1, 1.0, 10.0), fit_intercept=True, normalize=False, scoring=None, cv=None, gcv_mode=None, store_cv_values=False)
  4. .Lasso
  5. .MultiTaskLasso
  6. .ElasticNet
  7. .MultiTaskElasticNet
  8. .LassoLars
  9. .OrthogonalMatchingPursuit 또는 .orthogonal_mp
  10. .BayesianRidge
  11. .ARDRegression
  12. .LogisticRegression
  13. .SGDClassifier(loss=’hinge’, penalty=’l2’, alpha=0.0001, l1_ratio=0.15, fit_intercept=True, max_iter=1000, tol=0.001, shuffle=True, verbose=0, epsilon=0.1, n_jobs=None, random_state=None, learning_rate=’optimal’, eta0=0.0, power_t=0.5, early_stopping=False, validation_fraction=0.1, n_iter_no_change=5, class_weight=None, warm_start=False, average=False)

loss: 분류 손실 함수 : '경첩', '로그' , '퍼셉트론을'squared_hinge '을'modified_huber을 '; 반사 손실 기능 :'squared_loss ','후버 ','epsilon_insensitive '또는'squared_epsilon_insensitive '
penalty: 페널티 조건, 기본 L2
max_iter: 반복의 최대 수입니다.

  1. .SGDRegressor(loss=’squared_loss’, penalty=’l2’, alpha=0.0001, l1_ratio=0.15, fit_intercept=True, max_iter=1000, tol=0.001, shuffle=True, verbose=0, epsilon=0.1, random_state=None, learning_rate=’invscaling’, eta0=0.01, power_t=0.25, early_stopping=False, validation_fraction=0.1, n_iter_no_change=5, warm_start=False, average=False)

loss: 약간.

  1. .Perceptron
  2. .PassiveAggressiveClassifier
  3. .HuberRegressor

방법

다음 clf, 상기 생성은 분류를 의미 회귀이다.

  1. clf.fit(X_train,y_train)
  2. clf.predict(X_test)

재산

  1. clf.coef_: 아주 여러 가지 요인.
  2. clf.intercept_: 정수 계수.
  3. clf.decision_function: 의사 결정 기능

discriminant_analysis

판별 분석
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as LDA : 선형 판별 분석
from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis as QDA: 차 판별 분석

  1. LDA(solver=’svd’, shrinkage=None, priors=None, n_components=None, store_covariance=False, tol=0.0001)
  • 매개 변수

solver: : svd특이 값 분해, 공분산 행렬을 계산하지 않는 기본 해결사, 그것은이 기능의 큰 숫자를 갖는 데이터를 권장합니다. lsqr: 최소 제곱 솔루션입니다. eigen: 고유치 분해.
shrinkage: 수축이 적은 경우의 기능의 수보다 트레이닝 샘플의 공분산 행렬의 추정을 개선 할 수있다. 당신은에 제공 될 수있다 auto, 또는 [0,1] 수. 로 지정된 auto필요한 경우 sover로 설정 lsqr하거나 eigen.

그림은 온다 Sklearn 공식 문서를 다른 샘플 크기로 수축의 성능에 대한.
여기에 그림 삽입 설명

priors
n_components: 범주의 수
store_covariance
tol: 순위 및 예상 임계 값을 해결하기위한 SVD.

  • 재산

coef_ :
무게 벡터 (들).

intercept_ :
인터셉트 용어.

covariance_ :
(모든 클래스에 의해 공유) 공분산 행렬.

explained_variance_ratio_ :
선택된 부품의 각각에 의해 설명 분산의 백분율. n_components 설정되지 않는 모든 구성 요소가 저장되어 합이 차이를 설명하면 1.0과 동일하다. 만 고유 또는 SVD 솔버를 사용하는 경우 사용할 수 있습니다.

means_ : 어레이 형 모양 (n_classes, n_features)
클래스를 의미한다.

priors_ : 어레이 형 모양 (n_classes)
클래스 전과 (1 합).

scalings_ : 어레이 형 모양 (랭크 n_classes - 1)
클래스의 무게 중심에 의해 스팬 된 공간에 기능 스케일링.

xbar_ : 어레이 형 모양 (n_features)
전체의 평균.

classes_ : 배열과 같은 모양 (n_classes)
고유 클래스 레이블입니다.

  • 방법

decision_function (자기, X) 샘플에 대한 신뢰 점수를 예측하고있다.
주어진 트레이닝 데이터 및 파라미터에 따른 착용감 (자체, X, Y)에 맞추기 LinearDiscriminantAnalysis 모델.
fit_transform 데이터에 맞추기 (자체, X [Y])는, 다음 변환.
get_params이 추정기 (자기 [깊은]) 가져 매개 변수를 설정합니다.
예측 (자기, X)는 X에서의 샘플 클래스 레이블을 예측
predict_log_proba (자기, X) 추정 로그 확률.
predict_proba (자기, X) 추정 확률.
점수는 (자체, X, Y [sample_weight])는 주어진 테스트 데이터 및 라벨에 의미 정확성을 돌려줍니다.
set_params (자기, ** PARAMS)이 추정의 매개 변수를 설정합니다.
클래스의 분리를 최대화하기 위해 (자기, X) 프로젝트 데이터를 변환.

  1. QDA(priors=None, reg_param=0.0, store_covariance=False, tol=0.0001)


.kernel_ridge

from sklearn.kernel_ridge import KernelRidge

  1. KernelRidge(alpha=1, kernel=’linear’, gamma=None, degree=3, coef0=1, kernel_params=None)


.svm

from sklearn import svm

분류

  1. svm.SVC(C=1.0, kernel=’rbf’, degree=3, gamma=’auto_deprecated’, coef0=0.0, shrinking=True, probability=False, tol=0.001, cache_size=200, class_weight=None, verbose=False, max_iter=-1, decision_function_shape=’ovr’, random_state=None)

C
kernel: 커널을 지정합니다 : linear, polynomial, rbf, sigmoid. 또한 사용자 정의 커널이 될 수 있습니다.
degree:하면 kernel지정된 polynomial시간에 지정된 다항식.
gamma: kernellinear시간 지정 C \감마 값.
coef0: 때kernel이다polynomial또는sigmoid시 R 지정된 값.
shrinking
probability
tol
cache_size
class_weight다음 Fit에있어서, 샘플의 불균형을 제공한다.
verbose
max_iter
decision_function_shape:ovo하나를 나타냅니다가ovr, 나머지 한 쌍을 나타냅니다
random_state: 약간


  1. svm.NuSVC(nu=0.5, kernel=’rbf’, degree=3, gamma=’auto_deprecated’, coef0=0.0, shrinking=True, probability=False, tol=0.001, cache_size=200, class_weight=None, verbose=False, max_iter=-1, decision_function_shape=’ovr’, random_state=None)

  1. svm.LinearSVC(penalty=’l2’, loss=’squared_hinge’, dual=True, tol=0.0001, C=1.0, multi_class=’ovr’, fit_intercept=True, intercept_scaling=1, class_weight=None, verbose=0, random_state=None, max_iter=1000)

반환

  1. svm.SVR(kernel=’rbf’, degree=3, gamma=’auto_deprecated’, coef0=0.0, tol=0.001, C=1.0, epsilon=0.1, shrinking=True, cache_size=200, verbose=False, max_iter=-1)

  1. svm.NuSVR(nu=0.5, C=1.0, kernel=’rbf’, degree=3, gamma=’auto_deprecated’, coef0=0.0, shrinking=True, tol=0.001, cache_size=200, verbose=False, max_iter=-1)

  1. svm.LinearSVR(epsilon=0.0, tol=0.0001, C=1.0, loss=’epsilon_insensitive’, fit_intercept=True, intercept_scaling=1.0, dual=True, verbose=0, random_state=None, max_iter=1000)

등록 정보 :
support_vectors_
support_
n_support
.decision_function
dual_coef_ : 나는 나는 y_i \ alpha_i 또는 나는 - 나는 * \ alpha_i - \ alpha_i ^ *
intercept_: 약간



.neighbors

  1. .NearestNeighbors(n_neighbors=5, radius=1.0, algorithm=’auto’, leaf_size=30, metric=’minkowski’, p=2, metric_params=None, n_jobs=None, **kwargs)

n_neighbors: 몇 가지 최근의 샘플을 분류하기 위해 선택 이웃의 수.
radius
algorithm: 알고리즘 : '자동', 'ball_tree' , 'kd_tree', 'brute`


  1. .KDTree

  1. .BallTree

방법 :



.나무

  1. .DecisionTreeClassifier(criterion=’gini’, splitter=’best’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, class_weight=None, presort=False)

  1. .DecisionTreeRegressor(criterion=’mse’, splitter=’best’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, presort=False)

방법 :
clf.predict_proba([[2., 2.]]): 같은 클래스에서 훈련 샘플의 점수를 잎 각 클래스의 확률을 예측



.앙상블

통합 학습

  1. .AdaBoostRegressor(base_estimator=None, n_estimators=50, learning_rate=1.0, loss=’linear’, random_state=None)

n_estimators: 기본 학습자의 수
base_estimator: 기본 유형을 학습, 기본.tree.DecisionTreeRegressor(max_depth=3)


  1. .AdaBoostClassifier(base_estimator=None, n_estimators=50, learning_rate=1.0, algorithm=’SAMME.R’, random_state=None)
  2. .BaggingClassifier(base_estimator=None, n_estimators=10, max_samples=1.0, max_features=1.0, bootstrap=True, bootstrap_features=False, oob_score=False, warm_start=False, n_jobs=None, random_state=None, verbose=0)
  3. .BaggingRegressor(base_estimator=None, n_estimators=10, max_samples=1.0, max_features=1.0, bootstrap=True, bootstrap_features=False, oob_score=False, warm_start=False, n_jobs=None, random_state=None, verbose=0)
  4. .RandomForestClassifier(n_estimators=’warn’, criterion=’gini’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=’auto’, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, bootstrap=True, oob_score=False, n_jobs=None, random_state=None, verbose=0, warm_start=False, class_weight=None)
  5. .RandomForestRegressor(n_estimators=’warn’, criterion=’mse’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=’auto’, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, bootstrap=True, oob_score=False, n_jobs=None, random_state=None, verbose=0, warm_start=False)
  6. .ExtraTreesClassifier(n_estimators=’warn’, criterion=’gini’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=’auto’, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, bootstrap=False, oob_score=False, n_jobs=None, random_state=None, verbose=0, warm_start=False, class_weight=None)
  7. .ExtraTreesRegressor(n_estimators=’warn’, criterion=’mse’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=’auto’, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, bootstrap=False, oob_score=False, n_jobs=None, random_state=None, verbose=0, warm_start=False)
  8. .VotingClassifier(estimators, voting=’hard’, weights=None, n_jobs=None, flatten_transform=True)

voting: 그것은 연성 법은 상대 다수결을 나타내는 경우, 가장 많은 표를 선택 하드 기본값은 절반 이상이 투표를 선택, 절대 다수결을 나타냅니다.

  1. .VotingRegressor(estimators, weights=None, n_jobs=None)[source]
  2. .GradientBoostingClassifier(loss=’deviance’, learning_rate=0.1, n_estimators=100, subsample=1.0, criterion=’friedman_mse’, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_depth=3, min_impurity_decrease=0.0, min_impurity_split=None, init=None, random_state=None, max_features=None, verbose=0, max_leaf_nodes=None, warm_start=False, presort=’auto’, validation_fraction=0.1, n_iter_no_change=None, tol=0.0001)
  3. .GradientBoostingRegressor(loss=’ls’, learning_rate=0.1, n_estimators=100, subsample=1.0, criterion=’friedman_mse’, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_depth=3, min_impurity_decrease=0.0, min_impurity_split=None, init=None, random_state=None, max_features=None, alpha=0.9, verbose=0, max_leaf_nodes=None, warm_start=False, presort=’auto’, validation_fraction=0.1, n_iter_no_change=None, tol=0.0001)
  4. .HistGradientBoostingClassifier(loss=’auto’, learning_rate=0.1, max_iter=100, max_leaf_nodes=31, max_depth=None, min_samples_leaf=20, l2_regularization=0.0, max_bins=256, scoring=None, validation_fraction=0.1, n_iter_no_change=None, tol=1e-07, verbose=0, random_state=None): 효과보다 더 많은 양의 데이터 GradientBoostingClassifier보다.
  5. .HistGradientBoostingRegressor(loss=’least_squares’, learning_rate=0.1, max_iter=100, max_leaf_nodes=31, max_depth=None, min_samples_leaf=20, l2_regularization=0.0, max_bins=256, scoring=None, validation_fraction=0.1, n_iter_no_change=None, tol=1e-07, verbose=0, random_state=None)


.feature_selection

.VarianceThreshold(threshold=0.0)?



.preprocessing

from sklearn import preprocessing

데이터 표준화

  1. preprocessing.StandardScaler()
    이 표준은 기본적으로 원본 데이터는 평균과 표준 편차를 유지하며, 또한 표준화 된 테스트 데이터에 역할을 할 수 있습니다.
    예 :
scaler = preprocessing.StandardScaler().fit(X_train) 
X_test_transformed = scaler.transform(X_test)
  1. preprocessing.scale(X_train)표준 정규 분포로 데이터.
  2. min_max_scaler = preprocessing.MinMaxScaler()에서 [0,1]로 전환 데이터
    실시 예 :
min_max_scaler = preprocessing.MinMaxScaler()
X_train_minmax = min_max_scaler.fit_transform(X_train)
X_test_minmax = min_max_scaler.transform(X_test)
  1. max_abs_scaler = preprocessing.MaxAbsScaler()동일한 MinMaxScaler 사용 범위는 [-1,1]진다

기능 코딩

1. preprocessing.OneHotEncoder
2. preprocessing.OrdinalEncoder
3.preprocessing.LabelEncoder

model_selection

from sklearn import model_selection

데이터 세트를 분할

  1. X_train, X_test, y_train, y_test = model_selection.train_test_split(data,target, test_size=0.4, random_state=0,stratify=None)

test_size: 테스트 설정 비율
n_splitsk 번째의 분할을 위해, K의 값 :
stratify: 가변 성층 샘플링의 유형에 따라 성층 가변 분포를 지정한다.

  1. ShuffleSplit

화가 분할 후
n_splits

교차 검증

  1. model_selction.KFold(n_splits=’warn’, shuffle=False, random_state=None)

示例: KF = KFold (n_splits = 2)
kf.split (X_train, y_train)

n_splits
shuffle경우는 기본적으로인지, 혼란.

  1. RepeatedKFold

n_splits의
n_repeats :重复次数
3. LeaveOneOut
4. LeavePOut
5. StratifiedKFold의
P : P值
6. GroupKFold
7.LeaveOneGroupOut
8.LeavePGroupsOut
9.GroupShuffleSplit
10.TimeSeriesSplit

슈퍼 파라 메트릭 검색

1. model_selection.GridSearchCV(estimator, param_grid, scoring=None, n_jobs=None, iid=’warn’, refit=True, cv=’warn’, verbose=0, pre_dispatch=‘2*n_jobs’, error_score=’raise-deprecating’, return_train_score=False)그리드 검색
매개 변수 :

estimator: 학습자
param_grid: 사전에 주어진 매개 변수 공간을 지정합니다. 함께 매개 변수 공간의 복수 목록 상자의 경우.
scoring: 평가 기준, 지정되지 않은 경우, 학습자 스스로 평가 기준 기본
n_jobs: 컴퓨팅 병렬 스레드 수를 지정 기본 1 무 즉, 표시는 모든 CPU를 -1로 설정되어 있으면.
IID의
수리
cv: 조금
자세한
pre_dispatch의
error_score의
return_train_score

특성 :

cv_results_: 검색 결과 그리드로 돌아 가기
best_estimator_: 최적의 학습자를 돌려
best_params_: 최적의 파라미터를 돌려줍니다
best_score_: 최적의 추정 값을 반환

2. model_selection.RandomizedSearchCV(estimator, param_distributions, n_iter=10, scoring=None, n_jobs=None, iid=’warn’, refit=True, cv=’warn’, verbose=0, pre_dispatch=‘2*n_jobs’, random_state=None, error_score=’raise-deprecating’, return_train_score=False)임의의 검색
매개 변수 :

estimator: 리틀
param_distributions: 배포 매개 변수, 위의 표현 param_grid사전에 유사한 값이 임의의 분포는 목록이 경우 기본 균일 한 분포를 부여됩니다.
n_iter
scoring: 약간
n_jobs: 약간의
IID의
수리
cv: 조금
자세한
pre_dispatch
random_state: 약간
error_score
return_train_score

부동산의GridSearchCV

평가

1. cross_val_score
예 : 스코어 = cross_val_score. (CLF, 데이터 타겟, CV = 5)
CLF : 분류
데이터
타겟
CV : kfold 기본 정책 때이다 접히거나 계층화 CV 정수의 ClassifierMixin의 추정량, 후자의 경우, . 또한 다른 교차 유효성 검사 또는 사용자 정의 반복자 반복자를 지정할 수 있습니다.
점수 : 점수 지정 방법을 참조하십시오 여기에
2 cross_validate

.교차 검증

from sklearn.cross_validation import KFold

.metrics

자세한 평가
분류 평가 :

  1. .accuracy_score(y_true, y_pred, normalize=True, sample_weight=None)

normalize:이 거짓 인 경우 기본은 올바른 속도를 반환하는 샘플 수의 정확한 예측을하는 경우.

  1. .balanced_accuracy_score(y_true, y_pred, sample_weight=None, adjusted=False)

adjusted:

  1. .average_precision_score(y_true, y_score, average=’macro’, pos_label=1, sample_weight=None)
  2. .recall_score(y_true, y_pred, labels=None, pos_label=1, average=’binary’, sample_weight=None)
  3. .precision_score(y_true, y_pred, labels=None, pos_label=1, average=’binary’, sample_weight=None)
  4. .f1_score(y_true, y_pred, labels=None, pos_label=1, average=’binary’, sample_weight=None)
  5. .log_loss(y_true, y_pred, eps=1e-15, normalize=True, sample_weight=None, labels=None)

1.scorer
scorer.make_scorer
2.mean_squared_error
average_precision_score
brier_score_loss
log_loss
jaccard_score
roc_auc_score

클러스터링

adjusted_mutual_info_score
adjusted_rand_score
completeness_score
fowlkes_mallows_score
homogeneity_score
mutual_info_score
normalized_mutual_info_score
v_measure_score

회귀

explained_variance_score
max_error
mean_absolute_error
mean_squared_error
mean_squared_log_error
median_absolute_error
r2_score

관로

1. make_pipeline

데이터 세트

1.load_iris

SVM

추천

출처blog.csdn.net/weixin_42297855/article/details/97917976