import sklearn
기사 디렉토리
linear_model
.LinearRegression(fit_intercept=True, normalize=False, copy_X=True, n_jobs=None)
.Ridge(alpha=1.0, fit_intercept=True, normalize=False, copy_X=True, max_iter=None, tol=0.001, solver=’auto’, random_state=None)
.RidgeCV(alphas=(0.1, 1.0, 10.0), fit_intercept=True, normalize=False, scoring=None, cv=None, gcv_mode=None, store_cv_values=False)
.Lasso
.MultiTaskLasso
.ElasticNet
.MultiTaskElasticNet
.LassoLars
.OrthogonalMatchingPursuit
또는.orthogonal_mp
.BayesianRidge
.ARDRegression
.LogisticRegression
.SGDClassifier(loss=’hinge’, penalty=’l2’, alpha=0.0001, l1_ratio=0.15, fit_intercept=True, max_iter=1000, tol=0.001, shuffle=True, verbose=0, epsilon=0.1, n_jobs=None, random_state=None, learning_rate=’optimal’, eta0=0.0, power_t=0.5, early_stopping=False, validation_fraction=0.1, n_iter_no_change=5, class_weight=None, warm_start=False, average=False)
loss
: 분류 손실 함수 : '경첩', '로그' , '퍼셉트론을'squared_hinge '을'modified_huber을 '; 반사 손실 기능 :'squared_loss ','후버 ','epsilon_insensitive '또는'squared_epsilon_insensitive '
penalty
: 페널티 조건, 기본 L2
max_iter
: 반복의 최대 수입니다.
.SGDRegressor(loss=’squared_loss’, penalty=’l2’, alpha=0.0001, l1_ratio=0.15, fit_intercept=True, max_iter=1000, tol=0.001, shuffle=True, verbose=0, epsilon=0.1, random_state=None, learning_rate=’invscaling’, eta0=0.01, power_t=0.25, early_stopping=False, validation_fraction=0.1, n_iter_no_change=5, warm_start=False, average=False)
loss
: 약간.
.Perceptron
.PassiveAggressiveClassifier
.HuberRegressor
방법
다음 clf
, 상기 생성은 분류를 의미 회귀이다.
clf.fit(X_train,y_train)
clf.predict(X_test)
재산
clf.coef_
: 아주 여러 가지 요인.clf.intercept_
: 정수 계수.clf.decision_function
: 의사 결정 기능
discriminant_analysis
판별 분석
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as LDA
: 선형 판별 분석
from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis as QDA
: 차 판별 분석
LDA(solver=’svd’, shrinkage=None, priors=None, n_components=None, store_covariance=False, tol=0.0001)
- 매개 변수
solver
: :svd
특이 값 분해, 공분산 행렬을 계산하지 않는 기본 해결사, 그것은이 기능의 큰 숫자를 갖는 데이터를 권장합니다.lsqr
: 최소 제곱 솔루션입니다.eigen
: 고유치 분해.
shrinkage
: 수축이 적은 경우의 기능의 수보다 트레이닝 샘플의 공분산 행렬의 추정을 개선 할 수있다. 당신은에 제공 될 수있다auto
, 또는 [0,1] 수. 로 지정된auto
필요한 경우sover
로 설정lsqr
하거나eigen
.
그림은 온다 Sklearn 공식 문서를 다른 샘플 크기로 수축의 성능에 대한.
priors
n_components
: 범주의 수
store_covariance
tol
: 순위 및 예상 임계 값을 해결하기위한 SVD.
- 재산
coef_ :
무게 벡터 (들).
intercept_ :
인터셉트 용어.
covariance_ :
(모든 클래스에 의해 공유) 공분산 행렬.
explained_variance_ratio_ :
선택된 부품의 각각에 의해 설명 분산의 백분율. n_components 설정되지 않는 모든 구성 요소가 저장되어 합이 차이를 설명하면 1.0과 동일하다. 만 고유 또는 SVD 솔버를 사용하는 경우 사용할 수 있습니다.
means_ : 어레이 형 모양 (n_classes, n_features)
클래스를 의미한다.
priors_ : 어레이 형 모양 (n_classes)
클래스 전과 (1 합).
scalings_ : 어레이 형 모양 (랭크 n_classes - 1)
클래스의 무게 중심에 의해 스팬 된 공간에 기능 스케일링.
xbar_ : 어레이 형 모양 (n_features)
전체의 평균.
classes_ : 배열과 같은 모양 (n_classes)
고유 클래스 레이블입니다.
- 방법
decision_function (자기, X) 샘플에 대한 신뢰 점수를 예측하고있다.
주어진 트레이닝 데이터 및 파라미터에 따른 착용감 (자체, X, Y)에 맞추기 LinearDiscriminantAnalysis 모델.
fit_transform 데이터에 맞추기 (자체, X [Y])는, 다음 변환.
get_params이 추정기 (자기 [깊은]) 가져 매개 변수를 설정합니다.
예측 (자기, X)는 X에서의 샘플 클래스 레이블을 예측
predict_log_proba (자기, X) 추정 로그 확률.
predict_proba (자기, X) 추정 확률.
점수는 (자체, X, Y [sample_weight])는 주어진 테스트 데이터 및 라벨에 의미 정확성을 돌려줍니다.
set_params (자기, ** PARAMS)이 추정의 매개 변수를 설정합니다.
클래스의 분리를 최대화하기 위해 (자기, X) 프로젝트 데이터를 변환.
QDA(priors=None, reg_param=0.0, store_covariance=False, tol=0.0001)
.kernel_ridge
from sklearn.kernel_ridge import KernelRidge
KernelRidge(alpha=1, kernel=’linear’, gamma=None, degree=3, coef0=1, kernel_params=None)
.svm
from sklearn import svm
분류
svm.SVC(C=1.0, kernel=’rbf’, degree=3, gamma=’auto_deprecated’, coef0=0.0, shrinking=True, probability=False, tol=0.001, cache_size=200, class_weight=None, verbose=False, max_iter=-1, decision_function_shape=’ovr’, random_state=None)
C
kernel
: 커널을 지정합니다 :linear
,polynomial
,rbf
,sigmoid
. 또한 사용자 정의 커널이 될 수 있습니다.
degree
:하면kernel
지정된polynomial
시간에 지정된 다항식.
gamma
:kernel
비linear
시간 지정 값.
coef0
: 때kernel
이다polynomial
또는sigmoid
시 R 지정된 값.
shrinking
probability
tol
cache_size
class_weight
다음 Fit에있어서, 샘플의 불균형을 제공한다.
verbose
max_iter
decision_function_shape
:ovo
하나를 나타냅니다가ovr
, 나머지 한 쌍을 나타냅니다
random_state
: 약간
svm.NuSVC(nu=0.5, kernel=’rbf’, degree=3, gamma=’auto_deprecated’, coef0=0.0, shrinking=True, probability=False, tol=0.001, cache_size=200, class_weight=None, verbose=False, max_iter=-1, decision_function_shape=’ovr’, random_state=None)
svm.LinearSVC(penalty=’l2’, loss=’squared_hinge’, dual=True, tol=0.0001, C=1.0, multi_class=’ovr’, fit_intercept=True, intercept_scaling=1, class_weight=None, verbose=0, random_state=None, max_iter=1000)
반환
svm.SVR(kernel=’rbf’, degree=3, gamma=’auto_deprecated’, coef0=0.0, tol=0.001, C=1.0, epsilon=0.1, shrinking=True, cache_size=200, verbose=False, max_iter=-1)
svm.NuSVR(nu=0.5, C=1.0, kernel=’rbf’, degree=3, gamma=’auto_deprecated’, coef0=0.0, shrinking=True, tol=0.001, cache_size=200, verbose=False, max_iter=-1)
svm.LinearSVR(epsilon=0.0, tol=0.0001, C=1.0, loss=’epsilon_insensitive’, fit_intercept=True, intercept_scaling=1.0, dual=True, verbose=0, random_state=None, max_iter=1000)
등록 정보 :
support_vectors_
support_
n_support
.decision_function
dual_coef_
:
또는
intercept_
: 약간
.neighbors
.NearestNeighbors(n_neighbors=5, radius=1.0, algorithm=’auto’, leaf_size=30, metric=’minkowski’, p=2, metric_params=None, n_jobs=None, **kwargs)
n_neighbors
: 몇 가지 최근의 샘플을 분류하기 위해 선택 이웃의 수.
radius
algorithm
: 알고리즘 : '자동', 'ball_tree' , 'kd_tree', 'brute`
.KDTree
.BallTree
방법 :
.나무
.DecisionTreeClassifier(criterion=’gini’, splitter=’best’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, class_weight=None, presort=False)
.DecisionTreeRegressor(criterion=’mse’, splitter=’best’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, presort=False)
방법 :
clf.predict_proba([[2., 2.]])
: 같은 클래스에서 훈련 샘플의 점수를 잎 각 클래스의 확률을 예측
.앙상블
.AdaBoostRegressor(base_estimator=None, n_estimators=50, learning_rate=1.0, loss=’linear’, random_state=None)
n_estimators
: 기본 학습자의 수
base_estimator
: 기본 유형을 학습, 기본.tree.DecisionTreeRegressor(max_depth=3)
.AdaBoostClassifier(base_estimator=None, n_estimators=50, learning_rate=1.0, algorithm=’SAMME.R’, random_state=None)
.BaggingClassifier(base_estimator=None, n_estimators=10, max_samples=1.0, max_features=1.0, bootstrap=True, bootstrap_features=False, oob_score=False, warm_start=False, n_jobs=None, random_state=None, verbose=0)
.BaggingRegressor(base_estimator=None, n_estimators=10, max_samples=1.0, max_features=1.0, bootstrap=True, bootstrap_features=False, oob_score=False, warm_start=False, n_jobs=None, random_state=None, verbose=0)
.RandomForestClassifier(n_estimators=’warn’, criterion=’gini’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=’auto’, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, bootstrap=True, oob_score=False, n_jobs=None, random_state=None, verbose=0, warm_start=False, class_weight=None)
.RandomForestRegressor(n_estimators=’warn’, criterion=’mse’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=’auto’, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, bootstrap=True, oob_score=False, n_jobs=None, random_state=None, verbose=0, warm_start=False)
.ExtraTreesClassifier(n_estimators=’warn’, criterion=’gini’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=’auto’, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, bootstrap=False, oob_score=False, n_jobs=None, random_state=None, verbose=0, warm_start=False, class_weight=None)
.ExtraTreesRegressor(n_estimators=’warn’, criterion=’mse’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=’auto’, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, bootstrap=False, oob_score=False, n_jobs=None, random_state=None, verbose=0, warm_start=False)
.VotingClassifier(estimators, voting=’hard’, weights=None, n_jobs=None, flatten_transform=True)
voting
: 그것은 연성 법은 상대 다수결을 나타내는 경우, 가장 많은 표를 선택 하드 기본값은 절반 이상이 투표를 선택, 절대 다수결을 나타냅니다.
.VotingRegressor(estimators, weights=None, n_jobs=None)[source]
.GradientBoostingClassifier(loss=’deviance’, learning_rate=0.1, n_estimators=100, subsample=1.0, criterion=’friedman_mse’, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_depth=3, min_impurity_decrease=0.0, min_impurity_split=None, init=None, random_state=None, max_features=None, verbose=0, max_leaf_nodes=None, warm_start=False, presort=’auto’, validation_fraction=0.1, n_iter_no_change=None, tol=0.0001)
.GradientBoostingRegressor(loss=’ls’, learning_rate=0.1, n_estimators=100, subsample=1.0, criterion=’friedman_mse’, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_depth=3, min_impurity_decrease=0.0, min_impurity_split=None, init=None, random_state=None, max_features=None, alpha=0.9, verbose=0, max_leaf_nodes=None, warm_start=False, presort=’auto’, validation_fraction=0.1, n_iter_no_change=None, tol=0.0001)
.HistGradientBoostingClassifier(loss=’auto’, learning_rate=0.1, max_iter=100, max_leaf_nodes=31, max_depth=None, min_samples_leaf=20, l2_regularization=0.0, max_bins=256, scoring=None, validation_fraction=0.1, n_iter_no_change=None, tol=1e-07, verbose=0, random_state=None)
: 효과보다 더 많은 양의 데이터GradientBoostingClassifier
보다..HistGradientBoostingRegressor(loss=’least_squares’, learning_rate=0.1, max_iter=100, max_leaf_nodes=31, max_depth=None, min_samples_leaf=20, l2_regularization=0.0, max_bins=256, scoring=None, validation_fraction=0.1, n_iter_no_change=None, tol=1e-07, verbose=0, random_state=None)
.feature_selection
.VarianceThreshold(threshold=0.0)
?
.preprocessing
from sklearn import preprocessing
데이터 표준화
preprocessing.StandardScaler()
이 표준은 기본적으로 원본 데이터는 평균과 표준 편차를 유지하며, 또한 표준화 된 테스트 데이터에 역할을 할 수 있습니다.
예 :
scaler = preprocessing.StandardScaler().fit(X_train)
X_test_transformed = scaler.transform(X_test)
preprocessing.scale(X_train)
표준 정규 분포로 데이터.min_max_scaler = preprocessing.MinMaxScaler()
에서 [0,1]로 전환 데이터
실시 예 :
min_max_scaler = preprocessing.MinMaxScaler()
X_train_minmax = min_max_scaler.fit_transform(X_train)
X_test_minmax = min_max_scaler.transform(X_test)
max_abs_scaler = preprocessing.MaxAbsScaler()
동일한 MinMaxScaler 사용 범위는 [-1,1]진다
기능 코딩
1. preprocessing.OneHotEncoder
2. preprocessing.OrdinalEncoder
3.preprocessing.LabelEncoder
model_selection
from sklearn import model_selection
데이터 세트를 분할
X_train, X_test, y_train, y_test = model_selection.train_test_split(data,target, test_size=0.4, random_state=0,stratify=None)
test_size
: 테스트 설정 비율
n_splits
k 번째의 분할을 위해, K의 값 :
stratify
: 가변 성층 샘플링의 유형에 따라 성층 가변 분포를 지정한다.
- ShuffleSplit
화가 분할 후
n_splits
교차 검증
model_selction.KFold(n_splits=’warn’, shuffle=False, random_state=None)
示例: KF = KFold (n_splits = 2)
kf.split (X_train, y_train)
n_splits
shuffle
경우는 기본적으로인지, 혼란.
RepeatedKFold
n_splits의
n_repeats :重复次数
3. LeaveOneOut
4. LeavePOut
5. StratifiedKFold의
P : P值
6. GroupKFold
7.LeaveOneGroupOut
8.LeavePGroupsOut
9.GroupShuffleSplit
10.TimeSeriesSplit
슈퍼 파라 메트릭 검색
1. model_selection.GridSearchCV(estimator, param_grid, scoring=None, n_jobs=None, iid=’warn’, refit=True, cv=’warn’, verbose=0, pre_dispatch=‘2*n_jobs’, error_score=’raise-deprecating’, return_train_score=False)
그리드 검색
매개 변수 :
estimator
: 학습자
param_grid
: 사전에 주어진 매개 변수 공간을 지정합니다. 함께 매개 변수 공간의 복수 목록 상자의 경우.
scoring
: 평가 기준, 지정되지 않은 경우, 학습자 스스로 평가 기준 기본
n_jobs
: 컴퓨팅 병렬 스레드 수를 지정 기본 1 무 즉, 표시는 모든 CPU를 -1로 설정되어 있으면.
IID의
수리
cv
: 조금
자세한
pre_dispatch의
error_score의
return_train_score
특성 :
cv_results_
: 검색 결과 그리드로 돌아 가기
best_estimator_
: 최적의 학습자를 돌려
best_params_
: 최적의 파라미터를 돌려줍니다
best_score_
: 최적의 추정 값을 반환
2. model_selection.RandomizedSearchCV(estimator, param_distributions, n_iter=10, scoring=None, n_jobs=None, iid=’warn’, refit=True, cv=’warn’, verbose=0, pre_dispatch=‘2*n_jobs’, random_state=None, error_score=’raise-deprecating’, return_train_score=False)
임의의 검색
매개 변수 :
estimator
: 리틀
param_distributions
: 배포 매개 변수, 위의 표현param_grid
사전에 유사한 값이 임의의 분포는 목록이 경우 기본 균일 한 분포를 부여됩니다.
n_iter
scoring
: 약간
n_jobs
: 약간의
IID의
수리
cv
: 조금
자세한
pre_dispatch
random_state
: 약간
error_score
return_train_score
부동산의GridSearchCV
평가
1.
cross_val_score
예 : 스코어 = cross_val_score. (CLF, 데이터 타겟, CV = 5)
CLF : 분류
데이터
타겟
CV : kfold 기본 정책 때이다 접히거나 계층화 CV 정수의 ClassifierMixin의 추정량, 후자의 경우, . 또한 다른 교차 유효성 검사 또는 사용자 정의 반복자 반복자를 지정할 수 있습니다.
점수 : 점수 지정 방법을 참조하십시오 여기에
2 cross_validate
.교차 검증
from sklearn.cross_validation import KFold
.metrics
자세한 평가
분류 평가 :
.accuracy_score(y_true, y_pred, normalize=True, sample_weight=None)
normalize
:이 거짓 인 경우 기본은 올바른 속도를 반환하는 샘플 수의 정확한 예측을하는 경우.
.balanced_accuracy_score(y_true, y_pred, sample_weight=None, adjusted=False)
adjusted
:
.average_precision_score(y_true, y_score, average=’macro’, pos_label=1, sample_weight=None)
.recall_score(y_true, y_pred, labels=None, pos_label=1, average=’binary’, sample_weight=None)
.precision_score(y_true, y_pred, labels=None, pos_label=1, average=’binary’, sample_weight=None)
.f1_score(y_true, y_pred, labels=None, pos_label=1, average=’binary’, sample_weight=None)
.log_loss(y_true, y_pred, eps=1e-15, normalize=True, sample_weight=None, labels=None)
1.scorer
scorer.make_scorer
2.mean_squared_error
average_precision_score
brier_score_loss
log_loss
jaccard_score
roc_auc_score클러스터링
adjusted_mutual_info_score
adjusted_rand_score
completeness_score
fowlkes_mallows_score
homogeneity_score
mutual_info_score
normalized_mutual_info_score
v_measure_score회귀
explained_variance_score
max_error
mean_absolute_error
mean_squared_error
mean_squared_log_error
median_absolute_error
r2_score
관로
1. make_pipeline
데이터 세트
1.load_iris