14개의 경험 요약과 5개의 성공 사례를 쌓은 기계 학습 융합 모델 (인터넷에서 가장 완벽한, 하드 코어 모음)

Fusion model stacking에 대한 글을 많이 읽었는데 많은 저자들이 fusion model stacking을 칭찬하고 초보자를 오도하기 쉬운 단점을 경시하는 경향이 있습니다. 그것이 의미하는 바입니다.

많은 학생들이 핫한 기술인 융합 모델을 논문이나 특허 혁신 포인트로 활용하는 것을 좋아합니다.

최근에 논문 모델링 상담에서 동급생이 융합 모델 스태킹이 정말 신뢰할 수 있는지 물었습니다. 이 질문은 저를 깊이 생각하게 만들었고, 이 글을 쓰시면 여러분 모두가 fusion model stacking에 대해 좀 더 명확하게 이해하실 수 있을 것 같습니다. 이 기사는 융합 모델 스태킹 경험에 대한 저의 수년간의 장기 실험을 요약한 것입니다. 이 글을 쓰는데도 반달이 걸렸고, 대부분의 실험이 실험에 사용되었습니다. 이 글은 비교적 길고, 내용도 많고, 실험 데이터셋도 많아서 단시간에 읽기 어려울 것으로 예상됩니다. 만년의 함정을 피할 수 있도록.

이 기사는 융합 모델 애호가, 모델 대회 참가자, 논문 작성 및 특허 학생에게 더 적합합니다.

쌓기 또는 쌓기 일반화는 앙상블 기계 학습 알고리즘입니다.

메타 학습 알고리즘을 사용하여 둘 이상의 기본 기계 학습 알고리즘에서 예측을 가장 잘 결합하는 방법을 학습합니다.

스태킹의 이점은 분류 또는 회귀 작업에서 잘 수행되는 모델 컬렉션의 기능을 활용하고 잠재적으로 앙상블의 단일 모델보다 더 나은 예측을 할 수 있다는 것입니다. 절대적이 아니라 가능하다고 말했습니다.

아래 그림은 융합 모델의 알고리즘 흐름도인데 각 하위 모델이 학습 데이터의 일부만 읽는 것이 아니라 하위 모델(기본 모델)이 모든 학습 데이터 학습 데이터를 읽는 것을 볼 수 있습니다. 따라서 초기 단계에서 관찰을 위해 더 많은 하위 모델을 추가할 수 있습니다.

최종 훈련된 융합 모델은 예측 능력, 분류 능력 및 회귀 능력을 갖춘 실제 모델과 같습니다.

이전 글
"모델 공모전 킬러 - 퓨전모델(스태킹)"에서 퓨전모델 스태킹에 대해 소개한 내용을 확인하실 수 있습니다.

1. 융합모델 스태킹은 비즈니스 모델에 적용하기 어렵다

융합 모델 스태킹의 계산 시간이 단일 기계 학습 모델의 계산 시간보다 훨씬 길기 때문입니다. 상업 회사 모델은 융합 모델 쌓기의 문제점인 알고리즘 복잡성, 시간 비용 및 해석 가능성을 고려해야 합니다. 이전 kaggle 모델 대회에서 외국인 참가자가 퓨전 모델 스태킹으로 우승을 했지만 스폰서 펀딩 회사는 퓨전 모델이 하위 모델이 너무 많아 시간이 많이 걸리고 적용하기 어려웠기 때문에 채택하지 않았습니다. 실제 사업.

2. 융합 모델 스태킹은 학술 논문에서 매우 인기가 있습니다.

융합모델 스태킹의 단점도 장점이 될 수 있는데, 즉 학계, 특히 논문 발표용으로 활용된다. 우리는 수많은 종이 상담을 접했고 학계의 많은 동료들은 모델이 복잡할수록 가치가 높아진다고 믿고 있습니다. 그들의 눈에는 딥 러닝 모델의 순위가 기계 학습 및 통계 모델의 순위보다 높습니다. 이것들은 모두 오해입니다.모델 알고리즘의 선택은 장면과 특정 데이터 세트에 따라 현실과 결합되어야 하며 완전히 정확한 일반적인 루틴은 없습니다. 많은 학계 동료들이 비즈니스 모델 경험이 없다는 것은 이해할 수 있습니다. 그래서 퓨전모델 관련 논문을 많이 읽었습니다. 융합 모델 스태킹은 많은 수의 양자 모델로 구성될 수 있고, 많은 조합이 있으며, 많은 수의 종이 혁신을 만들 수도 있습니다.

3. scikit-learn 및 mlxtend 라이브러리

scikit-learn 및 mlxtend 라이브러리는 Python에서 누적 앙상블의 표준 구현을 제공합니다. scikit-learn과 mlxtend 라이브러리 모두 장단점이 있습니다. scikit-learn 라이브러리의 장점은 로지스틱 회귀를 메타 모델(두 번째 계층 모델)로 사용할 수 있다는 것입니다. mlxtend 라이브러리는 스태킹 퓨전 모델을 실행할 때 더 빠르지만 로지스틱 회귀를 사용할 때 지원 벡터 머신 외부의 모델이 메타 모델로 오류를 보고합니다.

4. Fusion model stacking 실험 시간 비용이 높다

많은 하위 모델에는 서포트 벡터 머신, 신경망이 데이터의 누락된 값을 채워야 하고 데이터 스무딩과 같은 다양한 데이터 전처리 방법이 있지만 통합 학습 알고리즘은 그렇지 않습니다. 앙상블 학습은 원시 데이터를 직접 사용하여 더 나은 결과를 얻을 수 있습니다.

하위 모델의 서로 다른 데이터 예측 논리는 융합 모델 실험의 다양성과 횟수를 증가시켜 시간 비용을 증가시킵니다.

5. 퓨전 모델의 성능이 반드시 서브 모델보다 높은 것은 아니다

인터넷의 융합 모델에 대한 많은 소개는 오해를 전달합니다. 즉, 융합 모델의 성능이 단일 모델의 성능보다 높아야 합니다. 모델링을 마친 후에는 융합 모델로 성능을 개선해야 합니다. 하지만 실시간은 그렇지 않습니다.많은 실험에서 퓨전 모델이 개선하기 어려운 경우가 많고 성능이 하위 모델만큼 좋지 않으며 시간도 많이 소모한다는 사실을 발견했습니다. 실험을 위해.

예를 들어, 유방암 데이터 세트에 대한 실험에서 융합 모델 auc가 0.9820으로 위의 하위 모델만큼 좋지 않다는 것을 발견했습니다.

그러나 KNN 및 lightgbm 하위 모델을 추가한 후 fusion 모델의 성능이 크게 향상되었으며 모든 하위 모델을 능가했습니다.

융합 모델의 성능이 하위 모델보다 우수하다는 논문을 많이 보았는데, 이는 저자가 고정된 하위 모델 세트를 실험하고 테스트하는 데 많은 시간을 할애하여 결론을 얻었기 때문입니다. 퓨전 모델의 성능이 향상되었다는 것입니다. 보시는 서브모델들의 조합은 우연이 아니라 많은 시간과 실험을 거쳐 신중하게 선별한 결과입니다.

6. 융합모델의 성능향상을 위한 구체적인 지표

많은 실험에서 융합 모델이 AUC보다 정확도와 f1 점수를 향상시킬 확률이 더 높다는 것을 발견했습니다. 하위 모델 그룹과 병합하여 특정 지표를 개선할 수 있지만 모든 지표가 개선되는 것은 아닙니다.

7. 융합 모델 개선 기술 - cv 파라미터 적용

Stratified는 영어로 Stratified를 의미하며, 중국어로 번역된 stratifiedkfold는 Stratified K-fold cross-validation입니다. 데이터 세트의 대상 변수가 불균형 데이터인 경우 교차 유효성 검사 교차 유효성 검사는 좋은 고객의 비율이 높거나 나쁜 고객의 비율이 적거나 아예 없는 것과 같이 데이터를 나눌 때 불충분한 무작위성을 발견합니다.

stratifiedkfold는 불균형 데이터 처리에 적합합니다. Stratified K-fold 교차 검증이 선택된 경우 교차 검증은 원래 레이블의 범주 비율, 훈련 레이블의 범주 비율 및 검증 레이블의 범주 비율이 각 훈련 중에 일관되도록 합니다. .

아래 그림은 stratifiedkfold 알고리즘의 흐름도인데 클래스 대상 변수가 세 가지 범주를 가지며 서로 다른 범주가 균일한 교차 검증 샘플링을 갖는 것을 볼 수 있습니다.

cross_val_score 함수를 호출할 때 cv 매개변수를 입력해야 함을 기억하고 일반적으로 5 또는 10을 선택합니다. Stratified K-fold 검증에서 접기 수를 나타내는 정수를 입력하십시오. 따라서 cv 매개변수는 매우 지능적이며 대상 변수의 불균형 데이터 처리 문제를 자동으로 해결하는 데 도움이 될 수 있습니다. 데이터 세트가 크지 않은 경우 cv10 모델 성능이 cv5보다 나을 수 있습니다.

scores = model_selection.cross_val_score(clf, X, y,  
                                              cv=5, scoring='roc_auc')

8. 융합 모델 개선 기술 - 메타 모델 meta_classifier 선택

대부분의 훈련생에게는 meta_classifier로 로지스틱 회귀를 권장합니다. 일부 데이터 세트에 대한 실험에서 다른 알고리즘은 메타 모델만큼 로지스틱 회귀만큼 좋지 않았습니다. 유방암 데이터 세트를 예로 들어 auc가 0.9959인 융합 모델을 얻기 위해 메타 모델로 로지스틱 회귀를 사용했고 메타 모델로 서포트 벡터 머신을 사용하여 AUC가 0.982인 융합 모델을 얻었습니다. .

몇몇 친구들과의 커뮤니케이션에서 나는 예외도 발견했는데, 그들의 데이터 세트는 더 나은 융합 모델 성능을 얻기 위해 때때로 앙상블 트리 알고리즘을 메타 모델로 사용합니다. 융합 모델에는 너무 많은 매개변수가 있으며 모든 것은 실험 결과에 달려 있습니다.

9. 퓨전 모델 개량 스킬 - 서브 모델의 갯수는 적당

우리 실험에서 fusion model stacking의 sub-models은 최대한 많지도, 적지도 않고, 딱 맞는 것이 가장 좋다는 것을 발견했습니다.

0.9953의 AUC로 퓨전 모델을 구축하기 위해 KNN 및 랜덤 포레스트와 같은 9개의 하위 모델을 사용했습니다.

하위 모델 수를 줄인 후 6개의 하위 모델을 사용하여 융합 모델을 구축했으며 AUC는 0.9957로 9개 하위 모델의 융합 모델의 AUC보다 훨씬 높았습니다. 이는 퓨전 모델의 하위 모델이 최대한 많지 않음을 나타냅니다.

10. 퓨전 모델 개선 스킬 - 가장 취약한 하위 모델 삭제, 퓨전 모델 개선 가능

융합 모델을 실험할 때 먼저 가능한 한 하위 모델의 수를 늘리고 어떤 하위 모델이 성능이 약한지 관찰하고 분명히 뒤쳐지는 하위 모델을 삭제하면 융합 모델이 될 수 있습니다. 향상. 아래 그림과 같이 Decision Tree Sub-model의 AUC는 0.91, Gaussian Bayesian의 AUC는 0.98로 다른 Sub-Model의 성능에 비해 현저하게 낮은 성능을 보임. 융합 모델의 AUC는 0.9953에서 0.9957로 증가합니다. 많은 실험에서 Decision Tree와 Gaussian Bayesian 모델의 성능이 너무 떨어지는 것을 발견했는데, 이는 물론 우리의 실험 샘플과 관련이 있을 수 있습니다. 이 두 알고리즘이 일부 데이터 세트에서 잘 수행된다는 것을 배제하지 않습니다.

11. Fusion Model Boosting Technique - 예측 클래스 확률은 메타 모델 교육에 사용됩니다.

메타 분류자는 예측된 클래스 레이블 또는 예측된 클래스 확률에 대해 훈련될 수 있습니다. 레벨1 모델에서 예측한 클래스 확률을 레벨2 메타 모델에 사용하여 더 나은 융합 모델 성능을 얻습니다. 예측된 클래스 레이블을 사용하는 경우 융합 모델의 성능이 저하됩니다.

이 논리는 매우 간단합니다. 생각해보세요. 클래스 레이블 결과가 거의 없습니다. 이진 분류 모델인 경우 클래스 레이블은 0과 1뿐입니다. 확률 예측을 선택하면 결과는 0-1의 소수점입니다. . 따라서 클래스 확률의 다양성은 모델을 잘 학습시키고 모델의 성능을 향상시킬 수 있습니다.

use_probas=True로 설정하면 메타 모델 학습을 위한 클래스 확률을 설정할 수 있습니다.

sclf = StackingClassifier(classifiers=[clf1,clf2,clf3,clf4,clf5,clf6],              
                          meta_classifier=lr,use_probas=True)

12. 융합 모델 개선 기술 - 다양성 실험

일부 이론에서는 하위 모델 간의 차이가 클수록 서로 독립적이며 융합 모델의 개선 여지가 더 크다고 합니다. 이 이론은 메타 모델이 일반적으로 로지스틱 회귀이며 로지스틱 회귀는 상관관계가 높은 변수를 제거해야 함을 설명할 수 있습니다.

상관관계가 높은 여러 변수가 모델 성능을 저하시키는 경우가 있습니다. 하위 모델 상관 관계가 낮을 때 로지스틱 회귀는 더 많은 여지가 있습니다. 앙상블 트리 알고리즘은 변수 상관에 대한 높은 요구 사항이 없으므로 적절하게 완화될 수 있습니다. 메타 모델이 앙상블 트리 알고리즘인 경우 하위 모델 독립 요구 사항이 여전히 유효한지 실험할 수 있습니다.

위의 내용은 이론일 뿐 실제 시험과는 큰 차이가 있으므로 모든 수험생이 실제 시험을 치르게 됩니다.

나는 Cai Cai 선생님의 비디오를 보았고 그녀는 다음과 같이 다양성을 자세히 설명했습니다.

12.1 샘플 다양성: 모델링에 동일한 변수를 사용하지만 훈련을 위해 매번 다른 샘플 하위 집합을 샘플링합니다. 데이터 양이 적은 경우 다운샘플링으로 인해 모델 성능이 크게 저하될 수 있습니다.

12.2 변수 다양성: 동일한 변수 매트릭스를 사용하지만 매번 훈련을 위해 다른 기능 하위 집합을 샘플링합니다. 기능의 양이 적을 때 기능을 샘플링하면 모델 성능이 급격히 떨어질 수 있습니다.

파이프라인 캡슐화 방법을 사용하여 교육용 데이터 세트의 일부 변수를 얻을 수 있습니다.

12.3 무작위 다양성/훈련 다양성: 동일한 알고리즘을 사용하지만 다른 난수 시드(random_state)를 사용하거나((다른 기능, 샘플, 시작점을 사용하게 됨) 다른 손실 함수를 사용하거나 다른 불순물 드롭량 등을 사용합니다.

12.4 알고리즘 다양성: 통합, 트리, 확률 및 선형 모델 혼합과 같은 다양한 유형의 알고리즘을 추가합니다. 다만, 모델의 효과가 너무 나빠서는 안되며 투표든 평균이든 모델의 효과가 너무 나쁘면 융합의 결과가 크게 떨어질 수 있다는 점을 유의해야 한다.

13. 퓨전모델 개량 스킬 - 속도향상

Fusion 모델은 교차 검증을 사용하며 매우 느립니다. 작은 데이터 세트를 만나도 괜찮고, 큰 데이터 세트를 만나면 하위 모델을 신중하게 선택해야 합니다. 데이터 세트가 매우 크고 시간을 절약하기를 원한다고 가정하면 SVM 및 catboost 알고리즘을 제거할 수 있습니다. 이 두 하위 모델은 시간이 많이 걸립니다. SVM은 대규모 데이터 세트에 대해 학습하는 데 시간이 오래 걸리며 catboost는 대칭 트리 알고리즘이며 학습 데이터도 시간이 많이 걸립니다.

노이즈 변수 또는 데이터 세트에서 거의 중요하지 않은 변수를 삭제할 수 있으며, 이는 데이터 세트의 차원을 줄이고 모델의 교육 시간을 개선할 수 있습니다.

Python은 csv 데이터보다 Excel 테이블 데이터를 읽는 속도가 느립니다.Pandas의 read_csv() 함수를 호출하여 데이터를 읽으면 많은 시간을 절약할 수 있습니다. 데이터 세트가 특히 큰 경우 pickle 패키지로 저장할 수도 있으며 읽기 속도가 더 빠릅니다.

즉, 변수 스크리닝, 알고리즘 스크리닝 및 csv 데이터 읽기의 세 가지 측면은 융합 모델의 학습 속도를 향상시킬 수 있습니다.

14. 융합모델 개선기술 - 데이터 표준화 처리

데이터 세트의 분산이 크면 하위 모델의 예측 능력이 크게 달라집니다. 의료 분야에서 데이터 세트의 분산은 연령, 혈액 정기 검사와 같이 매우 작으며 값은 일반적으로 0-100 범위로 분포됩니다. 그러나 금융 분야에서는 데이터 편차가 매우 큰데, 예를 들어 장삼의 월수입은 5000위안이고 빌 게이츠의 월수입은 5000억이다. 데이터 분산이 크고 하위 모델이 더 독립적인 경우 데이터 분산을 줄이기 위해 데이터를 표준화해야 합니다. 하위 모델이 모두 앙상블 트리 알고리즘인 경우 데이터 정규화가 필요하지 않습니다. Toby 씨는 일반적으로 데이터 표준화 처리를 평활화 처리라고 우아하게 부르며 처리 후 데이터는 더 매끄럽고 크게 변동하지 않습니다.

Python 처리 코드는 매우 간단합니다. sklearn 패키지의 preprocessing.scale() 함수를 호출하기만 하면 됩니다.

from sklearn import preprocessing
X= preprocessing.scale(X)

융합 모델 성공 사례 쌓기

스태킹 융합모델 성공사례 1 - 유방암 세포 데이터셋

유방암 세포 데이터 세트에는 30개 이상의 변수가 있으며 유방암 세포 인식 모델을 구축하는 데 사용됩니다.

Wisconsin 유방암 데이터셋의 경우, Mr. Toby는 knn, Random Forest, CatBoost, neuron network, xgboost, lightgbm의 6개 하위 모델을 사용하여 fusion 모델을 쌓았습니다. fusion 모델의 AUC는 모든 하위 모델의 AUC보다 높습니다. -모델.

Toby 선생님은 knn, Random Forest, CatBoost, neuron network, xgboost, lightgbm, svm의 7개 하위 모델로 융합 모델을 구축했으며, 융합 모델의 정확도는 그 어떤 하위 모델보다 높습니다.

Toby 선생님은 knn, Random Forest, neuron network, xgboost, svm의 5가지 하위 모델로 융합 모델을 구축했으며, 융합 모델의 f1 점수 성능은 어떤 하위 모델보다 높습니다.

유방암 상위 10개 고전 머신러닝 모델링 코드와 완전 융합 모델 코드는 "Python Machine Learning - Breast Cancer Cell Mining"을
통해 얻을 수 있습니다 .


융합모델 2-Tianchi 당뇨병 데이터셋 적층 성공 사례

Tianchi 당뇨병 데이터 세트는 여러 변수와 5,000개 이상의 데이터 세트로 당뇨병 위험 예측 모델을 설정하는 데 사용됩니다.

토비 선생님은 Random Forest, adaboost, Gradient Boost의 세 가지 하위 모델로 융합 모델을 구축했으며, 융합 모델의 f1 점수 성능은 어떤 하위 모델보다 높습니다.

Fusion 모델 f1 점수 성능 향상은 AUC보다 훨씬 쉽고 너무 많은 하위 모델이 필요하지 않습니다.

토비 선생님은 Random Forest, adaboost, xgboost의 세 가지 하위 모델로 융합 모델을 구축했으며 융합 모델의 auc 점수 성능은 어떤 하위 모델보다 높습니다. 모델링 전에 Mr. Toby는 중앙값을 사용하여 누락된 데이터를 채우고 일부 데이터 전처리를 수행하여 이 효과를 달성했습니다.

Tianchi 당뇨병 데이터 세트는 정확도 향상이 어렵습니다.Toby 선생님은 실험에 많은 시간을 할애하여 먼저 누락된 값을 중앙값으로 채운 다음 knn, 뉴런 네트워크의 4가지 하위 모델로 구축한 융합 모델을 사용했습니다. , xgboost 및 svm 융합 모델 정확도 점수 성능은 어떤 하위 모델보다 높습니다.

이 네 가지 하위 모델의 알고리즘 원리는 매우 다르기 때문에 알고리즘의 다양성과 실험 결과도 좋습니다.

아래 그림은 서브모델과 퓨전모델의 정확도 지표를 Mr. Toby가 시각화한 것으로 주로 Box Diagram에 반영되어 있습니다. 퓨전 모델의 정확도가 가장 높다는 것을 알 수 있습니다.

스태킹융합모델 3대 대출동호회 데이터셋 성공사례

Lending Club은 미국의 유명한 금융 기술 회사로 120개 이상의 변수와 수백만 개의 데이터 세트를 보유하고 있으며 총 약 10년 간의 데이터 세트를 보유하고 있습니다. 금융 위험 관리 분야의 데이터 세트에 속하며 은행, 소비자 금융 회사, 대출 지원 회사 및 금융 기술 회사에 적합합니다.

Toby 선생님은 lightgbm, catboost 및 xgboost의 세 가지 하위 모델만 사용하여 f1 점수를 크게 향상시킨 융합 모델을 구축했습니다.

상대적으로 큰 대출 클럽의 데이터 세트로 인해 Mr. Toby는 시간이 제한되어 있습니다. Toby 씨의 경험을 어떻게 활용하여 정확도와 AUC를 향상시킬지는 모두의 숙제로 하겠습니다.

대출클럽 머신러닝 모델링에 관심이 있으신 분들은 "Python Risk Control Modeling Practical LendingClub"을 통해 얻으실 수 있습니다
.


스태킹 퓨전모델4 성공사례 - 레노버 자회사 익룡론의 p2p 데이터셋

Yilongdai는 전국 100개 이상의 현 수준 도시에 운영 센터를 설립했으며 수천 개의 지구, 카운티 및 거의 10,000개의 마을을 포괄하며 전국의 많은 1급 및 2급 도시에서 전국적인 서비스 네트워크를 구축할 것입니다. 이 플랫폼을 통해 신용이 양호하고 다양한 요구를 가진 사람들이 자금 부족 문제를 해결하도록 도울 수 있으며 동시에 자산 평가가 필요한 고객을 위해 잉여 자금을 더 높은 수익으로 자신의 손에 투자할 수 있습니다. Wing Loong Loan의 주요 대출 대상은 농업, 농촌 지역 및 농촌 가구, 개별 산업 및 상업 가구, 중소기업 소유자를 돕는 것입니다. 금융 규제 요건으로 인해 P2P로 전환해야 하며 현재 익룡 대출 대출은 점차 축소되고 있습니다.

Toby 선생님은 lightgbm, catboost 및 xgboost의 세 가지 하위 모델만 사용하여 f1 점수를 크게 향상시킨 융합 모델을 구축했습니다.

스태킹 융합모델 성공사례 5 - 크론병 유발 유전자 마이닝 모델

크론병, 크론병, 크론병, 크론병, 육아종성 장염으로도 알려진 크론병은 위장관의 어느 부위에서나 발생할 수 있는 원인 불명의 장 염증성 질환으로 회장 말단부와 오른쪽 결장. 만성 및 비특이적 궤양성 대장염은 총칭하여 염증성 장 질환(IBD)이라고 합니다. 임상증상은 복통, 설사, 장폐색 등이며 발열, 영양장애 등의 장외증상이 동반된다. 질병의 경과가 더 오래 지속되고 효과가 반복적으로 나타나며 근본적인 치료가 어렵습니다. 일반적인 치료법은 없으며 합병증이 발생하면 많은 환자들이 외과적 치료를 필요로 합니다. 재발률은 병변의 범위, 질병 침습의 강도, 질병 경과의 연장, 연령의 성장과 같은 요인과 관련이 있습니다.

많은 유명한 사람들이 크론병 병력을 가지고 있으며,

1. 현 NBA 캐벌리어스의 수장 래리 낸스 주니어는 전 NBA 덩크왕 래리 낸스의 아들로 아버지의 야망을 물려받아 코트를 질주한 크론병 환자다. Nance Jr.는 15세 때 크론병에 걸렸고 이 질병으로 인해 Nance Jr.는 식욕을 잃고 기력이 부족해졌습니다. 농구를 포기하는 것을 생각하십시오.

2. 2004년 당시 미국 보스턴 시장 메니노는 땅콩을 먹고 야구 경기를 보다가 심한 복통을 일으켜 크론병 진단을 받았다.

3. 가장 잘 알려진 인물은 제2차 세계대전 당시 연합군 최고사령관, 오성 장군, 이후 미국 대통령 아이젠하워로, 전역 6개월 전에 크론병 수술을 받았다.

4. 사후 "시대의 모범"으로 추서된 중국과학원 상해약물연구소의 박사과정 지도교수인 Wang Yiping은 사망하기 전까지 오랫동안 크론병을 앓았습니다.1993년 진단부터 지금까지 2018년 그의 죽음, 왕이핑은 25년 동안 병에 걸렸습니다. 과학 연구를 지속하고 죽음의 신과 시간을 두고 경쟁하면서 남겨진 것은 중국 전통 의학의 현대화에 대한 밝은 그림입니다.

크론병의 고통은 일반인이 감당할 수 없는 것입니다. 크론병의 증상으로는 만성설사, 복통, 체중감소, 식욕부진, 발열 및 직장출혈, 장폐색, 관절통 등이 나타나 삶의 질에 심각한 영향을 미친다. 환자는 식사 불능과 설사로 인한 쇠약, 운동을 방해하는 관절 통증, 식습관의 완전한 변화를 경험합니다. 스스로 통제할 수 없는 잦은 용변 및 배변과 함께 정상적인 사회적 상호작용조차 방해받게 됩니다. Toby 선생님은 크론병이 매우 드물다고 생각하셨지만, 데이터 쿼리를 통해 질병의 유병률이 해마다 증가하고 있음을 알게 되었습니다. 질병.

Toby 선생님은 lightgbm, catboost, xgboost의 세 가지 하위 모델만 사용하여 융합 모델을 구축하여 정확도를 높였습니다.

토비 선생님도 데이터 마이닝을 이용해서 크론병의 고위험 유전자를 찾아냈는데, 나중에 시간 있을 때 소개해드리겠습니다. Toby는 중국과학원 교수들과 함께 만성질환 프로젝트를 진행했는데, 희귀질환이 해마다 증가하는 것을 보면서 모두가 자신을 돌보고, 자신의 몸을 소중히 여기고, 일을 제대로 하고, 너무 열심히 일하지 마십시오.


토비 선생님의 융합 모델 쌓기 성공 사례가 더 많은데, 계속해서 업데이트 하겠습니다. "Python Financial Risk Control Scorecard Model and Data Analysis Micro-Professional Course" 과정을 따르고 수집하는 모든 사람을 환영합니다 .

저작권 진술: 이 기사는 공식 계정(Python 위험 관리 모델)에서 가져온 것이며 허가 없이 표절하지 않습니다. CC 4.0 BY-SA 저작권 계약에 따라 원본 소스 링크와 이 설명을 첨부하여 재인쇄하십시오.

추천

출처blog.csdn.net/toby001111/article/details/131268924