[재인쇄] 신을 찾는 두 가지 방법 – 통계적 학습과 기계 학습에 대해 이야기하다

이 기사는 DAI를 분석하는 Deloitte의 동명의 기사 에서 재인쇄되었습니다.

전통적인 통계 분석이든 최신 기계 학습 및 딥 러닝이든, 수많은 데이터 분석가, 데이터 엔지니어 및 데이터 과학자는 실제로 궁극적인 꿈을 추구하고 있습니다. 또는 데이터를 완벽하게 사용하여 다양한 실제 문제를 해결하는 방법입니다.

그러한 신 기능의 특징은 무엇입니까? 우리는 학습의 목적이 이해와 예측이라는 두 가지에 불과하다고 말하므로 두 가지 능력 또는 두 가지 필수 조건, 즉 원인과 결과를 설명하고 미래를 예측하는 것을 기대합니다. 문제의 본질이 무엇인지 알아야 하고, 우리가 보는 결과를 형성하는 원동력은 무엇인지(나는 누구인가? 나는 어디에서 왔는가?), 이것이 인과분석이다; 패턴(나는 어디로 가는가?), 이것이 예측 분석입니다. 우리 인간이 지금 있는 단계로 돌아가서, 신의 기능을 풀고자 하는 욕망은 컴퓨팅 하드웨어의 발달과 수학 이론의 지원에 의존하여 하나의 측면에서 점점 더 완벽한 모델에 접근할 수 있게 합니다.

통계적 추론(또는 통계 학습이라고 하는 기계 학습의 개념을 따름)에 관해서는 Hastie, Tibshirani 및 Friedman이 작성한 "통계 학습의 요소"를 피할 수 없습니다. 세 교수의 강력한 통계 + 기계 학습 배경을 통해 통계학자, 컴퓨터 과학자 및 알고리즘 엔지니어는 서로의 관점에서 통계와 기계 학습 간의 상호 의존 관계를 더 잘 이해할 수 있습니다. 예를 들어 로지스틱 회귀 모델입니다. 다변량 통계 분석에서 로지스틱 회귀는 일반화 선형 모델(GLM)의 한 유형으로 분류될 수 있으며 기계 학습에서는 선형 분류기의 클래스로 간주됩니다. 또 다른 예는 주성분 분석입니다. 또한 회귀 분석에서 주성분 분석은 차원 축소 방법으로 간주되는 반면 기계 학습에서는 변수 선택 도구로 간주됩니다. 머신러닝과 통계분석, 빅데이터 시대가 도래하기 이전에는 서로 배우고 서로 배우는 그런 과정이 있었다. 알고리즘 공학의 풍미가 강한 기술인 교차 검증(cross-validation)은 통계적 방법(주로 점 추정)의 연구에도 널리 사용되며 잘 작동합니다.

기계 학습이 폭발하기 훨씬 전 10년 동안 통계적 학습은 수학적 이론에 의존하여 인과 관계를 설명할 수 있는 능력의 관점에서 신의 기능을 찾는 데 앞장섰습니다. 제 생각에는 통계 학습의 가장 중요한 두 부분은 회귀 분석과 가설 테스트입니다. 통계 학습의 틀 아래에서 다른 방법이나 기술은 궁극적으로 두 가지를 제공합니다. 회귀 분석은 인과 관계를 설명하는 무기를 제공하고 가설 테스트 무기를 무기로 제공합니다. 단순 선형 회귀는 최소 제곱법을 사용하여 사실에 대한 근사의 참을 해결한 다음 유의성 테스트를 사용하여 변수의 유의성, 모델의 유의성 및 모델의 적합 정확도를 감지합니다. 물론 선형성에 속하는지 여부는 가설 검정 방법을 사용하여 감지할 수도 있습니다. 비선형 회귀 문제의 경우 최대 우도 추정 또는 부분 최소 제곱 회귀를 사용하여 모델을 해결하고 후속 유의성 테스트는 여전히 동일한 아이디어입니다. 유의성 테스트는 그 자체로 통계적 학습의 일부 제한된 가정으로 인해 발생하는 한계가 있으며 인과 관계를 설명하기 위한 보다 강력한 방법 프레임워크가 나타나기 전에 여전히 인과 관계를 설명하는 첫 번째 선택입니다. 거칠게 보이지만 작동합니다.

우리는 로지스틱 회귀 모델 측면에서 통계 학습을 이해합니다. 통계 방법론의 관점에서 로지스틱 회귀는 대상 변수가 이진 분포에 속하는 비선형 모델에서 탄생합니다. 모든 회귀 문제는 안정적인 통계(예: 대상 변수의 예상 또는 중앙값)와 설명 변수 간의 기능적 관계를 결정하는 것으로 귀결됩니다. 이 기능적 관계는 대상 변수가 지수 분포군을 따를 때 구조를 추론할 수 있으며 구조에서 알 수 없는 매개변수만 해결하면 됩니다. 이 구조를 시그모이드 함수라고 하며 정보학에서 자주 사용합니다. 따라서 로지스틱 회귀가 통계적 관점에서 엄격한 수학적 설명과 추론을 얻을 수 있는 이유는 모두 분포를 따른다는 강력한 가정에 달려 있습니다. 이러한 가정하에 전개된 일련의 이론은 데이터를 통해 세상을 배우는 초기 단계에서 인과관계를 설명하기 위한 최적의 틀을 제공합니다.

로지스틱 회귀의 관점에서 기계 학습을 살펴보겠습니다. 기계 학습은 딥 러닝 또는 강화 학습과 함께 원래 빅 데이터 하에서 예측 능력을 해결하기 위해 제안되고 개발되었습니다. 현재 가장 널리 사용되는 이미지 인식, 금융 분야의 대출 위험 식별을 포함한 음성 인식은 기계 학습 개발을 위한 매우 풍부한 토양을 제공합니다. 즉, 매우 많은 양의 데이터와 매우 큰(그리고 매우 희소한) 데이터 기능입니다. 이 시나리오에서 문제를 처리할 때 전통적인 회귀 분석이 만족스러운 수준의 수렴 속도와 예측 정확도를 달성할 수 없다는 것은 잘 알려져 있습니다. 회귀 모델을 해결하는 것은 선형 문제가 아니며 모델 훈련 단계에서 분산 시스템은 알고리즘 반복 프로세스 중에 계산 속도를 향상시키는 데만 사용할 수 있으며 알고리즘 속도의 향상은 제한적입니다. 고차원 데이터에서 자주 접하는 희소 문제는 회귀 모델에서 많은 전처리가 필요하며 알고리즘의 최종 수렴 및 추정 정확도를 보장하기 어렵습니다. 반면 로지스틱 회귀는 신경망 알고리즘의 특수한 경우로 볼 수 있습니다. 숨겨진 레이어가 삭제되고 입력 레이어와 출력 레이어가 시그모이드 함수로 직접 연결됩니다. 로지스틱 회귀의 원래 프레임워크에서 매개변수 조정을 통해 숨겨진 레이어를 추가하면 큰 샘플과 매우 희소한 데이터 분류 문제의 처리를 크게 향상시킬 수 있습니다. 우리에게는 숨겨진 레이어 출력의 특성이 여전히 신의 선택과 유사하지만 기계는 훈련 과정에서 기존 입력 및 출력 정보를 기반으로 수동 선택보다 더 나은 데이터 특성을 얻었습니다.최종 모델 예측 능력 측면에서 크게 원래 기능 선택을 능가합니다.

그렇다면 동일한 로지스틱 회귀 모델에 대한 통계 학습과 기계 학습의 장단점은 무엇입니까? 통계적 추론 이론에는 절충-편향-분산 트레이드오프가 있습니다. 즉, 실제 값에 가까운 통계 추정기를 찾을 때 추정 정확도 측면에서 보유한 데이터의 상태를 고려합니다. 및 추정 신뢰성 사이에 균형을 맞출 필요가 있습니다. 예를 들어 편차가 작은 추정량을 얻으려면 약간의 신뢰도를 희생해야 합니다. 그리고 우리가 신뢰도를 중시하고 신뢰도의 간격이 가능한 한 작기를 바란다면, 우리가 얻는 추정량은 실제 값에서 크게 벗어날 수 있습니다.

이것은 우리가 하나님의 기능에 접근하는 과정에서 만나는 문제이기도 합니다. 통계적 추론 재해석, 기계 학습 재예측. 작은 샘플에서 로지스틱 회귀에 기반한 선형 분류기의 예측 효과는 일반적으로 신경망 및 기타 앙상블 알고리즘보다 나쁘지 않으며 설명력이 더 강합니다. 데이터 양이 많을수록 신경망의 예측 능력이 더 강해지고 회귀와 같은 통계적 추론 방법이 더 무력해집니다. 표본 크기가 작은 경우, 데이터의 양이 제한되어 있고, 특징들 사이에 공선성이 있는지 여부를 찾는 것이 어렵지 않으며, 특징 선택이 소수의 차원에서만 수행되는 모델 능력의 예측은 우리가 통제할 수 있는 범위 내에서 최선을 다하는 것이 어렵지 않습니다. 샘플 크기가 제어 가능한 범위를 초과하기에 너무 큰 경우 예측 능력은 우리가 더 중요하게 생각하는 것입니다. 이때 특징 선택과 특징 간 상관관계 검출은 우리의 능력을 초과하여 컴퓨팅 속도를 크게 저하시키므로 특징의 상관관계 검출을 간접적으로 희생하는 것은 모델의 해석 능력을 포기하는 것을 의미합니다. 이런 관점에서, 현 단계에서는 God function의 두 가지 필수 조건을 만족하고 God function에 근접하는 좋은 통계적 또는 기계 학습 모델이 없습니다.

통계적 추론 개발의 초기 단계에서는 데이터 수집 기능과 데이터 컴퓨팅 기능에 국한되어 작은 데이터 문제를 해결하는 경우가 많습니다. 한정된 리소스에서 더 많은 정보를 발굴하고 더 정확한 견적을 얻는 방법. 정확도에 대한 요구 사항은 알고리즘의 속도 및 확장성에 대한 요구 사항보다 훨씬 큽니다. 기계 학습은 공학적 관점에서 시작되었고 가장 먼저 해결해야 할 문제는 효율성이었습니다. 이는 비용 절감, 구성 최적화 및 효율성 향상을 바라는 빅 데이터 애플리케이션의 원래 의도와 일치합니다. 따라서 머신러닝 모델은 방대한 양의 데이터의 경우 가능한 한 빠르고 확장성과 제어성이 강해야 하며 분산 시스템이 나온 후에는 배포가 용이해야 합니다. 그리고 정확도는 더 이상 해결해야 할 첫 번째 문제가 아닙니다. 매우 많은 양의 데이터로 인해 기계 학습 모델이 결과에 대한 높은 허용 오차를 초래합니다. 은행의 ToB 대출 업무는 막대한 대출 금액과 대출 상환 능력에 대한 엄격한 요구 사항으로 인해 수학적 모델 분석은 보조적으로만 사용할 수 있으며 위험 제어 부분은 엄격한 회사 재무 분석 및 산업 분석이 필요합니다. 그러나 전통적인 은행 대출 시스템의 롱테일 사업인 ToC의 p2p 대출과 소비자 금융은 거래량이 많고 단일 거래 금액이 상대적으로 적기 때문에 어느 정도의 예측 정확도를 보장한다는 전제하에 위험 통제를 위해 기계 학습 모델을 사용하면 사전 대출 검토, 대출 승인 및 상환이라는 폐쇄 루프 비즈니스의 효율성을 크게 향상시킬 수 있습니다.

통계적 회귀 모델과 비교할 때 기계 학습의 가장 큰 장점은 모델의 제어 가능성과 확장성에 있습니다. 이해하는 방법? 부스팅 또는 앙상블 알고리즘 자체는 약한 분류기 중 하나로 로지스틱 회귀를 사용할 수 있습니다. 이론적으로 우리는 모두 수렴할 때까지 무한한 수의 분류기를 훈련시킨 다음 결과를 요약할 수 있습니다. 동시에, 손실 함수 선택에 있어 기계 학습 모델은 통계적 회귀 모델보다 더 많은 자유도를 가집니다. 예를 들어 분류 결정 트리 유형 모델의 경우 GINIindex를 선택하거나 엔트로피를 사용하여 정보 손실을 정의하여 다른 결정 트리 알고리즘을 설정할 수 있습니다. 특정 알고리즘 매개 변수의 반복 프로세스에서 작업 속도를 향상시키기 위해 기계 학습 전문가는 기능을 압축하거나 배깅에 따라 기능 샘플링 방법을 사용하여 기능 차원을 줄입니다. 고차원 데이터를 다룰 때 전통적인 회귀 모델은 정규 용어 압축을 추가할 수 있지만 유의성 테스트를 통해 변수를 삭제하는 고전적인 방법은 대규모로 사용할 수 없습니다. 모델의 제어 가능성 측면에서 회귀 모델의 경우 모델의 적합도가 충분하지 않을 때 기능 추가 및 기능 변환을 통해 훈련 세트에서 모델의 정확도를 높일 수 있지만 비용은 모델의 자유도(자유롭게 할당할 수 있는 기능의 수)가 너무 빨리 증가하고 과적합 문제가 발생합니다. 랜덤 포레스트와 같은 기계 학습 모델의 경우 훈련 결과가 충분하지 않을 때 훈련 추정 오류를 줄이기 위해 트리를 추가하여 더 많은 트리를 훈련합니다. 이 방법의 각 적용이 모델에 미치는 영향은 상대적으로 약하지만 누적 효과는 여전히 정확도 향상 요구 사항을 충족할 수 있습니다. 동시에 모델의 자유도가 급격히 증가하지 않으며 모델의 규모를 효과적으로 제어하여 과적합을 방지할 수 있습니다. 또한 실제 데이터에 노이즈가 많거나 적기 때문에 기존의 회귀 모델은 노이즈 방지 기능이 강하지 않으며 예측 기능을 보장하기 위해 많은 데이터 정리 작업이 필요합니다. 모델. 결정 트리 모델과 신경망 모델은 모델 설계의 관점에서 결측값을 처리하기가 더 쉽습니다.

요약하면, 최상의 모델 선택은 없으며 가장 적합한 모델만 있습니다. 비즈니스 배경과 비즈니스 요구 사항에서 벗어나 단순히 알고리즘 속도 또는 피팅 정확도를 추구하는 것은 끝을 쫓는 것입니다.

추천

출처blog.csdn.net/cyfcsd/article/details/117262369