Wu Enda: 기계 학습의 6가지 핵심 알고리즘!

 Datawhale 건조물 

Editor: Johngo 선임 , 출처: AI Technology Review

최근 Wu Enda는 기계 학습 분야에서 여러 기본 알고리즘의 역사적 기원을 요약하는 인공 지능 주간지 "The Batch"의 블로그 게시물을 업데이트했습니다.

기사 시작 부분에서 Ng Enda는 연구 과정에서 내린 결정을 다음과 같이 회상했습니다.

수년 전 프로젝트에서 그는 알고리즘을 선택할 때 신경망과 결정 트리 학습 알고리즘 중 하나를 선택해야 했습니다. 컴퓨팅 예산을 고려하여 오랫동안 강화된 결정 트리를 포기한 그는 마침내 신경망을 선택했습니다.

Wu Enda는 "다행히 우리 팀이 내 선택을 신속하게 수정했고 프로젝트가 성공적이었습니다."라고 말했습니다.

그는 기본 지식을 지속적으로 학습하고 업데이트하는 것이 매우 중요하다고 한숨을 쉬었다. 다른 기술 분야와 마찬가지로 기계 학습 분야는 더 많은 연구자와 연구 결과의 수로 끊임없이 진화하고 있습니다. 그러나 몇 가지 기본 알고리즘과 핵심 아이디어의 기여는 시간의 테스트를 견딜 수 있습니다.

  • 알고리즘: 선형 및 로지스틱 회귀, 결정 트리 등

  • 개념: 정규화, 손실 함수 최적화, 바이어스/분산 등

Wu Enda의 관점에서 이러한 알고리즘과 개념은 주택 가격 예측기, 텍스트 이미지 생성기(예: DALL·E) 등을 포함한 많은 기계 학습 모델의 핵심 아이디어입니다.

최신 기사에서 Wu Enda와 그의 팀은 6가지 기본 알고리즘의 소스, 사용 및 진화를 조사하고 보다 자세한 설명을 제공했습니다.

이 6가지 알고리즘은 선형 회귀, 로지스틱 회귀, 경사 하강법, 신경망, 결정 트리 및 k-평균 클러스터링 알고리즘입니다.

1

선형 회귀: 직선 및 좁음

선형 회귀는 기계 학습의 핵심 통계 방법이지만 싸움 없이는 이길 수 없습니다. 두 명의 뛰어난 수학자에 의해 제안되었지만 200년이 지난 후에도 문제는 풀리지 않은 채로 남아 있습니다. 오랜 논쟁은 알고리즘의 탁월한 유용성뿐만 아니라 근본적인 단순성도 입증합니다.

그렇다면 누구의 알고리즘이 선형 회귀입니까?

1805년 프랑스의 수학자 Adrien-Marie Legendre는 혜성의 위치를 ​​예측하는 동안 일련의 점에 선을 맞추는 방법을 발표했습니다. 오늘은 지능형).

4637e15168737a70e4dcb171bb802a98.png

캡션: Adrien-Marie Legendre의 스케치 초상화

4년 후, 24세의 독일 신동 칼 프리드리히 가우스(Carl Friedrich Gauss)는 1795년부터 사용했지만 글을 쓰기에는 너무 사소하다고 생각했습니다. Gauss의 주장은 Legendre가 "매우 저명한 기하학자가 이 방법을 채택하는 데 주저하지 않았다"는 익명의 기사를 게시하도록 자극했습니다.

6f03a5998d39c3a2ebc5d15c07bd9fdc.png

전설: 칼 프리드리히 가우스

기울기와 편향 : 선형 회귀는 결과와 결과에 영향을 미치는 변수 사이의 관계가 직선을 따를 때 유용합니다. 예를 들어 자동차의 연료 소비량은 무게와 선형 관계가 있습니다.

  • 자동차의 연료 소비량 y와 무게 x 사이의 관계는 직선의 기울기 w(무게에 따라 연료 소비량이 증가하는 정도)와 편향 항 b(무게에서 연료 소비량)에 따라 달라집니다. y=w*x+b.

  • 훈련하는 동안 자동차의 무게가 주어지면 알고리즘은 예상 연료 소비량을 예측합니다. 예상 연료 소비량과 실제 연료 소비량을 비교합니다. 그런 다음 w와 b의 값을 연마하기 위해 일반적으로 일반적인 최소 제곱 기법으로 차이 제곱을 최소화합니다.

  • 자동차의 항력을 고려하면 보다 정확한 예측을 생성할 수 있습니다. 추가 변형은 선을 평면까지 확장합니다. 이러한 방식으로 선형 회귀는 여러 변수/차원을 수용할 수 있습니다.

대중화를 위한 두 단계 : 알고리즘은 즉시 항법사가 별을 추적하는 데 도움이 되었으며 이후 생물학자(특히 Charles Darwin의 사촌 Francis Galton)는 식물과 동물의 유전 특성을 식별했습니다. 이 두 가지 심층 개발은 선형 회귀의 광범위한 잠재력을 열어줍니다. 1922년 영국의 통계학자인 Ronald Fisher와 Karl Pearson은 선형 회귀가 상관관계 및 분포의 일반적인 통계적 틀에 어떻게 들어맞는지 보여 모든 과학에서 유용하게 만들었습니다. 그리고 거의 100년 후, 컴퓨터의 출현으로 데이터를 훨씬 더 많이 활용할 수 있는 처리 능력과 데이터가 제공되었습니다.

모호성 처리 : 물론 데이터는 완벽하게 측정되지 않으며 일부 변수는 다른 변수보다 더 중요합니다. 이러한 삶의 사실은 더 복잡한 변형에 영감을 주었습니다. 예를 들어, 정규화를 통한 선형 회귀("릿지 회귀"라고도 함)는 선형 회귀 모델이 어느 하나의 변수에 너무 많이 의존하지 않거나 오히려 가장 중요한 변수에 고르게 의존하도록 권장합니다. 단순화를 위해 다른 형태의 정규화(L2 대신 L1)는 올가미(압축된 추정치)를 생성하여 가능한 한 많은 계수가 0이 되도록 권장합니다. 즉, 예측력이 높은 변수를 선택하고 나머지는 무시하는 방법을 학습합니다. Elastic net은 두 가지 유형의 정규화를 결합합니다. 데이터가 희박하거나 기능이 상관관계가 있는 것으로 나타날 때 유용합니다.

모든 뉴런에서 : 이제 간단한 버전이 여전히 매우 유용합니다. 신경망에서 가장 일반적인 유형의 뉴런은 선형 회귀 모델이며 그 뒤에 비선형 활성화 함수가 있어 선형 회귀를 딥 러닝의 기본 부분으로 만듭니다.

2

로지스틱 회귀: 곡선을 따라

한 가지만 분류하기 위해 로지스틱 회귀 분석을 사용했던 때가 있었습니다. 독약을 마셨다면 "살아있다" 또는 "죽었다"로 분류될 가능성이 있었습니까? 시대가 바뀌었고 오늘날 응급 서비스에 전화하는 것이 이 질문에 대한 더 나은 대답일 뿐만 아니라 로지스틱 회귀가 딥 러닝의 핵심입니다.

독성 제어 :

로지스틱 함수는 벨기에 통계학자 PF Verhulst가 인구 역학을 설명하기 위해 발명한 1830년대로 거슬러 올라갑니다. 100여 년 후, 미국 통계학자 EB 윌슨과 그의 제자 제인 우스터는 주어진 유해 물질이 얼마나 치명적인지 계산하기 위해 로지스틱 회귀 분석을 고안했습니다.

81f567d81ff8c597d2244f0be450bf88.png

캡션: PF Verhulst

적합 함수 : 로지스틱 회귀는 특정 결과(예: 조기 사망)에 대해 주어진 이벤트(예: 스트리키닌 섭취)의 확률을 예측하기 위해 데이터 세트에 로지스틱 함수를 적합시킵니다.

  • 훈련은 함수 출력과 데이터 사이의 오류를 최소화하기 위해 곡선의 중심을 수평으로, 곡선의 중앙을 수직으로 조정합니다.

  • 중앙을 오른쪽이나 왼쪽으로 조정한다는 것은 평범한 사람을 죽이는 데 어느 정도 독이 든다는 것을 의미합니다. 경사의 가파름은 확실성을 의미합니다: 중간 지점 이전에 대부분의 사람들이 살아남고 절반 이상이 "그냥 작별인사"(죽음을 의미)합니다. 완만한 ​​경사는 더 관대합니다: 곡선의 중앙 아래에서는 절반 이상이 생존하고 더 위로 올라가면 절반 미만이 생존합니다.

  • 한 결과와 다른 결과 사이에 임계값(예: 0.5)을 넣으면 곡선이 분류자가 됩니다. 모델에 용량을 입력하기만 하면 파티를 계획해야 하는지 장례식을 계획해야 하는지 알 수 있습니다.

더 많은 결과 : Verhulst의 작업은 중독 피해자가 사후 세계의 어느 쪽에서 끝날 수 있는지와 같은 추가 가능성을 무시하고 이진 결과의 확률을 발견했습니다. 그의 후계자들은 알고리즘을 확장했습니다.

  • 1960년대 후반에 영국 통계학자 David Cox와 네덜란드 통계학자 Henri Theil은 두 가지 이상의 가능한 결과가 있는 상황에 대해 독립적으로 로지스틱 회귀를 수행했습니다.

  • 추가 작업으로 결과가 순서 값인 순서 로지스틱 회귀가 생성되었습니다.

  • 희소 또는 고차원 데이터를 처리하기 위해 로지스틱 회귀는 선형 회귀와 동일한 정규화 기술을 활용할 수 있습니다.

3e62505d92a383e071910f59ef9052f7.png

레전드: 데이비드 콕스

다기능 곡선 : 로지스틱 함수는 상당히 정확한 방식으로 광범위한 현상을 설명하므로 로지스틱 회귀는 많은 상황에서 유용한 기본 예측을 제공합니다. 의학에서는 사망률과 질병 위험을 추정합니다. 정치학에서는 선거의 승자와 패자를 예측합니다. 경제학에서는 사업 전망을 예측합니다. 더 중요한 것은 다양한 신경망(비선형성이 시그모이드 함수인 경우)에서 뉴런의 하위 집합을 구동한다는 것입니다.

경사 하강법: 모든 것이 내리막입니다

해가 진 후 산에서 하이킹을 했는데 발 아래에 아무것도 보이지 않는다는 것을 알게 되었다고 상상해 보십시오. 그리고 휴대폰 배터리가 방전되어 GPS 앱을 사용하여 집으로 가는 길을 찾을 수 없습니다. 경사 하강법으로 가장 빠른 경로를 찾을 수 있습니다. 절벽에서 떨어지지 않도록 조심하세요.

태양과 카펫: 경사 하강은 가파른 지형을 통해 하강하는 것보다 더 유익합니다. 1847년 프랑스 수학자 오귀스탱-루이 코시(Augustin-Louis Cauchy)는 별의 궤도를 추정하는 알고리즘을 발명했습니다. 60년 후, 그의 동포 Jacques Hadamard는 카펫과 같이 얇고 유연한 물체의 변형을 설명하기 위해 독립적으로 이 용어를 개발했습니다. 그러나 기계 학습에서 가장 일반적으로 사용되는 것은 학습 알고리즘의 손실 함수의 가장 낮은 지점을 찾는 것입니다.

b29a6e7b3bf8939a6a8de4168c70beb6.png

캡션: Augustin-Louis Cauchy

아래로 내려가기 : 훈련된 신경망은 입력이 주어지면 원하는 출력을 계산하는 기능을 제공합니다. 네트워크를 훈련시키는 한 가지 방법은 실제 출력과 원하는 출력 간의 차이를 반복적으로 계산한 다음 차이를 줄이기 위해 네트워크의 매개 변수 값을 변경하여 출력의 손실 또는 오류를 최소화하는 것입니다. 경사하강법은 차이를 좁혀 손실을 계산하는 함수를 최소화합니다. 네트워크의 매개변수 값은 지형의 위치와 동일하며 손실은 현재 높이입니다. 아래로 내려감에 따라 네트워크가 원하는 출력에 더 가깝게 계산하는 능력을 높일 수 있습니다. 일반적인 감독 학습 상황에서 알고리즘은 네트워크의 매개변수 값과 손실 함수의 기울기 또는 기울기에만 의존하기 때문에 가시성이 제한됩니다. 피트.

  • 기본 접근 방식은 지형이 가장 가파르게 내려가는 방향으로 이동하는 것입니다. 트릭은 보폭을 보정하는 것입니다. 보폭이 너무 작으면 진행하는 데 시간이 오래 걸리고 너무 크면 미지의 영역으로 뛰어들게 됩니다.

  • 현재 위치가 주어지면 알고리즘은 손실 함수의 기울기를 계산하여 가장 빠른 하강 방향을 추정합니다. 그래디언트가 오르막을 가리키는 경우 알고리즘은 그래디언트의 일부를 빼서 반대 방향으로 이동합니다. 학습 속도라고 하는 분수 α는 그래디언트가 다시 측정되기 전에 단계 크기를 결정합니다.

  • 이 몇 단계를 반복하면 계곡에 도달할 수 있기를 바랍니다. 축하해요!

Stuck in a valley : 알고리즘이 당신을 볼록한 산의 바닥으로 밀어내지 않았기 때문에 당신의 전화가 죽었다는 것이 안타깝습니다. 여러 계곡(로컬 최소값), 산봉우리(로컬 최대값), 안장점(안장점) 및 고원으로 구성된 볼록하지 않은 풍경에 갇힐 수 있습니다. 실제로 이미지 인식, 텍스트 생성 및 음성 인식과 같은 작업은 볼록하지 않으며 이러한 상황을 처리하기 위해 다양한 경사 하강법 변형이 등장했습니다. 예를 들어, 알고리즘은 작은 기복을 증폭시켜 바닥에 도달할 가능성을 높이는 데 도움이 되는 모멘텀을 가질 수 있습니다. 연구원들은 너무 많은 변형을 설계하여 로컬 최소값만큼 많은 최적화 프로그램이 있는 것으로 보입니다. 다행스럽게도 지역 최소값과 전체 최소값은 거의 같은 경향이 있습니다.

Optimal optimizers : Gradient descent는 모든 함수의 최소값을 찾기 위한 확실한 선택입니다. 정확한 솔루션을 직접 계산할 수 있는 경우(예: 많은 변수가 있는 선형 회귀 작업) 값을 더 빠르고 저렴한 비용으로 근사화할 수 있습니다. 그러나 복잡한 비선형 작업에서는 역할을 합니다. 경사 하강과 모험심으로 저녁 식사 시간에 맞춰 산에서 나올 수 있을지도 모릅니다.

4

신경망: 함수 찾기

먼저 이 문제를 해결해 보겠습니다. 뇌는 일련의 그래픽 처리 장치가 아니며 만약 그렇다면 일반적인 인공 신경망보다 훨씬 더 복잡한 소프트웨어를 실행합니다. 반면에 신경망은 뇌의 구조에서 영감을 받았습니다. 상호 연결된 뉴런 층은 각각 이웃의 상태를 기반으로 자체 출력을 계산하고 그 결과 일련의 활동이 생각을 형성하거나 인식합니다. 고양이 그림입니다.

생물학적에서 인공적으로 : 뇌가 뉴런 간의 상호 작용을 통해 학습한다는 생각은 1873년으로 거슬러 올라갑니다. 그러나 미국의 신경과학자 Warren McCulloch와 Walter Pitts가 간단한 수학적 규칙을 사용하여 생물학적 신경망을 모델링한 것은 1943년이 되어서였습니다. 1958년 미국의 심리학자 Frank Rosenblatt는 미 해군을 위한 하드웨어 버전 구축을 목표로 천공 카드에 구현된 단층 시각 네트워크인 센서를 개발했습니다.

c036f49a75c74d98d2a61d8562175af0.png

레전드: 프랭크 로젠블랫

클수록 좋다 : Rosenblatt의 발명품은 한 줄 분류만 인식할 수 있습니다. 나중에 우크라이나 수학자 Alexey Ivakhnenko와 Valentin Lapa는 임의의 수의 레이어에 뉴런 네트워크를 쌓음으로써 이러한 한계를 극복했습니다. 1985년 프랑스 컴퓨터 과학자 Yann LeCun, David Parker, 미국 심리학자 David Rumelhart와 동료들은 독립적으로 작업하면서 이러한 네트워크를 효율적으로 훈련하기 위해 역전파를 사용하는 방법을 설명했습니다. 새 천년의 첫 10년 동안 Kumar Chellapilla, Dave Steinkraus 및 Rajat Raina(Andrew Ng와 공동 작업)를 포함한 연구원들은 그래픽 처리 장치를 사용하여 신경망 개발을 더욱 추진했습니다. 인터넷에서 생성되는 방대한 양의 데이터.

모든 작업에 적합 : 신경망의 원리는 간단합니다. 모든 작업에는 해당 작업을 수행하는 기능이 있습니다. 신경망은 각각 단일 뉴런에 의해 실행되는 여러 간단한 기능을 결합하여 훈련 가능한 기능을 형성합니다. 뉴런의 기능은 "가중치"라는 조정 가능한 매개변수에 의해 결정됩니다. 이러한 가중치와 입력 예제 및 원하는 출력에 대한 임의 값이 주어지면 훈련 가능한 함수가 당면한 작업을 수행할 때까지 가중치를 반복적으로 변경할 수 있습니다.

  • 뉴런은 다양한 입력(예: 픽셀이나 단어를 나타내는 숫자 또는 이전 레이어의 출력)을 받아 가중치와 곱하고 곱을 더하고 비선형 함수 또는 함수의 개발자 합계에 의해 선택된 활성화를 유도합니다. 기간 동안 선형 회귀에 활성화 함수를 더한 것으로 간주해야 합니다.

  • 교육은 가중치를 수정합니다. 각 예제 입력에 대해 네트워크는 출력을 계산하고 예상 출력과 비교합니다. 역전파는 실제 출력과 예상 출력 간의 차이를 줄이기 위해 경사 하강법을 통해 가중치를 변경할 수 있습니다. 이 프로세스가 충분한(좋은) 예제와 함께 충분히 반복되면 네트워크는 작업을 수행하는 방법을 학습할 수 있습니다.

블랙박스 : 운 좋게도 잘 훈련된 네트워크가 제 역할을 할 수 있지만, 종종 수천 개의 변수와 중첩된 활성화 함수가 포함된 너무 복잡한 함수를 읽게 되므로 네트워크를 해석하는 작업을 성공적으로 완료하는 방법 또한 매우 어렵습니다. 어려운. 또한 잘 훈련된 네트워크는 학습한 데이터만큼 우수합니다. 예를 들어 데이터 세트가 편향된 경우 네트워크의 출력도 편향됩니다. 고양이의 고해상도 이미지만 포함된 경우 저해상도 이미지에 어떻게 반응할지 알 수 없습니다.

상식: New York Times는 Rosenblatt의 1958년 센서 발명에 대해 "미 해군은 걷고, 말하고, 보고, 쓰고, 복제하는 기계를 원한다"고 언급하면서 AI 과대 광고를 개척했습니다. 자신의 존재를 인식하는 컴퓨터." 당시의 센서로는 부족했지만 이미지용 컨볼루션 신경망, 텍스트용 순환 신경망, 이미지, 텍스트, 음성, 비디오, 단백질 구조 등 예를 들어 Go에서 인간 수준의 성능을 능가하고 X선 이미지 진단과 같은 실제 작업에서 인간 수준의 성능에 접근하는 놀라운 일을 해냈습니다. 그러나 그들은 여전히 ​​상식과 논리적 추론에 어려움을 겪고 있습니다.

5

결정 트리: 루트에서 리프까지

아리스토텔레스는 어떤 종류의 "짐승"이었습니까? 3세기에 시리아에 살았던 철학자 포르피리우스의 추종자는 이 질문에 답하는 논리적인 방법을 제시했습니다. 그는 아리스토텔레스가 제안한 "존재의 범주"를 일반에서 특수로 그룹화하여 각 범주에 아리스토텔레스를 차례로 배치했습니다. 비합리적이다. 따라서 그의 분류는 인간입니다. 중세 논리학 교사들은 이 순서를 초기 결정 트리인 수직 순서도로 그렸습니다.

숫자의 차이 : 1963년으로 거슬러 올라가서 미시간 대학의 사회학자 John Sonquist와 경제학자 James Morgan이 설문 조사 응답자를 그룹화할 때 컴퓨터에서 처음으로 의사 결정 트리를 구현했습니다. 이 작업은 알고리즘을 자동으로 훈련시키는 소프트웨어의 출현으로 보편화되었으며 의사 결정 트리는 이제 scikit-learn 등을 포함한 다양한 기계 학습 라이브러리에서 사용됩니다. 이 코드는 Stanford University와 University of California, Berkeley의 통계학자 4명이 10년에 걸쳐 개발했습니다. 이제 처음부터 의사 결정 트리를 작성하는 것은 Machine Learning 101의 숙제가 되었습니다.

Roots in the air : 결정 트리는 분류 또는 회귀를 수행할 수 있습니다. 입력 예제의 하나의 결정 계층을 둘(또는 그 이상)으로 분류하기 위해 루트에서 캐노피까지 아래로 확장됩니다. 독일의 의학자이자 인류학자인 요한 블루멘바흐(Johann Blumenbach)의 주제를 생각해 보십시오. 원숭이와 유인원은 그 이전인 1776년경에 원숭이와 유인원(인간은 제외)을 처음으로 구분했을 때 한 덩어리로 분류되었습니다. 이 분류는 꼬리가 있는지, 가슴이 좁거나 넓은지, 똑바로 서 있는지 또는 웅크리고 있는지, 그리고 지능 수준과 같은 다양한 기준을 기반으로 합니다. 이러한 동물에 레이블을 지정하기 위해 훈련된 의사 결정 트리를 사용하여 각 기준을 하나씩 고려하여 최종적으로 두 그룹의 동물을 분리합니다.

  • 트리는 모든 사례(침팬지, 고릴라, 오랑우탄은 물론 꼬리감는원숭이, 개코원숭이, 마모셋)를 포함하는 생물학적 데이터베이스로 간주될 수 있는 루트 노드에서 시작합니다. 루트는 특정 특성을 표시할지 여부에 따라 두 자식 노드 사이에서 선택을 제공하므로 해당 특성이 있는 예제와 없는 예제를 포함하는 두 자식 노드가 생성됩니다. 유사하게 프로세스는 각각 범주의 대부분 또는 전부를 포함하는 임의의 수의 리프 노드로 끝납니다.

  • 트리가 성장하려면 루트 결정을 찾아야 합니다. 선택하려면 모든 기능과 해당 값(후부 부속물, 배럴 흉부 등)을 고려하고 분할 순도를 최대화하는 항목을 선택합니다. "최적 순도"는 특정 자식 노드로 이동하고 다른 노드로 이동하지 않는 클래스 인스턴스의 100%로 정의됩니다. 포크는 단 한 번의 결정 후에 100% 순수한 경우가 거의 없으며 앞으로도 없을 것입니다. 이 프로세스가 계속되면 더 많은 기능을 고려하여 순도가 크게 증가하지 않을 때까지 자식 노드가 한 단계씩 생성됩니다. 이 시점에서 트리는 완전히 학습됩니다.

  • 추론 시 새 예제는 의사결정 트리를 위에서 아래로 통과하여 각 수준에서 서로 다른 의사결정의 평가를 완료합니다. 리프 노드에 포함된 데이터 레이블을 가져옵니다.

Top 10에 들어가기: 의사 결정 트리를 확장하여 유인원과 원숭이뿐만 아니라 인간을 분류하는 것에 대해? 호주의 컴퓨터 과학자 John Ross Quinlan은 1986년 ID3로 이를 가능하게 했습니다. 2008년 IEEE 국제 데이터 마이닝 컨퍼런스에서 계획한 상위 10개 데이터 마이닝 알고리즘 목록에서 C4.5라는 이름의 확장 정제 알고리즘이 최고였습니다. 혁신이 만연하는 세상에서 그것은 지속력입니다.

잎 자르기: 결정 트리에는 몇 가지 단점이 있습니다. 리프 노드에 단일 예만 포함되도록 여러 수준의 계층 구조를 추가하여 데이터를 쉽게 과적합할 수 있습니다. 더 나쁜 것은 나비 효과가 발생하기 쉽습니다. 하나의 인스턴스를 교체하면 결과 트리가 매우 달라집니다.

숲 속으로: 미국 통계학자 Leo Breiman과 뉴질랜드 통계학자 Adele Cutler는 이 기능을 활용하여 2001년에 랜덤 포레스트를 개발했습니다. 의사결정 트리 모음은 서로 다르고 겹치는 예제 선택이 처리되고 최종 결과에 투표됩니다. . Random Forest와 그 사촌인 XGBoost는 과대적합될 가능성이 적어 가장 인기 있는 기계 학습 알고리즘 중 하나가 됩니다. 마치 아리스토텔레스, 포르피리우스, 블루멘바흐, 다윈, 제인 구달, 다이안 포시, 그리고 1,000명의 다른 동물학자들이 한 자리에 모여 당신의 분류가 최선인지 확인하는 것과 같습니다.

6

K-Means 클러스터링: Groupthink

파티에서 다른 사람들과 가까이 서 있으면 공통점이 있을 가능성이 있습니다. 이것은 k-means 클러스터링을 사용하여 데이터 포인트를 그룹화하는 아이디어입니다. 그룹이 사람을 통해 형성되든 다른 힘을 통해 형성되든 알고리즘은 그룹을 찾습니다.

폭발에서 발신음까지 : Bell Labs의 상징적인 혁신 공장과 원자 폭탄을 발명한 맨해튼 프로젝트의 졸업생인 미국의 물리학자 Stuart Lloyd는 1957년 디지털 신호로 정보를 분배하기 위해 k-평균 클러스터링을 처음 제안했지만 이 작업은 그렇지 않았습니다. 1982년까지 출판:

f9fecf174cac942495bd4095e950ca79.png

종이 주소: https://cs.nyu.edu/~rowis/csc2515-2006/readings/lloyd57.pdf

한편, 미국의 통계학자인 Edward Forgy는 1965년에 유사한 방법을 설명하여 "Lloyd-Forgy 알고리즘"이라는 대체 이름으로 이어졌습니다.

허브 찾기 : 클러스터를 같은 생각을 가진 작업 그룹으로 나누는 것을 고려하십시오. 방에 있는 참가자의 위치와 형성할 그룹의 수를 고려할 때 k-평균 군집화는 참가자를 대략 동일한 크기의 그룹으로 나눌 수 있으며 각 그룹은 중심점 또는 중심 주위에 모여 있습니다.

  • 교육 중에 알고리즘은 처음에 k명을 무작위로 선택하여 k개의 중심을 할당합니다. (K는 ​​수동으로 선택해야 하며 최적의 값을 찾는 것이 때때로 매우 중요합니다.) 그런 다음 각 사람을 가장 가까운 중심과 연결하여 k개의 클러스터를 성장시킵니다.

  • 각 클러스터에 대해 해당 그룹에 할당된 모든 사람의 평균 위치를 계산하고 이 평균 위치를 새 중심으로 할당합니다. 각각의 새로운 중심은 한 사람이 점유하지 않을 수 있지만 그렇다면 어떻게 될까요? 사람들은 초콜릿과 퐁듀 주위에 모이는 경향이 있습니다.

  • 새로운 중심을 계산한 후 알고리즘은 개인을 가장 가까운 중심에 재할당합니다. 그런 다음 중심(및 주변 그룹)이 더 이상 움직이지 않을 때까지 새 중심을 계산하고 클러스터를 조정하는 등의 작업을 수행합니다. 그런 다음 올바른 클러스터에 새 구성원을 쉽게 할당할 수 있습니다. 방에 배치하고 가장 가까운 중심을 찾으십시오.

  • 사전 경고: 초기 임의 중심 할당이 주어지면 함께 어울리고 싶은 사랑스러운 데이터 중심 AI 전문가와 같은 그룹에 속하지 않을 수 있습니다. 알고리즘은 잘 작동하지만 최적의 솔루션을 찾는다는 보장은 없습니다.

다른 거리 : 물론 군집된 객체 사이의 거리는 매우 클 필요가 없습니다. 두 벡터 사이의 모든 측정이 가능합니다. 예를 들어 k-평균 군집화는 파티 참석자를 물리적 거리로 그룹화하는 대신 옷, 직업 또는 기타 속성을 기준으로 세분화할 수 있습니다. 온라인 상점은 이를 사용하여 선호도나 행동에 따라 고객을 분류하고 천문학자는 동일한 유형의 별을 그룹화할 수 있습니다.

데이터 포인트의 힘 : 이 아이디어는 몇 가지 주목할 만한 변화를 가져왔습니다.

  • K-medoids는  주어진 클러스터 내의 평균 위치가 아닌 실제 데이터 포인트를 중심으로 사용합니다. 중심점은 클러스터의 모든 지점까지의 거리를 최소화할 수 있는 지점입니다. 이 변동은 중심이 항상 데이터 포인트이기 때문에 해석하기가 더 쉽습니다.

  • Fuzzy C-Means 클러스터링을  사용하면 데이터 포인트가 다양한 정도로 여러 클러스터에 참여할 수 있습니다. 중심으로부터의 거리를 기반으로 하는 하드 클러스터 할당 대신 클러스터의 차수를 사용합니다.

N-Dimensional Carnival : 그럼에도 불구하고 원래 형태의 알고리즘은 여전히 ​​널리 유용합니다. 특히 감독되지 않은 알고리즘으로서 고가의 레이블 데이터 수집이 필요하지 않기 때문입니다. 또한 점점 더 빠르게 사용되고 있습니다. 예를 들어, scikit-learn을 포함한 머신 러닝 라이브러리는 2002년에 추가된 kd-trees의 이점을 활용하여 고차원 데이터를 매우 빠르게 분할할 수 있습니다.

원본 링크:

https://read.deeplearning.ai/the-batch/issue-146/

b0ec855a77385755727ce021e195661f.png건조물 학습, 좋아하는 세 번

추천

출처blog.csdn.net/Datawhale/article/details/132267650