기계 학습 04: 기계 학습 알고리즘 분류 및 개발 프로세스 소개

1. 알고리즘 분류

기계 학습 알고리즘을 소개하기 전에 이산 데이터와 연속
데이터
여기에 이미지 설명 삽입
라는 두 가지 개념을 명확히 합시다 인구, 클래스 크기, 특정 범위의 자동차 수와 같은 카운팅 데이터...이 모든 데이터는 정수 이며 세분화할 수 없습니다 . 정밀도를 더 이상 향상시킬 수도 없습니다 .

연속성 데이터:
여기에 이미지 설명 삽입

변수는 특정 범위 내에서 임의의 숫자를 가질 수 있습니다. 즉, 변수 값은 길이, 시간, 품질 값 등과 같이 연속적일 수 있습니다. 이러한 정수는 일반적으로 정수가 아니며 소수 부분을 포함합니다.

위의 개념을 명확히 한 후 기계 알고리즘의 분류를 살펴 보겠습니다. 크게 지도 학습 과 비지도 학습
의 두 가지 유형으로 나눌 수 있습니다 . 차이점은 지도 학습의 데이터에는 고유 값과 목표 값이 포함되어 있고, 비지도 학습은 고유값 감독만 가능 학습 알고리즘은 k- 최근접 이웃 알고리즘, 베이지안 분류, 결정 트리 및 랜덤 포레스트, 로지스틱 회귀, 신경망 회귀 : 선형 회귀, 능선 회귀... 그 중 목표값 데이터 분류에 해당하는 것은 불연속 데이터, 회귀 해당 데이터는 연속 데이터 예를 들어 분류에서 우리는 그림이 어떤 종류의 동물인지 예측합니다. ... 연속 데이터에 대한 해당 대상 값 데이터를 반환합니다.








비지도 학습에는
k-평균 클러스터링 등이 포함됩니다.

지도 학습의 입력 데이터에는 특징과 레이블이 있어 표준 답이 있고,
비지도 학습의 입력 데이터는 특징은 있지만 레이블이 없고 표준 답이 없습니다.

분류는 지도 학습의 핵심 문제로, 지도 학습에서는 출력 변수가 유한한 수의 이산 값을 가질 때 예측 문제가 분류 문제가 됩니다. 가장 기본적인 것은 이진 분류 문제, 즉 옳고 그름을 판단하고 예측 결과로 두 범주 중 하나를 선택하는 문제로,
분류는 데이터를 특성에 따라 "분리"하는 것이므로 많은 분야에서 널리 사용됩니다
. 은행에서는 고객 분류 모델을 구축하여 대출 위험의 크기에 따라 고객을 분류하고
이미지 처리에서는 분류를 사용하여 이미지에 얼굴이 있는지 여부, 동물 카테고리 등을 감지할 수 있습니다
. 손으로 쓴 숫자를 인식하는 데 사용
뉴스 보고서, 웹 페이지, 이메일, 학술 논문이 될 수 있는 텍스트 분류

회귀는 감독 학습에서 또 다른 중요한 문제입니다. 회귀는 출력이 연속 값인 입력 변수와 출력 변수 간의 관계를 예측하는 데 사용됩니다. 회귀분석은 주택가격을 예측하기 위한 다양한 분야에서도 널리 사용되고 있으며, 특정 장소의 과거 주택가격 데이터에 따라 금융정보 예측, 일일 주가동향 등을 예측할 수 있습니다.

몇 가지 예를 살펴보고 분류 문제인지 회귀 문제인지 살펴보겠습니다.
1. 내일 예상 기온은 몇 도입니까? (회귀)
2. 내일이 흐릴지, 맑을지, 비가 올지 예측하세요? (분류)

2. 개발 과정

1. 데이터 획득 및 데이터 용도 명확히
2. 기본 데이터 처리: pd 데이터 처리(결측값, 테이블 병합...)
3. 기능 엔지니어링
4. 예측/분석에 적합한 알고리즘 찾기


그렇다면 모델이란 무엇입니까?깊게 파고들 필요 없이 모델 = 알고리즘 + 데이터 로 이해할 수 있습니다. 5. 모델의 효과가 좋은지 나쁜지 판단하기 위한
모델 평가

추천

출처blog.csdn.net/Edward_Legend/article/details/121289109