데이터 분석의 다양한 그래프(박스 플롯, 데이터 분포 그래프, 선형 회귀 그래프, 상관 그래프)를 하나의 기사로 이해합니다(Alibaba Tianchi)

1. 박스 플롯

1.1 상자 그림의 정의

상자 그림이라고도 합니다.상자 수염 그림 (상자 수염 그림

 

중앙값(Median): 데이터를 작은 것부터 큰 것 순으로 배열한 후 가운데에 있는 값으로, 그 순서가 짝수인 경우에는 가운데 두 숫자의 평균,

하위 사분위수 Q1: 데이터 시퀀스의 25%에 위치한 숫자입니다.

상위 사분위수 Q3: 데이터 시퀀스의 75%에 위치한 숫자입니다.

사분위간 범위 IQR: 즉, IQR = Q3-Q1;

아래쪽 가장자리: = Q1 – 1.5 *IQR;

위쪽 가장자리: = Q3 + 1.5 *IQR;

어떤 사람들은 다음과 같은 질문을 할 수 있습니다. 상단 및 하단 가장자리는 IQR의 플러스 또는 마이너스입니다. 그림에서 점선의 길이는 왜 다른가요?

실제로 하측 에지의 판정은 Q1-1.5*IQR보다 큰 최소값을 기준으로 하기 때문에 Q1-1.5*IQR과 같은 값이 나오지 않는 이상 실제 하측 에지는 더 크다. Q1-1.5*IQR보다. 마찬가지로 위쪽 가장자리는 Q3 + 1.5 *IQR보다 작은 최대값입니다. 따라서 대부분의 경우 위쪽 점선과 아래쪽 점선의 길이는 동일하지 않습니다. 대신 길이는 -2.698~2.698\시그마6\시그마보다 약간 작습니다.
 

 


1.2 상자 그림의 특성

1. 이상치를 직관적으로 관찰합니다. 데이터에 이상치가 있는 경우, 즉 위쪽 및 아래쪽 가장자리 영역을 벗어나면 점으로 표시됩니다.
2. 경우 박스 플롯 매우 짧다는 것은 많은 데이터가 작은 범위에 집중되어 있다는 것을 의미합니다.
3. 박스 플롯이 매우 길다는 것은 데이터 분포가 상대적으로 불연속적이라는 것을 의미합니다 그리고 데이터 간의 차이가 상대적으로 크다는 뜻입니다
4. 중앙값이 하단에 가까울수록 대부분의 데이터 값이 상대적으로 작다는 의미입니다
5. 중앙값이 상단에 가까울수록 대부분의 데이터 값이 상대적으로 작다는 의미 크다
6. 중앙값의 높고 낮은 위치는 그 정도를 반영할 수 있음 데이터의 왜도
7. 상하 점선이 상대적으로 길면 상하 사분위수를 나타냅니다.

1.3 상자 그림의 단점

1. 상자 그림은 데이터 분포의 왜곡도를 표시할 수 있지만 데이터 분포의 왜곡도 및 꼬리 가중치에 대한 정확한 측정값을 제공할 수는 없습니다.

2. 더 큰 데이터 배치의 경우 상자 그림에 반영된 모양 정보가 더 흐릿합니다.

3. 전체 평균을 나타내기 위해 중앙값을 사용하는 데에는 몇 가지 제한 사항이 있습니다.

따라서 데이터 배치의 분포 형태를 설명하려면 평균, 표준 편차, 왜도, 분포 함수 등과 같은 다른 설명 통계 도구와 함께 상자 그림을 사용하는 것이 가장 좋습니다.

1.4 상자 그림의 파이썬 구현

fig = plt.Figure(figsize=(4, 6)) #그리기 개체의 너비와 높이를 지정합니다
sns.boxplot(train_data['V0 39;] ,orient="v", width=0.5) # 첫 번째 매개변수는 데이터, orient는 방향, width는 선 너비

 

2. 데이터 분포도

2.1 히스토그램

2.2.1 정의

대량 분포 차트라고도 알려진 히스토그램은 일련의 수직 줄무늬 또는 선 세그먼트로 구성된 통계 보고서 차트입니다. 은 데이터 유형을 나타내고 세로축은 분포를 나타냅니다. 데이터 분포를 나타냅니다. 일반적으로 가로축

히스토그램은 수치 데이터의 분포를 정확하게 그래픽으로 표현한 것입니다. 연속변수(양적변수)의 확률분포 추정치로서 Karl Pearson에 의해 처음 소개되었습니다. 막대 차트입니다. 히스토그램을 작성하기 위한 첫 번째 단계는 값의 범위를 분할하는 것입니다. 즉, 전체 값 범위를 일련의 간격으로 나눈 다음 각 간격에 값이 몇 개 있는지 계산합니다. 이러한 값은 일반적으로 변수의 연속적이고 겹치지 않는 간격으로 지정됩니다. 간격은 인접해야 하며 일반적으로(반드시 그런 것은 아님) 크기가 동일해야 합니다.

히스토그램을 정규화하여 "상대적" 빈도를 표시할 수도 있습니다. 그런 다음 높이가 1인 여러 범주에 속하는 각 사례의 비율을 표시합니다.

 2.2.2 히스토그램의 파이썬 구현

plt.Figure(figsize=(10,5)) # 그래픽 크기 설정

sns.distplot(train_data['V0'],fit=stats.norm)

프로그램 분석: displot()은 matplotlib의 hist() 기능과 커널 기능 추정 kdeplot을 통합하고, 러그플롯 분포 관찰 막대 표시에 대한 새로운 용도와 매개변수 분포에 맞는 scipy 라이브러리 사용을 추가합니다. 기본적으로 히스토그램을 그리고 커널 밀도 추정(KDE)을 수행합니다. 구체적인 사용법은 다음과 같습니다.

seaborn.distplot(a, bins=None, hist=True, kde=True, Rug=False, fit=None, hist_kws=None, kde_kws=None, Rug_kws=None, fit_kws=None, color=None, Vertical=False, norm_hist=False, axlabel=없음, label=없음, ax=없음)

2.2 Q-Q 다이어그램

2.2.1 정의    

QQ 플롯은 산점도(Scatter Plot)로, 정규분포의 QQ 플롯에 해당하며 표준정규분포의 분위수를 가로좌표로 하고 표본값을 세로좌표로 하는 산점도이다. QQ 플롯을 사용하여 표본 데이터가 대략 정규 분포를 이루고 있는지 확인하려면 QQ 플롯의 점이 대략 직선에 가까운지 확인하면 됩니다. 그래프가 직선이면 정규 분포라는 뜻입니다. , 직선의 기울기는 표준편차와 절편이며, 평균값으로 QQ 플롯을 사용하여 표본의 왜도와 첨도에 대한 대략적인 정보를 얻을 수도 있습니다.

    표본이 정규 분포를 따르는 경우 f(x)는 정규 분포의 확률 밀도 함수입니다. 정규분포의 특성에 따라 해당 표준정규분포의 확률밀도함수를 도출할 수 있습니다.
y=f(\frac{x-m}{std})
여기서 m은 표본 평균이고 std는 표본 표준편차입니다.

표준 정규 분포의 확률 밀도 함수가 y= f(n)이라고 가정합니다. 이 값은 1:1로 대응되므로 다음과 같습니다.
(x-m)/std =n a>
즉, x=n*std+m
이는 표본 표준편차의 기울기와 m의 절편을 갖는 직선입니다. , 이는 q-q 다이어그램 직선 분포의 정규성을 나타냅니다.

첫 번째와 두 번째 그래프는 정규분포와 일관성이 좋지 않고, 세 번째 그래프는 기본적으로 정규분포를 따르고 있음을 알 수 있다.​ 

2.2.2 Q-Q 다이어그램의 파이썬 구현

# 通过比较数据和正态分布的分位数是否相等来判断数据是不是符合正态分布
res = stats.probplot(train_data['V0'], plot=plt)

  

3. 선형 회귀 다이어그램

3.1 정의

선형 회귀 다이어그램은 두 변수 x와 y에 대한 산점도를 그리는 동시에 데이터에 모델을 맞추고y ~ x 해당 직선과 95% 신뢰구간이 그려져 있습니다.

3.2 선형 회귀 관계의 Python 구현

sns.regplot(x='V0', y='target', data=train_data, 
            scatter_kws={'marker':'.','s':3,'alpha':0.3},
            line_kws={'color':'k'});

 

 

4. 히트맵

4.1 히트맵의 정의

히트맵은 색상 심도의 변화를 통해 데이터의 차이를 우아하게 표시할 수 있습니다. 히트맵은 다양한 지표, 다양한 샘플 등 간의 상관관계를표시하는데도 사용할 수 있습니다.

이때 색상은 상관계수의 크기를 나타낸다. 그러면 자신과 자신 사이의 상관계수는 가장 어두운 파란색인 1이라는 것을 알 수 있습니다. 대략 흰색은 상관관계가 약한 것을 나타내고 파란색(양의 상관관계) 또는 빨간색(음의 상관관계)은 강한 상관관계를 나타냅니다. 물론 상관관계 계산에서는 상관계수 외에 p값이 유의미한지도 살펴보겠습니다. p값을 그래프로 표현하고 싶다면 * 기호나 특정 값을 그리드에 추가하면 됩니다. 동시에 기호화 및 정규화 손실(상단 행의 두 번째 그리드, 위에서 아래로 두 번째 그리드) 첫 번째 그리드)과 같이 서로 다른 두 지표 간의 관계가 두 번 표시되는 것을 여기서 볼 수 있기 때문에, 그래서 때로는 그림의 절반만 표시합니다. 즉, 대각선 위나 아래에 그림의 절반만 표시합니다.

4.2 히트맵의 Python 구현

ax = sns.heatmap(train_corr, vmax=.8, square=True, annot=True)#画热力图   annot=True 显示系数

 

 

추천

출처blog.csdn.net/tangxianyu/article/details/124210558