Python의 시각적 데이터 분석 워크플로에 대한 자세한 설명

오픈소스 중국 커뮤니티 팀이 공유라는 이름으로 오픈소스 중국 커뮤니티의 뒷이야기를 전하는 첫 생방송을 진행했습니다."

이 기사 는 Lemony Hug가 Huawei 클라우드 커뮤니티에서 공유한 " 데이터 수집에서 통찰력 발견까지 Python 시각적 데이터 분석에 대한 종합 가이드 "입니다.

데이터 과학 및 분석의 세계에서 시각화는 데이터를 이해하고, 패턴을 발견하고, 통찰력을 도출하는 데 도움이 되는 강력한 도구입니다. Python은 시각적 데이터 분석 작업 흐름을 효율적이고 유연하게 만드는 풍부한 라이브러리와 도구를 제공합니다. 이 문서에서는 데이터 수집부터 통찰력의 최종 시각적 표시까지 Python의 시각적 데이터 분석 워크플로를 소개합니다.

1. 데이터 수집

데이터 분석 작업을 시작하기 전에 먼저 데이터를 확보해야 합니다. Python은 구조화된 데이터 처리를 위한 팬더, 네트워크 데이터 획득 요청, 특수 라이브러리를 사용하여 데이터베이스에 연결하는 등 다양한 소스의 데이터를 처리하기 위한 다양한 라이브러리를 제공합니다. CSV 파일에서 데이터를 로드하는 간단한 예부터 시작해 보겠습니다.

팬더를 PD로 가져오기

# CSV 파일에서 데이터 로드
데이터 = pd.read_csv('data.csv')

# 데이터의 처음 몇 행을 봅니다.
인쇄(데이터.헤드())

2. 데이터 정리 및 전처리

데이터가 로드되면 다음 단계는 데이터 정리 및 전처리입니다. 여기에는 누락된 값, 이상값, 데이터 변환 등의 처리가 포함됩니다. 시각화는 종종 이 단계에서 중요한 역할을 하여 데이터의 문제를 식별하는 데 도움을 줍니다. 예를 들어 matplotlib 또는 seaborn을 사용하여 다양한 차트를 그려 데이터의 분포와 관계를 조사할 수 있습니다.

matplotlib.pyplot을 plt로 가져오기
seaborn을 sns로 가져오기

# 히스토그램 그리기
plt.hist(data['column_name'], bins=20)
plt.title('column_name의 분포')
plt.xlabel('값')
plt.ylabel('빈도')
plt.show()

# 산점도 그리기
sns.scatterplot(x='column1', y='column2', data=data)
plt.title('열1 대 열2의 산점도')
plt.show()

3. 데이터 분석 및 모델링

데이터 정리 및 전처리 후에는 일반적으로 데이터 분석 및 모델링을 수행합니다. 여기에는 통계 분석 및 기계 학습과 같은 기술이 포함될 수 있습니다. 이 단계에서 시각화는 데이터 간의 관계를 더 잘 이해하고 모델 성능을 평가하는 데 도움이 될 수 있습니다. 예를 들어, seaborn을 사용하여 상관 행렬을 그리면 기능 간의 상관 관계를 이해하는 데 도움이 될 수 있습니다.

# 상관 행렬 그리기
Correlation_matrix = data.corr()
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
plt.title('상관 행렬')
plt.show()

4. 결과 발표 및 인사이트 발굴

마지막으로, 데이터 분석 결과를 시각적으로 표시함으로써 통찰력과 결론을 보다 명확하게 전달할 수 있습니다. 이는 간단한 통계 요약일 수도 있고 복잡한 대화형 시각화일 수도 있습니다. 예를 들어 Plotly를 사용하여 대화형 차트를 만들 수 있습니다.

Plotly.express를 px로 가져오기

# 대화형 분산형 차트 만들기
fig = px.scatter(data, x='column1', y='column2', color='category', hover_data=['additional_info'])
fig.show()

5. 고급 기술 및 최적화

기본적인 시각화 기술 외에도 Python에는 데이터 분석 작업 흐름을 더욱 강력하고 효율적으로 만들 수 있는 고급 기술과 최적화 방법이 많이 있습니다.

5.1 Plotly Express를 사용하여 차트 사용자 정의

Plotly Express는 다양한 유형의 차트를 생성하는 데 사용하기 쉬운 많은 기능을 제공하지만 때로는 더 많은 사용자 정의 옵션이 필요할 수 있습니다. Plotly Express를 Plotly의 기본 차트 개체와 결합하면 더욱 고급 사용자 정의를 달성할 수 있습니다. 예를 들어 댓글 추가, 차트 스타일 조정 등을 수행할 수 있습니다.

Plotly.express를 px로 가져오기
플롯으로 가져오기.graph_objects

#분산형 차트 만들기
fig = px.scatter(data, x='column1', y='column2', color='category', hover_data=['additional_info'])

# 메모 추가
fig.add_annotation(x=5, y=5, text="중요 사항", showarrow=True, 화살촉=1)

#차트 스타일 조정
fig.update_traces(marker=dict(size=10, line=dict(width=2, color='DarkSlateGrey')), selector=dict(mode='markers'))

fig.show()

5.2 Interact를 사용한 시각적 상호작용

Jupyter Notebook과 같은 환경에서 Interact의 시각적 상호 작용을 사용하면 데이터 분석을 더욱 동적이고 직관적으로 만들 수 있습니다. 예를 들어 차트의 매개변수를 제어하는 대화형 컨트롤을 만듭니다.

ipywidgets 가져오기에서 상호작용

@interact(열='열1', bins=(5, 20, 1))
def 플롯_히스토그램(열, 빈):
    plt.hist(데이터[열], bins=bins)
    plt.title(f'{열}의 분포')
    plt.xlabel('값')
    plt.ylabel('빈도')
    plt.show()

5.3 시각화 라이브러리 확장 사용

matplotlib, seaborn 및 Plotly와 같은 일반적인 시각화 라이브러리 외에도 도구 상자를 확장할 수 있는 다른 시각화 라이브러리가 많이 있습니다. 예를 들어 Altair 및 Bokeh와 같은 라이브러리는 다양한 스타일과 기능을 갖춘 차트를 제공하며 필요에 따라 적절한 도구를 선택할 수 있습니다.

알테어를 대체로 가져오기

alt.Chart(data).mark_bar().encode(
    x='카테고리',
    y='개수()'
).인터렉티브()

6. 자동화 및 일괄 처리

대량의 데이터를 처리하거나 반복적인 분석이 필요한 경우 자동화 및 일괄 처리가 중요합니다. Python은 루프, 함수 또는 Dask나 Apache Spark와 같은 고급 도구를 사용하여 이를 달성하기 위한 풍부한 라이브러리와 도구를 제공합니다.

6.1 루프를 사용한 데이터 일괄 처리

동일한 분석 작업이 필요한 여러 데이터 파일이 있다고 가정하면 루프를 사용하여 이러한 파일을 일괄 처리하고 결과를 함께 결합할 수 있습니다.

우리를 수입하다

data_files = os.listdir('data_folder')

결과 = []

data_files의 파일에 대해:
    데이터 = pd.read_csv(os.path.join('data_folder', file))
    # 데이터 분석 작업 수행
    # ...
    결과.추가(결과)

6.2 함수를 사용하여 반복성 분석 단계를 캡슐화합니다.

반복적으로 수행해야 하는 일련의 데이터 분석 단계가 있는 경우 이를 다른 데이터에서 재사용할 수 있도록 함수로 캡슐화할 수 있습니다.

def analyze_data(데이터):
    # 데이터 정리 및 전처리
    # ...
    #데이터 분석 및 모델링
    # ...
    #결과표시 및 인사이트 발굴
    # ...
    인사이트 반환

#각 데이터세트에 함수 적용
결과 = [data_sets의 데이터에 대한 analyze_data(data)]

6.3 Dask 또는 Apache Spark를 사용하여 분산 컴퓨팅 구현

대규모 데이터 세트의 경우 단일 시스템 컴퓨팅으로는 요구 사항을 충족하지 못할 수 있습니다. 이 경우 Dask 또는 Apache Spark와 같은 분산 컴퓨팅 프레임워크를 사용하여 데이터를 병렬로 처리하고 처리 효율성을 향상시킬 수 있습니다.

dask.dataframe을 dd로 가져오기

#여러 파일에서 Dask DataFrame 만들기
ddf = dd.read_csv('데이터*.csv')

# 데이터 분석 작업을 병렬로 실행
결과 = ddf.groupby('column').mean().compute()

7. 모범 사례 및 최적화 제안

시각적 데이터 분석을 수행할 때 Python 도구를 더 잘 사용하는 데 도움이 될 수 있는 몇 가지 모범 사례와 최적화 제안도 있습니다.

적절한 차트 유형 선택: 막대 차트, 꺾은선형 차트, 상자 그림 등 데이터 유형 및 분석 목적에 따라 적절한 차트 유형을 선택합니다.
차트를 단순하고 명확하게 유지: 과도한 장식과 복잡한 그래픽을 피하고 차트를 간단하고 읽기 쉽게 유지하며 핵심 사항을 강조합니다.
주석 및 문서: 코드에 주석과 문서를 추가하면 더 쉽게 이해하고 유지 관리할 수 있을 뿐만 아니라 다른 사람과 공유하고 공동 작업할 수 있습니다.
성능 최적화: 대규모 데이터 세트의 경우 병렬 컴퓨팅 및 메모리 최적화와 같은 방법을 사용하여 코드 성능을 향상시키는 것을 고려하십시오.
대화형 시각화: 대화형 시각화 도구를 사용하여 데이터 탐색을 더욱 유연하고 직관적으로 만들고 분석 효율성을 향상시킵니다.

8. 결과 배포 및 공유

데이터 분석을 완료하고 통찰력을 얻었으면 다음 단계는 결과를 배포하고 관련 이해관계자와 공유하는 것입니다. Python은 정적 보고서 생성, 대화형 애플리케이션 생성, 결과를 자동화된 워크플로에 통합하는 등 이를 달성하기 위한 다양한 방법을 제공합니다.

8.1 정적 보고서 생성

Jupyter Notebook 또는 Jupyter Lab을 사용하면 코드, 시각화 및 설명 텍스트가 결합된 대화형 데이터 분석 보고서를 쉽게 만들 수 있습니다. 이러한 노트북은 HTML, PDF 또는 Markdown 형식으로 내보내 다른 사람과 공유할 수 있습니다.

jupyter nbconvert --html 노트북.ipynb로

8.2 대화형 애플리케이션 만들기

데이터 분석 결과는 Dash, Streamlit 또는 Flask와 같은 프레임워크를 사용하여 대화형 웹 애플리케이션으로 배포할 수 있으므로 사용자는 웹 인터페이스를 통해 데이터와 상호 작용하고 통찰력을 탐색할 수 있습니다.

대시 가져오기
dash_core_comComponents를 DCC로 가져오기
dash_html_comComponents를 HTML로 가져오기

앱 = dash.Dash(__name__)

# 레이아웃 정의
app.layout = html.Div(어린이=[
    html.H1(children='데이터 분석 대시보드'),
    dcc.그래프(
        id='예제-그래프',
        그림={
            '데이터': [
                {'x': [1, 2, 3], 'y': [4, 1, 2], '유형': '바', '이름': '범주 1'},
                {'x': [1, 2, 3], 'y': [2, 4, 5], '유형': '바', '이름': '범주 2'},
            ],
            '레이아웃': {
                '제목': '막대형 차트'
            }
        }
    )
])

__name__ == '__main__'인 경우:
    app.run_server(디버그=True)

8.3 자동화된 작업 흐름에 통합

Airflow 또는 Celery와 같은 작업 스케줄러를 사용하여 데이터 분석 프로세스를 자동화하고 정기적으로 보고서를 생성하거나 애플리케이션을 업데이트하세요. 이를 통해 데이터 분석 결과가 항상 최신 상태로 유지되고 필요에 따라 자동으로 조정 및 업데이트될 수 있습니다.

datetime import datetime, timedelta에서
공기 흐름 가져오기 DAG에서
airflow.operators.python_operator에서 PythonOperator 가져오기

# 작업 정의
def 데이터 분석():
    #데이터분석코드
    통과하다

#DAG 정의
일 = 일(
    '데이터_분석_워크플로',
    default_args={
        '소유자': '공기 흐름',
        '종속_과거': 거짓,
        'start_date': 날짜/시간(2024, 1, 1),
        'email_on_failure': 거짓,
        'email_on_retry': 거짓,
        '재시도': 1,
        'retry_delay': 시간델타(분=5),
    },
    Schedule_interval=timedelta(일=1),
)

# 작업 정의
작업 = PythonOperator(
    task_id='data_analytic_task',
    python_callable=데이터_분석,
    일=일,
)

9. 데이터 보안 및 개인정보 보호

데이터 보안 및 개인정보 보호는 데이터 분석 및 시각화 과정에서 매우 중요합니다. Python은 처리 중에 데이터를 완벽하게 보호하고 보안을 유지하는 데 도움이 되는 기술과 모범 사례를 제공합니다.

9.1 데이터 암호화 및 보안 전송

데이터 전송에는 HTTPS를 사용하고 데이터 저장에는 암호화를 사용하는 등 데이터 전송 및 저장 중에 보안 암호화 알고리즘이 사용되는지 확인하십시오. 암호화와 같은 Python의 암호화 라이브러리는 데이터 암호화 및 암호 해독을 구현하는 데 도움이 될 수 있습니다.

cryptography.fernet에서 가져오기 Fernet

# 키 생성
키 = Fernet.generate_key()
cipher_suite = 페르넷(키)

# 데이터 암호화
cipher_text = cipher_suite.encrypt(b"안녕하세요!")

# 데이터 복호화
plain_text = cipher_suite.decrypt(cipher_text)

9.2 데이터 접근 제어 및 인증

데이터 액세스 제어 및 인증 메커니즘을 구현하여 승인된 사용자만 중요한 데이터에 액세스할 수 있도록 합니다. Flask-Login, Django-Auth 등 Python의 인증 라이브러리를 사용하여 사용자 인증 및 권한 관리를 구현할 수 있습니다.

플라스크 가져오기 플라스크, 요청, 리디렉션, url_for에서
플라스크 로그인에서 가져오기 LoginManager, login_user, current_user, login_required, UserMixin

앱 = 플라스크(__name__)
login_manager = 로그인관리자()
login_manager.init_app(앱)

# 사용자 모델
클래스 사용자(UserMixin):
    def __init__(self, id):
        self.id = 아이디

#사용자 인증 콜백 기능
@login_manager.user_loader
def load_user(user_id):
    사용자(user_id) 반환

# 로그인 경로
@app.route('/login', 메소드=['POST'])
데프 로그인():
    user_id = request.form['user_id']
    사용자 = 사용자(user_id)
    login_user(사용자)
    return 리디렉션(url_for('index'))

#접속을 위해 로그인이 필요한 경로
@app.route('/보안')
@login_required
def secure_page():
    return '이것은 보안된 페이지입니다'

__name__ == '__main__'인 경우:
    app.run(디버그=True)

9.3 익명화 및 둔감화

분석 프로세스 중에 익명화 및 민감도 감소를 사용하여 민감한 데이터에 대한 사용자 개인 정보를 보호할 수 있습니다. Python은 분석을 위해 실제 데이터를 대체하기 위해 가상 데이터를 생성할 수 있는 Faker와 같은 일부 라이브러리를 제공합니다.

from faker import 페이커

페이커 = 페이커()

# 가상 이름 생성
이름 = faker.name()

# 더미 이메일 생성
이메일 = faker.email()

# 가상 주소 생성
주소 = faker.address()

요약하다

이 문서에서는 Python 환경에서 시각적 데이터 분석을 위한 포괄적인 워크플로를 자세히 살펴보고 일련의 주요 단계, 기술 도구 및 모범 사례를 소개합니다. 먼저 데이터 수집부터 시작하여 팬더와 같은 라이브러리를 사용하여 데이터를 로드하고 처리한 다음 데이터 정리 및 전처리를 수행하고 matplotlib, seaborn 및 기타 라이브러리를 사용하여 데이터의 문제와 패턴을 식별합니다. , 데이터를 탐구합니다. 분석 및 모델링 단계에서는 통계 분석 및 머신 러닝 기술을 사용하여 데이터에 내재된 패턴을 마이닝하고, 마지막으로 분석 결과를 다양한 방법으로 표시하여 통찰력을 발견하고 비즈니스 의사 결정을 지원합니다.

그런 다음 Plotly Express를 사용하여 차트를 사용자 정의하고, 대화형 시각화를 활용하고, 적절한 시각화 라이브러리를 선택하는 등 고급 기술과 최적화를 더 자세히 살펴보았습니다. 또한 자동화 및 일괄 처리의 중요성과 루프, 기능 및 분산 컴퓨팅 프레임워크를 활용하여 효율성을 향상시키는 방법을 다룹니다. 모범 사례 및 최적화 권장 사항 측면에서 올바른 차트 유형 선택, 차트를 단순하고 명확하게 유지, 주석 및 문서화, 성능 최적화 및 대화형 시각화의 중요성을 강조합니다.

마지막으로 우리는 데이터 암호화 및 보안 전송, 데이터 액세스 제어 및 인증, 익명화 및 둔감화와 같은 주요 조치를 강조하면서 데이터 보안 및 개인정보 보호에 주의를 기울였습니다. 이러한 기술과 모범 사례를 적절하게 적용함으로써 데이터 분석 프로세스의 안전성과 신뢰성을 보장하고 비즈니스 결정에 대한 신뢰할 수 있는 데이터 지원을 제공할 수 있습니다.

요약하면, 이 기사는 독자가 데이터 분석의 전체 프로세스를 깊이 이해하고 실제 세계에서 복잡한 데이터 문제를 처리하는 효과적인 도구와 방법을 익히는 것을 목표로 Python의 시각적 데이터 분석 작업 흐름과 핵심 기술을 포괄적으로 설명합니다. 이를 통해 더 나은 분석 결과와 통찰력을 얻을 수 있습니다.

화웨이 클라우드의 신기술에 대해 빨리 알아보고 팔로우하려면 클릭하세요~