HHU 비즈니스 데이터 마이닝 최종 시험 검토

Hohai University 비즈니스 인텔리전스 과정 시험 요점

마인드 맵을 제공한 Liu j와 수정 및 보완을 위해 Lin yt에게 특별히 감사드립니다.

  • 마인드 매핑

1장 개요

  • 정보와 지식

    • 정보
      • 특정 기술과 방법을 통해 데이터를 통합 및 분석하고 잠재적인 법칙과 의미를 채굴하여 얻은 결과가 정보입니다.
      • 정보는 비즈니스에 중요한 데이터입니다.
    • 지식
      • 정보가 사업의 의사결정에 활용되고 그 의사결정을 바탕으로 그에 상응하는 사업활동이 수행될 때 그 정보는 지식으로 변환된다 정보를 지식으로 변환하는 과정은 정보를 필요로 할 뿐만 아니라 경험의 결합도 필요하다 실질적인 문제를 해결하는 의사결정자의 능력.
  • 비즈니스 인텔리전스 시스템 구성(6개 주요 구성요소)

    • 데이터 소스
      • 기업 내 운영시스템, 즉 각 사업부서의 일상적인 업무를 지원하는 정보시스템
      • 인구통계 정보, 경쟁사 정보 등 비즈니스 외부 정보
    • 데이터 베이스
      • 다양한 데이터 소스의 데이터를 추출, 변환한 후 분석할 수 있는 환경에 배치하여 데이터를 관리해야 하는데, 이것이 바로 데이터 웨어하우스입니다.
    • 온라인 분석 처리
    • 데이터 프로파일링
    • 데이터 수집
    • 사업 성과 관리

2장 비즈니스 인텔리전스 프로세스

2.1 네 부분

  • 각 섹션에 대한 질문이 있는 4개의 섹션

  • 계획

    • 계획 단계에서 주요 목표는 비즈니스 인텔리전스를 구현할 비즈니스 부서 또는 비즈니스 영역을 선택하여 기업의 주요 비즈니스 의사 결정 문제를 해결하고 비즈니스 인텔리전스 시스템 및 해당 정보를 사용하는 인력을 식별하는 것입니다. 필요에 따라 프로젝트의 시간, 비용 및 자원을 계획합니다.
      • 각 사업부 또는 사업 영역의 요구 사항을 파악하고 현재 긴급한 요구 사항을 수집합니다.
      • 질문 기업 내 어떤 비즈니스 링크에 비용이 너무 많이 드나요? 어떤 프로세스가 너무 오래 걸리나요? 의사결정의 질이 높지 않은 링크
  • 수요 분석

    • 중요성과 구현 용이성을 고려한 요구 사항 식별
    • 중요도 측면에서 세 가지 측면에서 측정할 수 있습니다.
      • BI가 제공하는 정보의 실행 가능성 측정
      • BI 구현이 비즈니스에 가져올 수 있는 수익 측정
      • BI 구현이 비즈니스에 어떻게 도움이 되는지 측정
    • 단기 목표 달성 용이
      • 비즈니스 인텔리전스 구현 범위가 포함되어야 합니다.
      • 데이터 가용성 측정
  • 설계

    • 데이터 웨어하우스를 생성하려는 경우 데이터 웨어하우스의 모델 설계를 수행하고 다차원 데이터 모델이 일반적으로 사용됩니다 . 데이터 마트는 구축을 위해 데이터 웨어하우스에서 데이터를 추출할 수 있습니다.
    • 데이터 웨어하우스를 구축하지 않고도 사업부서에서 직접 데이터 마트를 설계하고 구현하는 것도 가능합니다.
    • 문제 해결을 위해 OLAP을 구현하려면 다차원 분석이라는 집계 연산 유형을 설계해야 합니다.
    • 데이터 마이닝 기술을 사용하려면 특정 알고리즘을 선택해야 합니다.
  • 성취하다

    • 구현 단계에서는 소스 데이터 추출, 데이터 웨어하우스 및/또는 데이터 마트 구축을 위한 ETL 도구를 선택합니다.
    • 데이터 웨어하우스 또는 데이터 마트에 있는 데이터의 경우 향상된 쿼리, 보고 도구, 온라인 분석 및 처리 도구, 데이터 마이닝 시스템, 기업 성과 관리 도구 등을 포함하여 해당 쿼리 또는 분석 도구를 선택하고 적용합니다.
    • 시스템을 구체적으로 적용하기 전에 시스템의 데이터 로드 및 응용 테스트를 완료하고 시스템의 액세스 제어 및 보안 관리 방법을 설계 해야 합니다 .

2.2 데이터 웨어하우스 및 데이터베이스

  • 관계는 두 영역에서 대부분의 데이터 웨어하우스를 나타냅니다.

    • 데이터는 비즈니스 시스템의 데이터베이스에서 나옵니다.
    • 현재 대부분의 데이터 웨어하우스는 데이터베이스 시스템으로 관리됩니다.
  • 차이점 : 구축 목적, 관리하는 데이터, 관리 방법이 모두 다릅니다.

    • 데이터베이스는 주로 기업의 일상적인 비즈니스 운영을 실현하고 비즈니스 운영의 효율성을 향상시키는 데 사용되며, 데이터 웨어하우스 구축은 주로 여러 데이터 소스의 데이터를 통합하는 데 사용되며 이러한 데이터는 최종적으로 분석에 사용됩니다.
    • 데이터베이스는 일반적으로 현재 데이터만 포함하고 데이터 스토리지는 가능한 한 중복을 피하며 데이터 구성은 애플리케이션에 의해 구동되는 비즈니스 프로세스에 관련된 데이터에 따라 구현됩니다. 데이터웨어 하우스의 데이터는 테마에 따라 구성되며 특정 테마의 모든 데이터가 통합되어 데이터에 중복성이 있습니다 .
  • 차이점 : 구축 목적, 관리하는 데이터, 관리 방법이 모두 다릅니다.

    • 데이터베이스의 데이터는 삽입, 삭제, 수정 등 빈번한 업데이트 가 필요하며 트랜잭션 작업의 격리를 보장하기 위해 복잡한 동시성 제어 메커니즘이 필요합니다.
    • 데이터 웨어하우스의 데이터는 초기 가져오기 및 일괄 데이터 정리 작업을 제외하고 주로 분석 처리에 사용되며 데이터 업데이트 작업이 거의 필요 하지 않습니다.
    • 데이터베이스에서 데이터 업데이트 작업의 적시성은 매우 강력하며 트랜잭션의 처리 속도는 매우 중요한 지표입니다. 그러나 데이터 웨어하우스의 데이터 볼륨은 매우 크고 분석에는 일반적으로 많은 양의 데이터가 포함되며 적시성이 가장 중요하지 않습니다. 데이터 웨어하우스의 데이터 품질은 매우 중요하며 잘못된 데이터는 잘못된 분석 결과로 이어집니다.

2.3 온라인 분석 처리 및 온라인 거래 처리

OLTP(Online Transaction Processing)는 데이터베이스 관리 시스템의 주요 기능이며 기업 내 다양한 ​​부서의 일상적인 비즈니스 운영을 완료하는 데 사용됩니다.

OLAP(온라인 분석 처리)는 데이터 웨어하우스 시스템의 주요 응용 프로그램으로, 의사 결정 프로세스를 지원하기 위해 데이터의 다차원 분석을 제공합니다.

3장 상관관계 분석

3.1 빈번한 패턴 및 연관 규칙

1. 빈번한 패턴의 개념

데이터셋에 자주 나타나는 패턴(발생빈도는 민섭이상, 민섭은 50% 등 인위적으로 설정)을 매출분석에 적용할 수 있다. , 웹 로그 분석, DNA 서열 분석.

2. 연관 규칙의 개념

X가 나타나면 Y도 나타납니다. X->Y는 보통 2개의 데이터가 있는데, 하나는 XY가 함께 발생하는 빈도이고, 다른 하나는 X가 발생할 때 Y가 발생할 조건부 확률입니다.

링크 1: 데이터 마이닝 에세이 (1) 빈번한 패턴 마이닝 및 연관 규칙 마이닝 및 Apriori 알고리즘(Python 구현)

링크 2: 빈번한 패턴 및 연관 규칙

시간 거래
T1 계란, 치약, 스테이크, 우유, 빵
T2 계란, 아마씨, 올리브 오일, 우유, 빵
T3 계란, 퍼프, 크림, 우유, 빵
T4 계란, 박력분, 슈가파우더, 버터, 우유

예를 들어 계란 우유 $A={egg,milk} , ,, 빵 B={빵}$.

그래서

지지도 ( A ⇒ B ) = P ( A ∪ B ) = 3 4 = 0.75 지지도(A⇒B)=P(A∪B)=\frac{3}{4}=0.75s u pp 또는 t ( A)=( A)=43=0.75

DDD 의 거래에는{계란, 우유, 빵} \{계란, 우유, 빵\}이{ 계란, 우유, 빵 } 항목은T1, T2, T3 T1, T2, T3T 1 , T 2 , T 3 은 총 3개이므로 분자는 3개

신뢰도 ( A ⇒ B ) = P ( A ∪ B ) P ( A ) = 3 4 = 0.75 신뢰도(A⇒B)=\frac{P(A∪B)}{P(A)}=\frac{3 {4}=0.75자신감 ( A _ _ _ _ _ _ _)=( )P ( A B )=43=0.75

A는 T1~T4에 나타나므로 분모는 4, 분자는 위와 같습니다.

당연히 계산된 값에 대해 A와 B가 연관 규칙인지 여부를 결정하기 위해 인위적인 임계값을 설정해야 합니다. 두 개의 임계값 ss를 설정한다고 가정합니다.sccc . 그런 다음지지도 ( A ⇒ B ) ≥ s ∧ 신뢰도 ( A ⇒ B ) ≥ c 지지도(A⇒B)≥s∧신뢰도(A⇒B)≥c이면s u pp 또는 t ( A)에스자신감 ( A _ _ _ _ _ _ _)c , 우리는A ⇒ BA ⇒ BB 는 연관 규칙입니다. 실제 의미는계란, 우유 {계란, 우유}를계란 ,우유는 빵을 살 가능성이 높습니다{빵} .

이는 연관 규칙 마이닝의 가장 간단한 방법이므로 연관 규칙 마이닝 단계를 두 단계로 요약할 수 있습니다.

  1. 가능한 모든 빈도 항목 집합을 찾습니다 . 빈도 항목 집합은 트랜잭션 집합에서 지원의 발생 빈도가 설정된 임계값 min_sup보다 큰 항목 집합으로 정의됩니다.
  2. 발견된 빈발항목집합에 강력한 연관규칙을 생성합니다. 강력한 연관 규칙을 따르는 빈발 항목 집합 쌍은 지지도와 신뢰도가 모두 미리 설정된 임계값보다 커야 한다는 요구 사항을 충족해야 합니다.
  • 예를 들어

  • 여기에는 작은 실수가 있습니다. con(A->C)는 ac/a=1/3이어야 합니다.

3.2 상관관계 측정

일반적으로 우리는 연관 규칙을 측정하기 위해 세 가지 지표를 사용하는데, 이 세 가지 지표는 지지, 신뢰, 승진입니다.

지지(support): 전체 거래 중 A와 B를 모두 포함하는 거래의 비율을 나타냅니다. P(A)를 사용하여 A 트랜잭션 사용 비율을 나타내는 경우 Support=P(A&B)

Confidence(신뢰성): A를 포함하는 거래와 B를 포함하는 거래의 비율, 즉 A를 포함하는 거래에 대해 A와 B를 모두 포함하는 거래의 비율을 나타냅니다. 수식 표현: 신뢰도=P(A&B)/P(A)

리프트(lift): "B를 포함하는 트랜잭션의 비율"에 대한 "A를 포함하고 트랜잭션 B도 포함하는 트랜잭션의 비율"의 비율을 나타냅니다. 공식 표현: 리프트=(P(A&B)/P(A))/P(B)=P(A&B)/P(A)/P(B).

리프트는 연관 규칙에서 A와 B의 상관관계를 반영한 ​​것으로, 리프트 > 1 이상이면 양의 상관관계가 높고, 리프트 < 1 이하이면 음의 상관관계가 높으며, 리프트 = 1이면 상관관계가 없는 성별을 나타냅니다.

예를 들어:

슈퍼마켓 주문 10,000건(거래 10,000건) 중 6,000건은 Sanyuan 우유 구매(거래 A), 7,500건은 Yili 우유 구매(거래 B), 4,000건은 둘 다를 포함합니다.

그런 다음 위 지원의 계산 방법을 통해 다음을 계산할 수 있습니다.

**Sanyuan Milk(A 거래) 및 Yili Milk(B 거래)의 지원 정도는 **P(A&B)=4000/10000=0.4입니다.

**Sanyuan Milk(A 거래)와 Yili Milk(B 거래)의 신뢰도는 다음과 같습니다. **A를 포함하는 거래에 대한 B 계정도 포함하는 거래에서 A를 포함하는 거래의 비율 4000/6000=0.67은 Sanyuan 우유를 구매한 후 0.67명의 사용자가 Yili 우유를 구매한다는 의미입니다.

**삼원 우유(거래 A)에 대한 Yili 우유(거래 B)의 신뢰 수준은 다음과 같습니다. **B를 포함하는 거래 중 A도 포함하는 거래의 비율은 B를 포함하는 거래의 비율을 설명합니다. 4000/7500=0.53은 Sanyuan 우유를 구매한 후 0.53명의 사용자가 Yili 우유를 구매한다는 의미입니다.

위에서 우리는 거래 A가 거래 B에 대해 0.67의 신뢰도를 가지고 있는 것을 볼 수 있는데, 상당히 높은 것처럼 보이지만 실제로는 오해의 소지가 있습니다.

조건이 없으면 거래 B의 발생률은 0.75인 반면, 거래 A와 거래 B가 동시에 발생하는 비율은 0.67, 즉 거래 A의 조건이 설정되면 거래 B의 비율은 대신 감소합니다. 이는 A 트랜잭션과 B 트랜잭션이 배타적임을 나타냅니다.

다음은 리프트의 개념이다.

0.67/0.75의 비율을 승격도 즉 P(B|A)/P(B)로 하여 B거래에 대한 A조건의 승격도라 함, 즉 A를 전제로 하여, B가 나타날 확률은 얼마인가 승급 도 = 1이면 A와 B는 아무런 관련이 없음을 의미하고 <1이면 A 거래와 B 거래가 배타적임을 의미 > 1이면 A와 B가 거래된다고 생각한다. B는 관련되어 있지만 특정 응용 분야에서는 리프트 등급 > 3이 인정할 가치가 있는 연관성으로 간주될 수 있다고 생각합니다.

승강기

실제로 sup가 특정 항목의 발생 빈도를 나타내는 데 사용되는 경우(빈도가 아니며 위 그림의 sup는 빈도임) n은 전체 항목 수를 나타냅니다. 예를 들어 여기서는 n입니다. 리프트 ( A ⇒ B ) = sup ( AB ) * nsup ( A ) sup ( B ) 리프트(A⇒B)=\frac{sup(AB)*n}{sup(A)sup(B)}t ( A _)=지원 ( A ) 지원 ( B ) _ _ _ _s u p ( A B ) * n

코사인

아래에 루트 부호가 열리므로 n을 계산할 필요가 없습니다. 직접 공급(AB) 공급(A) 공급(B) \frac{sup(AB)}{\sqrt{sup(A)sup(B)}}지원 ( A ) 지원 ( B ) _ _ _ _ 도와 주세요 ( A B ) _, 여기서 저녁은 발생 횟수라는 점을 다시 한번 상기시켜주세요.

제4장 분류

  • 분류: 기존 범주의 객체 특성을 요약한 다음 범주가 알려지지 않은 객체의 범주를 예측하는 과정
  • 분류기
  • 훈련 데이터 세트
    • 클래스 레이블 속성, 각 값은 레이블 y인 클래스(클래스 레이블)라고 합니다.
    • 객체의 특정 특성이나 속성을 설명하는 데 사용되는 속성은 다음과 같습니다.
  • 테스트 데이터세트

4.1 결정 트리

  • 빌드 프로세스

  • 분할 속성 및 분할 조건 선택
    • 분할 속성의 선택은 일반적으로 클래스 순도 척도를 기준으로 활용합니다.
    • 두 가지 유형 의 정보 엔트로피 및 지니 지수

4.1.1 정보 엔트로피의 개념

  • 정보 엔트로피의 크기는 사물을 계속해서 알아내기 위해 필요한 정보의 크기로 볼 수 있는데, 첫째, 나중에 검토할 개념이 있다.

4.1.2 목표변수의 정보엔트로피 계산

  • 전체 텍스트는 이 예제로 표시됩니다.

날씨는 농구를 할 것인지 예측합니다. 다음과 같은 데이터가 있다고 가정합니다.

날씨 농구하기
화창한
흐린
비오는 날
화창한
화창한 아니요
흐린
비오는 날 아니요
비오는 날 아니요
화창한

여기서 "날씨"는 특성이고 "농구 경기"는 대상 변수입니다. "Weather"를 노드로 하여 데이터를 분할할 때 정보 엔트로피를 계산하려고 합니다.

먼저 다음 공식을 사용하여 대상 변수 "Play Basketball"의 엔트로피를 계산하려고 합니다.

H ( X ) = − ∑ P ( x ) log ⁡ 2 P ( x ) H(X) = - \sum P(x) \log_2 P(x)H ( 엑스 )=-( x )로그 _2( x )

이 예에서는 "예"가 6개이고 "아니요"가 3개 있으므로 농구 플레이의 엔트로피는 다음과 같습니다.

H ( 농구 경기 ) = − [ ( 6 / 9 ) * log 2 ( 6 / 9 ) + ( 3 / 9 ) * log 2 ( 3 / 9 ) ] H(농구 경기) = - [(6/9 )*log2(6/9) + (3/9)*log2(3/9)]H ( 농구 치다 ) _ _ _ _ _ _ _ _=[( 6/9 )*로그 2 ( 6/9 ) _ _+( 3/9 )*로그 2 ( 3/9 ) ] _

$H(Play Basketball) ≒ 0.918$로 계산할 수 있습니다.

보충: 정보 엔트로피는 데이터 세트의 혼돈 또는 불확실성 정도를 측정한 것입니다. 데이터 세트의 모든 데이터가 같은 범주에 속할 때 불확실성이 가장 작고 이때의 정보 엔트로피는 0입니다.

  • 예를 들어 모든 행이 동일한 범주에 속하는 경우, 예를 들어 모두 "예"이면 정보 엔트로피 공식에 따라 얻을 수 있습니다.

엔트로피 = − ∑ P ( x ) log ⁡ 2 P ( x ) = − [ 1 ✽ log 2 ( 1 ) + 0 ] = 0 엔트로피 = - \sum P(x) \log_2 P(x) = - [1 *log2(1) + 0] = 0엔트로피 _ _ _ _ _=-( x )로그 _2( x )=- [ 1*로그 2 ( 1 ) _ _+0 ]=0

여기서 P (x) P(x)P ( x ) 는 특정 클래스의 확률입니다.

  • 두 범주가 고르게 분포되어 있을 때, 예를 들어 "예"와 "아니오"가 각각 절반을 차지할 때, 즉 확률이 0.5일 때 불확실성이 가장 크며 이때의 정보 엔트로피는 1입니다.

두 범주가 고르게 분포되어 있으면 정보 엔트로피 공식에 따라 얻을 수 있습니다.

엔트로피 = − ∑ P ( x ) log ⁡ 2 P ( x ) = − [ 0.5 * log 2 ( 0.5 ) + 0.5 * log 2 ( 0.5 ) ] = 1 엔트로피 = - \sum P(x) \log_2 P( x) = - [0.5*log2(0.5) + 0.5*log2(0.5)] = 1엔트로피 _ _ _ _ _=-( x )로그 _2( x )=- [ 0.5*로그 2 ( 0.5 ) _ _+0.5*로그 2 ( 0.5 ) ] _=1

  • 따라서 의사결정 트리를 구축할 때 우리의 목표는 데이터를 가능한 한 순수한(즉, 낮은 엔트로피) 하위 집합으로 나누는 방법을 찾는 것입니다.

4.1.3 조건부 엔트로피 계산

위의 대상 변수의 정보 엔트로피를 계산한 후 각 특성의 조건부 엔트로피를 계산해야 하는데 조건부 엔트로피의 공식은 다음과 같습니다.

H ( Y ∣ X ) = ∑ P ( x ) H ( Y ∣ x ) H(Y|X) = \sum P(x) H(Y|x)H ( Y X )=P ( x ) H ( Y x )

여기서 P (x) P(x)P ( x ) 는 특징 X, H ( Y ∣ x ) H(Y|x)의 확률 분포입니다.H ( Y x ) 는 주어진 X에서 Y의 엔트로피입니다.

예제의 데이터 계산

날씨 농구를 하다 = 예 농구하기 = 아니요
화창한 1
흐린 2 0
비오는 날 1 2

예를 들어 "Weather"를 노드로 사용하여 데이터를 분할하면

  • "Sunny"의 조건부 엔트로피는 다음과 같습니다.

H ( 농구하기 ∣ 날씨 = 써니 ) = − [ ( 2 / 3 ) ∗ log 2 ( 2 / 3 ) + ( 1 / 3 ) ∗ log 2 ( 1 / 3 ) ] ≈ 0.811 H(농구하기 | 날씨=화창함) = - [(2/3)*log2(2/3) + (1/3)*log2(1/3)]≒ 0.811H ( 농구 쳐라 날씨 _ _ _ _ _ _ _ _ _ _ _ _=써니 ) _ _ _=[( 2/3 )*로그 2 ( 2/3 ) _ _+( 1/3 )*로그 2 ( 1/3 ) ] _0.811

  • "흐린" 날씨의 경우:

H ( 농구 경기 ∣ 날씨 = O vercast ) = − [ 1 ✽ log 2 ( 1 ) + 0 ] = 0 H(농구 경기 | 날씨=흐림) = - [1*log2(1) + 0] = 0H ( 농구 쳐라 날씨 _ _ _ _ _ _ _ _ _ _ _ _=이상 ) _ _ _ _ _=- [ 1*로그 2 ( 1 ) _ _+0 ]=0

  • "비가 오는" 날씨의 경우:

H ( 농구하기 ∣ 날씨 = 비 ) = − [ ( 1 / 3 ) ∗ log 2 ( 1 / 3 ) + ( 2 / 3 ) ∗ log 2 ( 2 / 3 ) ] ≈ 0.918 H(농구하기 | 날씨=비) = - [(1/3)*log2(1/3) + (2/3)*log2(2/3)] ≒ 0.918H ( 농구 쳐라 날씨 _ _ _ _ _ _ _ _ _ _ _ _=비야 ) _ _=[( 1/3 )*로그 2 ( 1/3 ) _ _+( 2/3 )*로그 2 ( 2/3 ) ] _0.918

  • 그런 다음 "Weather"를 노드로 데이터를 분할할 때 조건부 엔트로피를 계산해야 합니다. 이를 위해서는 각 날씨에 대한 조건부 엔트로피를 날씨 확률과 합산해야 합니다(이 경우 날씨=맑음, 흐림, 비 올 확률).

H (농구 ∣ 날씨 ) = P ( 맑음 ) ∗ H ( 농구 ∣ 날씨 = 맑음 ) + P ( 오버캐스트 ) ∗ H ( 농구 플레이 ∣ 날씨 = 오버캐스트 ) + P ( 비 ) ∗ H ( 농구하기 ∣ 날씨 = 비 ) = ( 4 / 9 ) ∗ 0.811 + ( 2 / 9 ) ∗ 0 + ( 3 / 9 ) ∗ 0.918 ≈ 0.764 H(농구하기 | 날씨) = P(맑음) * H(농구하기 | 날씨=맑음) + P(흐림) * H(농구하기 | 날씨=흐림) + P(비) * H(농구하기 | 날씨=비) = ( 4/9)*0.811 + (2/9)*0 + (3/9)*0.918 ≒ 0.764H ( 바구니 날씨 ) _ _ _ _ _ _ _ _ _ _ _ _ _ _=P ( 써니 ) _ _ _*H ( 농구 쳐라 날씨 _ _ _ _ _ _ _ _ _ _ _ _=써니 ) _ _ _+P ( 오버 캐스트 ) _ _ _ _*H ( 농구 쳐라 날씨 _ _ _ _ _ _ _ _ _ _ _ _=이상 ) _ _ _ _ _+P ( ) _ _*H ( 농구 쳐라 날씨 _ _ _ _ _ _ _ _ _ _ _ _=비야 ) _ _=( 4/9 )*0.811+( 2/9 )*0+( 3/9 )*0.9180.764

4.1.4 정보 획득

마지막으로 "Weather"를 노드로 하여 데이터를 분할할 때 대상 변수의 엔트로피에서 조건부 엔트로피를 빼서 정보 이득을 얻을 수 있습니다.

이득(날씨) = H(농구 플레이) - H(농구 플레이 ∣ 날씨) = 0.918 - 0.764 = 0.154 이득(날씨) = H(농구 플레이) - H(농구 플레이 | 날씨) = 0.918 - 0.764 = 0.154Gain ( 날씨 ) _ _ _ _ _ _=H ( 농구 치다 ) _ _ _ _ _ _ _ _-H ( 바구니 날씨 ) _ _ _ _ _ _ _ _ _ _ _ _ _ _=0.918-0.764=0.154

이 결과는 "날씨"를 분할 노드로 사용하면 0.154의 정보 이득을 가져올 수 있으며, 이는 "날씨"를 분할 노드로 선택할지 여부를 결정하는 데 도움이 됩니다.

4.1.5 보충

  • 질문을 아는 것부터 먼저 정보 엔트로피가 무엇인지 이해해야 합니다.

우선, 두 종류의 정보가 구분됩니다: 사물을 계속 파악하는 데 필요한 정보의 양 VS 이전에 알려진 정보가 제공하는 정보의 양. 정보 엔트로피는 사물을 계속 파악하는 데 필요한 정보의 양과 같은 방향으로 변화하고 , 정보 엔트로피는 이전에 알려진 정보가 제공하는 정보의 양과 반대 방향으로 변화합니다.

정보 엔트로피가 클수록 사물의 불확실성이 커지므로 사물을 계속 파악하는 데 필요한 정보의 양이 많을수록 이전에 알려진 정보 또는 이전에 알려진 데이터가 제공하는 정보가 적습니다.

정보 엔트로피가 작을수록 사물의 불확실성이 작아지므로 사물을 계속 파악하는 데 필요한 정보의 양이 적습니다.

  • 확률변수의 정보 엔트로피가 클수록 그 값(내용)이 제공할 수 있는 정보의 양은 늘어나고, 이 값을 알기 전에 갖고 있는 정보의 양은 줄어듭니다.

4.1.6 속성 유형 및 분할 조건

위에서 농구(경계)를 하는 간단한 예를 들었습니다. 위의 예에는 두 개의 열만 있기 때문에 한 열은 y(레이블)이고 다른 열은 x(특징)이므로 느낄 수 있습니다. 의사 결정 트리의 선택 과정을 이해하지 못하므로 다음 예제를 사용하여 추가로 소개합니다.

  • 이 예에서는
    • 전체 데이터 세트의 정보 엔트로피는 고급 자동차를 통해 계산 됩니다.
    • 정성적 데이터의 계산이란 분류 속성 x(여기서는 결혼, 성별, 나이 등), 즉 분류 전의 정보 엔트로피에 따른 계산을 의미합니다.
    • 양적 데이터의 계산은 수치적 속성 x(예: 여기서는 연간 소득) 등을 계산하고 x를 다른 분류 조건으로 나누려고 시도하는 것입니다.
    • 정보 획득 = 분할 전 정보 엔트로피 - 분할 후 정보 엔트로피
    • 크기를 비교하여 정보 획득이 클수록(정보 엔트로피가 감소할수록) 우리가 선택한 분할 조건이 됩니다.

질적(시험 초점)

  • 팁: 예를 들어 여기에서는 결혼으로 계산합니다. 즉, 먼저 미혼, 기혼, 이혼의 세 가지 상황으로 나눈 다음 각각 y(고급차 여부)에 따라 계산합니다.

정량적

4.2 나이브 베이즈 분류

P41

스무딩은 카테고리당 +1입니다.

4.3K 최근접 이웃 분류

  • 공격적인 방법

    • 의사결정 트리, 베이지안
  • 게으른 방법

    • K-최근접이웃
  • 예측 샘플의 경우 교육 데이터 세트에서 가장 유사한 K개의 샘플을 찾고 이 K개의 샘플 범주를 사용하여 이 샘플의 범주를 결정합니다.

  • K는 사용자가 지정합니다. 유사 샘플의 선별 방법은 샘플 간의 유사도를 측정하는 방법에 따라 달라지며, 다양한 유사도 측정 방법에 대한 소개는 6장을 참조한다.

  • 테스트 샘플과의 거리가 가장 작은 K개의 샘플을 선택한 후 투표 방법(voting)을 사용하여 각 범주의 샘플 수를 세고 대부분의 K 범주를 테스트 샘플에 할당할 수 있습니다.

4.4 분류 성능 측정

4.4.1 데이터 세트 분할

  • 홀드아웃

    • 학습 데이터 세트와 테스트 데이터 세트의 비율을 인위적으로 결정하며 일반적으로 사용되는 비율은 2:1과 1:1입니다.
  • 교차 검증 방법(교차 검증)

    • 각 샘플은 교육 또는 테스트 세트에 번갈아 사용됩니다.

    • n겹 교차 검증n겹 교차 검증

    • 일반적으로 사용되는: 10겹 교차 검증

      • 데이터 세트는 10개 부분으로 나뉘며 매번 9개 포인트를 훈련 세트로 사용하고 1개 부분을 테스트 세트로 사용합니다.

      • 먼저 데이터 세트를 10개의 동일한 부분(각각 10개의 샘플)으로 나눕니다. 그런 다음 10차례의 훈련과 테스트를 수행합니다. 각 라운드에서 9개 데이터(90개 샘플)를 사용하여 모델을 훈련하고 나머지 1개 데이터(10개 샘플)를 사용하여 모델 성능을 테스트합니다. 이렇게 하면 각 데이터 조각이 테스트 세트로 사용될 기회가 한 번 있고 나머지 시간은 훈련 세트로 사용됩니다.

        최종적으로 우리는 10개의 시험 점수를 얻고 일반적으로 그 평균을 최종 성과 지표로 계산합니다. 이 접근 방식의 장점은 훈련과 테스트에 모든 데이터를 사용하고 각 샘플은 테스트에 한 번 사용된다는 것입니다.

    • 일대일 아웃 N겹 교차 검증

      • Leave-one-out은 n겹 교차 검증의 특별한 경우입니다. 여기서 n은 총 샘플 수와 같습니다 . 즉, 100개의 샘플이 있으면 100회의 훈련과 테스트를 수행합니다. 각 라운드마다 99개 샘플을 훈련용으로 사용하고 나머지 1개 샘플을 테스트용으로 사용합니다.

        이 접근 방식은 편향이 가장 적은 추정치를 생성하지만 특히 샘플 크기가 매우 큰 경우 계산 비용이 많이 듭니다. 그러나 샘플 크기가 상대적으로 작은 경우에는 모든 데이터를 잘 활용할 수 있으므로 이 방법이 좋은 선택이 될 수 있습니다.

  • 부트스트랩

    • 부트스트래핑은 복원 샘플링을 사용하여 교육 데이터 세트를 구성합니다.

4.4.2 지표

4.4.3 다양한 분류 모델의 비교

  • 이익 차트(이익 차트)

    • 이득 플롯은 모델 예측의 누적 효과를 표시하기 위한 시각화 도구입니다. 게인 그래프에서 X축은 (모두 양성으로 예측된 ​​샘플 중) 샘플의 비율을 나타내고, Y축은 양성 샘플의 비율을 나타냅니다.
    • 게인 맵의 시작점은 (0,0)이고 끝점은 (1,1)입니다. 모델의 예측이 완전히 정확했다면 그래프는 오른쪽 위로 올라가는 단계의 그래프가 될 것입니다. 여기서 단계는 모든 실제 사례가 긍정적으로 예측된 ​​후에 발생합니다. 모델의 예측이 유익하지 않은 경우(예: 무작위 추측) 그래프는 (0,0)에서 (1,1)까지의 대각선이 됩니다.
    • 이득 플롯은 모델이 순위를 얼마나 잘 예측하는지 평가하는 좋은 방법입니다. 특히 예측의 정확성보다 긍정적인 샘플의 순위를 예측하는 데 더 관심이 있는 경우에 그렇습니다.
  • ROC 곡선

    • Y축 : 전체 양성 샘플 수에서 해당 샘플에 포함된 양성 샘플 개수의 백분율, 즉 참율 TP
    • X축: 검사 샘플의 전체 음성 샘플에 대한 선택된 샘플의 음성 샘플의 비율, 즉 위양성률 FP
    • ROC 곡선의 시작점은 (0,0)이고 끝점은 (1,1)입니다. 모델의 예측이 완벽하게 정확하면 ROC 곡선은 먼저 (0,1)까지 올라간 다음 오른쪽으로 (1,1)로 올라갑니다. 모델의 예측이 유익하지 않은 경우 ROC 곡선은 (0,0)에서 (1,1)까지의 대각선이 됩니다.
    • ROC 곡선 아래 면적(Area Under the ROC Curve, AUC)은 모델의 성능을 측정하는 지표로 사용될 수 있습니다. AUC 값의 범위는 0.5(예측력 없음)부터 1(완벽한 예측)까지입니다.

제5장 수치예측

5.1 모델 확인

5.2 비선형 회귀

비선형 회귀를 선형 회귀로 변환하는 방법

  1. 모델 y = axby=ax^b 의 경우와이=엑스 _b , 로그를 취하면 다음과 같습니다:log ⁡ y = log ⁡ a + b log ⁡ x \log y = \log a + b \log x로그 _와이=로그 _+로그 _엑스 .

  2. 모델 y = aebxy=ae^{bx}와이=에이 _b x 는 로그 후에 다음과 같이 됩니다:ln ⁡ y = ln ⁡ a + bx \ln y = \ln a + bx와이=+b x .

  3. 모델의 경우 y = a + b log ⁡ xy=a+b \log x와이=+로그 _x , X = log ⁡ x X=\log x라고 하면엑스=로그 _x 이면 모델은 다음과 같습니다.y = a + b X y = a + bX와이=+엑스 .

이는 로그 변환이나 변수 대체를 통해 선형 모델로 변환할 수 있는 일반적인 비선형 모델입니다. 이것의 장점은 선형 모델이 이론과 실제 모두에서 다루기가 더 쉽다는 것입니다.

5.3 회귀 트리 및 모델 트리

SDR(Standard Deviation Reduction), 정보 엔트로피, 정보 이득(Information Gain)은 모두 의사 결정 트리에서 분할 속성을 선택하는 데 사용되는 기준이지만 적용되는 문제와 구체적인 계산 방법이 다릅니다.

  1. SDR(표준편차감소)

    SDR은 회귀 문제에 대한 의사 결정 트리에 사용됩니다 . 즉, 대상 변수는 연속 값입니다. 대상 속성 값의 표준 편차를 기준으로 분할 속성을 선택합니다 . 분할로 인해 하위 데이터 집합의 표준 편차가 크게 감소할 수 있다면 분할이 좋은 것일 수 있습니다. 표준편차는 데이터 집합에서 값의 분산 정도를 측정하는 지표로, 표준편차가 작을수록 데이터가 밀집되어 있다.

    SDR의 계산 공식은 일반적으로 다음과 같습니다 . sd (D) - (|D1|/|D|)*sd(D1) - (|D2|/|D|)*sd(D2)SDR _ _=sd ( ) _-( D 1∣/∣ D )*s d ( D 1 )-( D 2∣/∣ D )*sd ( D2 ) . _ _ 여기서sd(D) sd(D)s d ( D )는 데이터 세트 D,∣ D ∣ |D|D ∣는 데이터 세트 D에 포함된 샘플 수를 나타냅니다.

  2. 정보 엔트로피 및 정보 획득(Information Gain) :

    정보 엔트로피와 정보 이득은 분류 문제를 위한 의사 결정 트리에 사용됩니다. 즉, 대상 변수는 이산적입니다. 정보 엔트로피는 데이터의 불확실성을 나타내는 척도로, 정보 엔트로피가 클수록 데이터의 불확실성도 커집니다. 정보 이득은 분류 문제에서 속성의 중요도를 판단하는 지표로, 정보 이득이 클수록 분류에 대한 해당 속성의 기여도가 크다.

    정보 이득의 계산 공식은 다음과 같습니다: Gain = Entropy ( D ) − ∑ ( ∣ Di i ∣ / ∣ D ∣ ) * Entropy ( Di ) Gain = Entropy(D) - ∑(|Di|/|D| )* 엔트로피(Di)이득 _=엔트로피 ( D ) _ _ _ _ _-( D i ∣/∣ D )*엔트로피 ( Di ) 한편,엔트로피( D ) 엔트로피 ( D )엔트로피 ( D ) 는 데이터 세트 D 정보 엔트로피, ∣ D i ∣ / ∣ D ∣ | Di | / |D|Di /∣ D ∣는 D에서 하위 데이터 집합 Di의 비율입니다.

일반적으로 SDR과 정보 이득은 모두 분할 속성의 유효성을 평가하는 지표이지만 SDR은 회귀 문제에 주로 사용되는 반면 정보 이득은 분류 문제에 주로 사용됩니다 . 그들은 모두 분할 속성으로서 불확실성을 최소화할 수 있는 속성을 찾으려고 노력합니다.

6장 클러스터링

6.1 클러스터링 방법의 분류

  • 파티셔닝 접근 방식:
    • k-평균, k-medoids 및 기타 방법.
  • 계층적 접근 방식:
    • 응집형 계층적 클러스터링 및 분할형 계층적 클러스터링
    • 다이애나、 아그네스、 BIRCH、 ROCK、CAMELEON等。
  • 밀도 기반 접근 방식
    • DBSCAN, OPTICS, DenClue 등
  • 모델 기반 접근법(모델 기반)
    • EM, SOM, COBWEB 등

6.2 유사도 측정 방법

거리 기반 유사성 측정

코사인 유사성

상관 기반 유사성 측정

자카드 계수

이종 속성의 유사성에 대한 포괄적인 측정

  • 명목이란 "이름과 관련된 것"을 의미하며 명목 속성의 값은 어떤 상징이나 사물의 이름입니다.

6.3 K-평균 군집화

  • 중심 계산

(1,1), (1,2), (2,1), (5,4), (5,5) 및 (6,5) 6개의 포인트가 있는 2D 데이터 세트가 있다고 가정하고 다음을 원합니다. 이러한 점을 두 가지 범주로 클러스터링합니다. 다음은 K-평균 클러스터링의 기본 프로세스입니다.

  1. 초기화 : 먼저 K(여기서는 K=2) 초기 중심(중심이라고 함)을 선택해야 합니다. 초기 중심을 선택하는 방법에는 여러 가지가 있으며, 간단한 방법 중 하나는 데이터 세트에서 K개의 샘플을 무작위로 선택하는 것입니다. 초기 두 개의 중심으로 (1,1)과 (5,4)를 선택한다고 가정합니다.

  2. 가장 가까운 중심에 할당 : 다음으로 각 데이터 포인트를 가장 가까운 중심에 할당합니다. 이 "가장 가까운" 거리 측정법, 일반적으로 유클리드 거리에 따라 결정됩니다. 이 예에서 (1,1), (1,2) 및 (2,1)은 첫 번째 중심에 할당되고 (5,4), (5,5) 및 (6,5)는 할당됩니다. 두 번째 중심에 할당합니다.

  3. 중심 다시 계산 : 그런 다음 각 클래스의 중심을 다시 계산해야 합니다. 중심은 포함된 모든 점의 평균입니다. 이 예에서 첫 번째 클래스의 새 중심은 ((1+1+2)/3, (1+2+1)/3) = (1.33, 1.33)이고 두 번째 클래스의 새 중심은 ( ( 5+5+6)/3, (4+5+5)/3) = (5.33, 4.67).

  4. 2단계와 3단계 반복 : 중심이 더 이상 크게 변하지 않거나 미리 설정된 최대 반복 횟수에 도달할 때까지 2단계와 3단계를 계속 반복합니다. 우리의 경우 중심은 더 이상 변경되지 않았으므로 알고리즘은 여기서 중지됩니다.

최종 결과는 (1,1), (1,2) 및 (2,1)이 하나의 범주로 클러스터링되고 (5,4), (5,5) 및 (6,5)가 다른 범주로 클러스터됩니다. 친절한. K-means 군집화 결과는 초기 중심의 선택에 영향을 받을 수 있으며, 국지적 최적값에 빠질 수 있으므로, 실제로는 최상의 결과를 선택하기 위해 알고리즘을 여러 번 실행해야 할 수도 있습니다.

6.4 다양한 클러스터링 방법의 특성 비교

1. K-평균(K-평균):

이점:

  • 계산 속도가 빠르고, 대규모 데이터 세트의 효율성이 높습니다.
  • 출력은 이해하기 쉽고 클러스터링 효과는 보통입니다.

결점:

  • 클러스터 수 K는 미리 설정해야 하는데, 이는 많은 경우에 어려운 일입니다.
  • 초기 중심 선택에 민감하며 국소 최적 상태에 빠질 수 있습니다.
  • 비구형(볼록하지 않은) 데이터 구조 및 크기 차이가 큰 클러스터에 대해 제대로 작동하지 않습니다.
  • 노이즈와 이상치에 민감합니다.

적용 가능한 장면:

  • 연속적인 숫자 데이터에 적합하고 범주형 데이터에는 적합하지 않습니다(확장을 위해 k-모드 또는 k-프로토타입 사용).
  • 데이터 양이 많고 데이터 차원이 상대적으로 낮을 때 성능이 더 좋습니다.

2. 계층적 클러스터링:

이점:

  • 클러스터 수를 미리 설정할 필요가 없습니다.
  • 결과 계층 구조는 계층 데이터에 적합한 다양한 수준에서 분석될 수 있습니다.
  • 데이터의 양이 특별히 크지 않은 경우에는 K-평균보다 효과가 좋은 경우가 많습니다.

결점:

  • 계산 복잡도가 높고 대규모 데이터 세트를 처리하기가 어렵습니다.
  • 샘플이 특정 클래스로 분류되면 변경할 수 없으므로 클러스터링 효과가 제한될 수 있습니다.
  • 노이즈와 이상치에 민감합니다.

적용 가능한 장면:

  • 데이터의 계층 구조를 가져와야 하는 경우.
  • 데이터 세트가 상대적으로 작고 중요한 계층 구조가 있는 경우.

보충: 계산 클러스터 간의 유사성 측정

  1. 최소 거리(minimum distance), 즉 단일 링크 단일 링크: 두 클러스터의 노드 간 최소 거리를 기준으로 두 클러스터의 유사도를 측정,
  2. 최대 거리(maximum distance), 즉 전체 링크 완전 링크: 두 클러스터에서 노드 간 최대 거리를 기준으로 두 클러스터의 유사도 측정
  3. 평균 거리(average distance), 즉 링크 단일 링크: 두 군집에서 노드 간 평균 거리를 기준으로 두 군집의 유사도 측정
  4. 평균 거리(average distance), 즉 링크 Single link: 두 군집의 centroids간 거리를 계산하여 두 군집의 유사도 측정

3. DBSCAN(노이즈가 있는 애플리케이션의 밀도 기반 공간 클러스터링):

이점:

  • 클러스터 수를 미리 설정할 필요가 없습니다.
  • 임의의 모양의 클러스터 구조를 발견할 수 있습니다.
  • 소음 지점을 식별하는 기능이 있습니다.

결점:

  • 밀도가 균일하지 않은 데이터세트의 경우 적합한 매개변수(예: 밀도 임계값)를 찾는 것이 어려울 수 있습니다.
  • 고차원 데이터에 대한 클러스터링 효과는 일반적으로 좋지 않습니다.

적용 가능한 장면:

  • 데이터 세트의 클러스터가 복잡한 모양을 취하는 경우.

  • 데이터 세트에 노이즈 포인트나 이상값이 있는 경우.

  • 데이터 세트의 크기와 밀도가 상대적으로 중간 정도이고 데이터 차원성이 특별히 높지 않은 경우입니다.

  • 클러스터링 효과 측정 방법

    • 응집력(Cohesion): 클러스터에 있는 각 개체의 근접성을 측정합니다.

    • 분리(separation) : 클러스터 간 객체의 차이 정도를 측정합니다.

8장 데이터 전처리

8.1 데이터 정규화

  • 데이터 정규화는 표준화라고도 합니다.
    • 최소-최대 정규화
    • z-점수
      • Z = ( X - μ ) / σ Z = (X - μ) / σ=( X-m ) / p

8.2 데이터 이산화

  • 등거리 비닝, 등주파수 비닝
  • 엔트로피 기반 이산화
    • 비닝 이산화는 비지도 이산화 방법입니다.
    • 엔트로피 기반 이산화 방법은 일반적으로 사용되는 감독 이산화 방법입니다.
    • 정보 엔트로피 값이 작을수록 클래스 분포가 더 순수하고 그 반대도 마찬가지입니다.
  • 이산화 방법 ChiMerge
    • 엔트로피 기반 방법이 하향식 분할 방법으로 볼 수 있다면 ChiMerge는 상향식 병합 방법입니다.
    • ChiMerge는 각 값이 작은 구간이라는 점에서 시작하여 인접한 구간을 지속적으로 병합하여 큰 구간을 형성하며 통계적 카이제곱 테스트를 기반으로 구현됩니다.

ChiMerge는 연속 변수를 이산 변수로 변환하기 위한 카이제곱 통계를 기반으로 하는 지도 이산화 방법입니다. ChiMerge 방법의 기본 원리는 연속형 변수의 범위를 일련의 분리된 간격으로 나누어 동일한 간격의 값에 해당하는 대상 변수의 분포가 최대한 일관되도록 하는 것입니다. 서로 다른 간격에 해당하는 목표 변수는 최대한 다릅니다.

ChiMerge 방법의 기본 단계는 다음과 같습니다.

  1. 초기화: 연속 속성의 각 값을 별도의 간격으로 처리합니다.

  2. 인접한 구간의 각 쌍에 대한 카이제곱 값을 계산합니다.

  3. 카이제곱 값이 가장 작은 인접한 구간을 병합하면 이 두 구간을 병합해도 목표 변수의 분포가 크게 변경되지 않습니다.

  4. 인접한 모든 간격의 카이제곱 값이 미리 설정된 임계값보다 크거나 미리 설정된 간격 수에 도달할 때까지 2단계와 3단계를 반복합니다.

아래는 간단한 예입니다. 다음과 같은 데이터가 있다고 가정합니다.

나이 수업
23 +
45 -
56 +
60 -
33 +
48 -
50 -
38 +

우리는 ChiMerge 방법을 사용하여 Age를 이산화하려고 하며 Class는 대상 변수입니다.

카이제곱 값을 계산하는 단계는 다음과 같습니다.

  1. 인접한 간격의 각 쌍에 대해 각 간격에서 대상 범주 '+' 및 '-'의 발생 횟수를 각각 계산합니다. 예를 들어 첫 번째 구간에서는 '+'가 1회, '-'가 0회 발생하고[23], 두 번째 구간에서는 '+'가 0회, '-'가 1회 발생한다[45].

  2. 2x2 관찰 빈도 테이블을 구성하고 행은 간격을 나타내고 열은 범주를 나타내며 셀 값은 해당 발생 횟수입니다.

    '+' '-'
    23 1 0
    45 0 1
  3. 관찰된 빈도표에서 각 셀의 기대 빈도를 계산합니다. 예상 빈도는 해당 행의 총 개수에 해당 열의 총 개수를 곱한 다음 총 관측 빈도로 나눈 값입니다. 이 예에서 모든 셀의 기대 빈도는 0.5입니다.

  4. (관찰빈도 - 기대빈도)^2 / 기대빈도인 각 셀의 카이제곱 값을 계산한 후, 모든 셀의 카이제곱 값을 더하여 이 쌍의 카이제곱 값을 구합니다. 간격. 이 예에서 카이제곱 값은 (1-0.5)^2/0.5 + (0-0.5)^2/0.5 + (0-0.5)^2/0.5 + (1-0.5)^2/0.5 = 2 .

  5. 인접한 모든 구간에 대해 이 계산을 수행하고 카이제곱 값이 가장 작은 구간 쌍을 찾은 다음 구간 쌍을 병합합니다.

일반적으로 ChiMerge는 효과적인 이산화 방법으로, 특히 연속 변수와 대상 변수 간의 관계가 복잡한 경우에 적합합니다.

8.3 데이터 정리

  • 누락된 데이터 처리, 노이즈가 있는 데이터 처리, 데이터 불일치 식별 및 처리

  • 누락된 데이터 처리

    • 데이터 세트에 범주형 속성이 포함된 경우 누락된 값을 채우는 간단한 방법은 동일한 클래스에 속하는 개체의 속성 값의 평균을 누락된 값에 할당하는 것입니다. 모드

    • 분류 문제 또는 수치 예측 문제로 변환할 수 있는 보다 복잡한 접근 방식

10장. 데이터 웨어하우스

10.1 데이터 웨어하우스 관련 개념

  • 데이터 웨어하우스란 무엇입니까?
    • 데이터 웨어하우스는 조직의 의사 결정을 지원하는 데 사용되는 주제 지향적이고 통합적이며 시변적이고 안정적인 데이터 모음입니다.
  • 데이터 웨어하우스를 구축하는 이유는 무엇입니까?
    • 서로 다른 시스템에는 데이터의 중복성과 불일치가 있으며, 각 시스템은 정보의 일부만 반영하고 서로 관련이 없어 정보섬을 형성합니다.
    • 분석용 데이터를 얻기 위해 운영 시스템에 직접 접근하는 것은 필연적으로 운영 시스템에서 사물의 효율적인 운영을 방해하고 비즈니스 운영의 효율성에 영향을 미칩니다.
  • 데이터 웨어하우스와 데이터 마트의 차이점
    • 데이터 베이스:
      • 1. 일반적으로 데이터 마트 전에 생성됩니다.
      • 2. 다양한 데이터 소스.
      • 3. 모든 세부 데이터 정보를 포함합니다.
      • 4. 데이터 내용은 회사 수준이며 특정 주제나 분야가 없습니다.
      • 5. 제3정규형을 따른다.
      • 6. 일반적으로 대용량 데이터를 처리하는 방법을 최적화하는 것이 필요합니다.
    • 데이터 마트:
      • 1. 일반적으로 데이터 웨어하우스가 생성된 후입니다.
      • 2. 데이터 웨어하우스는 데이터 소스입니다.
      • 3. 적당히 집계된 데이터와 일부 세부 데이터가 포함되어 있습니다.
      • 4. 데이터 콘텐츠는 부서 수준에 있으며 특정 필드가 있습니다.
      • 5. 별 모양과 눈송이 모양.
      • 6. 일반적으로 어떻게 빠르게 접근하고 분석하는지에 더 많은 관심을 기울이십시오.

10.2 데이터 웨어하우스의 아키텍처

  • 데이터웨어 하우스 시스템 아키텍처
    • 메타데이터는 데이터 웨어하우스에 있는 데이터를 설명하는 정보입니다. 주로 정보의 세 가지 측면인 데이터 원본 데이터 정보, 데이터 추출 및 변환 정보, 데이터 웨어하우스의 데이터 정보를 설명합니다.

10.3 다차원 데이터 모델

  • 다차원 데이터 모델이란 무엇입니까?
    • 차원 데이터 모델이라고도 하는 다차원 데이터 모델은 차원 테이블과 팩트 테이블로 구성됩니다.
  • 사실 시트
    • 메트릭은 일반적으로 정량적 속성이며 팩트 테이블에 저장됩니다. 메트릭은 바람직하게는 부가적입니다.
  • 차원 테이블

추천

출처blog.csdn.net/weixin_57345774/article/details/131413471