제인의 데이터 시스템에 대한 방법론 도로

제인의 데이터 시스템 구축 방법론에 도로 :이 단계에서는 작업의 데이터의 중앙 기둥을 만들어 보자!

많은 기업들이 체계적인 데이터 시스템은 데이터 작업의 중심 기둥이 될 것이라는 점을 깨달았다. 그래서, 회사 명확하게 어떻게 자신의 데이터 시스템은 어떻게 구축이? 저자는 간단한 언어 SR 방법에 도로와 다년간의 경험을 기반으로 독자 요약을 알려줍니다.

이 기사는 기사의 "데이터 조작 방법론"시리즈의 두 번째입니다. 첫 번째 장 , "제인의 데이터 분석 방법론 길" 은 "분석하는 방법을 모른다"문제에 대해 이야기 한 후, "무엇을이 분석 모른다,"이 문제에 대해 얘기이 문서. 보기의 개인 애널리스트 지점 서 더 미세한 첫 번째 기사는,이 넓은, 기업 수준에 서있는 것은 설명합니다.

그리고 같은를 "내가 분석하는 방법을 모른다", 또한 많은 중 하나 자주 묻는 질문은 "나는이 분석은 모르겠어요." 당신이 방법을 알고 있다면 사실, 그것은 하룻밤없이 할 수는 없지만, 자신의 사운드 시스템의 데이터 경로를 단계별로도 명확한 단계를 만들 수있는 방법을하지만.

첫 번째 기사처럼, 가장 간단한 일반 언어 용어로 데이터 시스템을 구축 할 수있는 경로를 지 웁니다. 단순히 데이터 시스템을 애타게 처음이다 넣어 다음 시스템의 BI (더 맛을 촉구 실제로 비즈니스 인텔리전스, 비즈니스 인텔리전스,,)로 분류된다.

첫째, 위에서 아래로 데이터 시스템을 빗질

1. 타겟팅

 

이것은 자신에게 물어 첫 번째 질문입니다. 데이터 분석을 할 수있는 큰 노력을 확인하고 궁극적으로 무엇을 하시나요? 이 데이터 시스템이 확실히 시작되지 않는다는 것을 분명히하지 않은 경우.

또한, 사용자의 활동을 향상 사용자 증가, 매출 증가, 또는 다른 대상입니까? 나는 내가 원하는처럼 생각합니다. 우리는 문제를 원한다, 그러나 진행되지 수있는로 이어지는 거대한 국경 작업을 할 것입니다. 따라서 그 목표에서 가장 우려 / KPI를하는 시작해야한다.

그래서, 우리는 그것에 대해 신경 쓸 필요가 가장 목표는 무엇인가?

서로 다른 영역, 회사의 다른 단계와 사용자의 서로 다른 역할은이 질문에 대한 대답은 다릅니다 : 많은 회사의 상사에 대한 이익은 그들이 가장 우려되는 목표는, 회사의 비 판매 제품 / 서비스 나 정부 및 말은, 아마 고객 만족도가 가장 우려의 목표, 거래 전기 공급 회사 또는 초기 단계의 기업에 대한 타겟 플랫폼은, 이익은 포인트 아니라, 거래량이 가장 걱정입니다.

목표는 모두가 원하는 문제를 해결하지 않는 것입니다 여기에, 가장 걱정 얻으려면? 그렇지 않습니다. 빅 데이터는 데이터의 최대 양을 가능한 필드의 수에 의한 오해이다. 정말 특정 비즈니스 문제를 해결 그러나, 우리는 빅 데이터의 전체 작품 관련 부분 집합 사용을 잘라해야합니다.

한 사람의 경우, 목표 / KPI에 초점을 맞추면서 소유자 또는 임원 수준이 너무 많이 있습니다 여부. KPI의 수십 보면서, 또한 상상이 매우 희미하고, 시간이 많이 걸리는 것 알고있다. 그러나 실제로 많은 기업이 매우 중요 KPI 거기있다. 이 방법을 수행하는 것입니다? 다른 역할과 협력 사람들에게 나눌 수있는, 자신의 목표에 대해 각각 우려, 모든 역할은 전집 함께 모든 대상 / KPI의 수 있습니다.

상사의 목표에 대해이 가장 걱정 가정입니다 이익, 이익 = 매출액 -,이 목표는, 운영 이사 비용에 초점을 소득에 초점을 영업 이사로 비용을 나눌 수 있습니다. 물론, 상사가 실제 범위에서 수익 만 대상으로 관심의 일상을 볼 수 없습니다 말을하지.

2. 분해 지수

대상 확인, 다음 단계는 관련 지표를 파괴하는 것입니다.

대상, 어떤 지표 모니터링하거나 목표에 도달 할 필요성을 분석? 이러한 이익, 수익 및 통계 관련 비용 물론, 너무 두꺼운이며, 같은 어떤 종류의 소득, 비용은 이러한 범주 중 어느 것이 고려되어야한다. 예를 들어, 소매 판매, 그것은 상점, 구매 비율, 고객의 가격과 재 구매 비율로, 교통로 분해 될 수있다.

그래서, MECE는 (완전히 철저한, 서로 독립적)의 원칙을 따라야합니다, 여러 가지 분해가 있습니다.

3. 제련 분야

, 데이터 정리의 필요성을 도서관 테이블에 있던 필드를 포함 인덱스,,,에 대한 공식 어떤 다른 청소 규칙 예.

예를 들어 수식에 의한 구매 비율, "가게에 사람들의 / 수를 사는 사람들의 수는,"구매의 수를 계산하고 대응 관련 밖으로 계산 계산 "고객 ID"필드 지표 인의 데이터베이스에있는 테이블 필드가 명확하게 분류 할 필요가,이 부분은 그것을 직원 또는 데이터베이스 관리자의 참여와 협력이 필요합니다.

4. 비 기능적 요구 사항

위의 3 단계가 완료되면, 우리가 실제로 인덱스 시스템을 빗질 완성 된 고려, 당신이 그것을 드롭하지만, 데이터 시스템은 결국 형성 할 수 있도록하기 위해 할 수있는 또한 비 기능적 요구 사항의 일종을 필요로 사용할 수 친화적 인,보다 완벽한.

UI : 중요하지 않은이 시점에서 보이지만, 실제로 사용자 데이터 시스템은 매일 처리됩니다 쇼 스타일 환경 설정의 어떤 종류의, 아름다운, 좋은 시스템 UI는 사용자가 그것 같이 더 많은 것 경험하게됩니다.

페이지 흐름 : 같은 페이지 보고서에 배치 할 수있는 관련 지표는 무엇을 어떻게 사용자가 페이지 사이를 이동할 수있는 방법 페이지 사이의 계층 적 관계.

권한 : 통합 액세스 제어에 대한 필요성을 볼 수있는 필드와 메트릭 데이터 보안 문제를 방지하기 위해하는 어떤 데이터 범위를 볼 수 있습니다.

ETL : 데이터 소스에서 어떻게 시스템의 주파수 동기 데이터, 어떻게 규칙.

통합 : 인터페이스에서 다른 시스템, 경고 메시지 등 수준과의 통합에 대한 필요성.

성능 : 보이지 않는,하지만 직접 시스템 가용성을 결정합니다. 데이터가 큰 경우는 결과를 확인하는 데 몇 분 또는 몇 분의 수만 소요, 아무도 사용할 의향이없는이 시스템 믿습니다.

실시 예 5. 시스템

위의 네 완료 후, 우리는 "요구 사항 문서 데이터 운영 시스템 / 계획"운영 시스템 데이터에 해당하고, 다음 등 보고서의 페이지 수, 데이터 준비 복잡성에 따라 작업 시간 일정의 양을 확인할 수 있습니다을 형성했다.

II. 구현 된 BI 시스템으로 바닥 층에서

1. 연결 데이터

요구 문서 / 실시 예에 따르면, 단계 체계가 작업을 구축. 일부 기업은이 시스템의 빅 데이터 플랫폼을 호출, 일부 기업은 BI 시스템이라고합니다. 종류 빅 데이터 플랫폼은 광범위한 수 있지만 엔터프라이즈 데이터 조작을 위해, BI의 핵심을 구성해야합니다.

그래서, 개발 또는 빠르게 각 데이터 소스에 연결되어있는 시스템을 구축하는 첫 번째 단계를 구현하고, 다양한 데이터 소스 사이의 경로를 열어 날개 기형 타사 도구와 같은 기술을 기반으로되어 있는지 여부를 확인합니다.

비즈니스에서 데이터는 데이터 소스 파일,되는 NoSQL 데이터베이스, 타사 인터페이스는 빠른 도킹 친화적 인 방법이 각 데이터 소스에 필요한를, 데이터베이스, 하둡 플랫폼 시리즈, Excel 파일을 포함 기록 할 수 있습니다 종종 이기종 환경입니다.

결국, 우리는 시스템의 각 데이터 소스에 필요한 모든 테이블과 필드를 볼 수 있습니다.

2. 데이터 처리

데이터의 데이터 소스는 종종 (예를 들어, 실행 2020 개 주문이있는)와 같은 명백히 불합리한 이상치 등 누락 널 같은 중복 기록의 존재 이하 규범 아닌지 시스템에 존재하는 동일한 사물의 여러 이름의 경우가있을 수 있습니다.

이러한 데이터는 작업 프로세스 또는 소위 세척의 일부를 할 경우 분석의 정확도가 될 중요한 영향은, 그래서 사전 처리를 할 필요가있다. 이 과정은 종종 가장 지루한 가장 시간이 많이 걸리는이지만, 그것은 또한 매우 중요하다.

저자는 경고한다 : 더 기사에 대한 심층적 인 토론 "의 도로 제인에 대한 데이터 관리 방법"이라는 제목의 다음 기사에서 문제의이 부분을.

3. 데이터 모델링

데이터가 잘 처리되면, 다음 단계는 데이터 모델링을하는 것입니다.

이해할 수없는 중후 한 느낌 발굴에 모델링, 비 기술적 인 사용자를 언급. 사실, 그것은 무엇이다 금형의 내장? 간단하게 서로의 연관 여러 테이블을 넣어, 그것은 데이터 모델이다.

예를 들어, 회사는 성능 분석, 서비스, 교육, 항목, 금액, 프로젝트의 수익성과 직원의 다른 지표의 수의 필요한 길이를 할 수의 양이 어떤 서비스, 교육 프로젝트 목록, 프로젝트 수익성 개인 정보 테이블, 항목 수, 항목의 길이 금융 테이블에,이 세 개의 테이블이 동료 이러한 세 개의 테이블을 공통 필드 "사원 번호"필드가,이 데이터 모델, 성능 분석 항목에 대한 데이터 모델입니다.

4. 데이터 보고서를 확인

내장 된 데이터 모델을 기반으로, 우리는보고 된 데이터를 만들기 시작 할 수 있습니다.

데이터 모델은 좋은 점프 페이지의 계층과 관계를 구성하고, 해당 차트의 형식으로 화면에, 해당 지표가 동일한 페이지 보고서에 배치되도록, 그들 식으로 결합 될 요구에 따라서, 데이터 필드에 대한 기초를 제공한다 . 다음은 데모 생산 된 빅 데이터 분석을위한 날개 기형 스톱 기술 플랫폼을 기반으로합니다.

5. 비 기능적 요구가 달성

4 단계 후에, 우리의 데이타 시스템은 기본적으로 형상을 가지고 있으며, 나머지 부분은 상기 비 기능 요구 각각을 달성하는 것이다. 이러한 방식으로, 라인의 운영 체제에 대한 포괄적 친절하고 사용 가능한 데이터.

라인의 끝은 항상, 수요 변화 또는 새로운 사업에서 작업을 빠르게 반복, 데이터 처리, 모델링을 조정 할 수 있어야, 생산 데이터보고 및 기타 작업을 구성 할 수 유연성 보장하기 위해 매우 수단이 필요하지 않습니다. 타사 도구는이 점은 특히 분명하다에 자기 개발의 장점도 반영 비교합니다.

결국, 데이터의 목적 중 하나 관리 (스로틀), 비즈니스 혁신 중 하나 (오픈 소스)를 개선하는 것입니다. 체계적인 데이터 시스템은 데이터 작업의 중심 기둥이 될 것입니다.

 

 

 

추천

출처www.cnblogs.com/zwt20120701/p/11408827.html