데이터 거버넌스 방법론 도로 제인의

데이터 거버넌스 방법론 도로 제인의에 - 방법 "더러운 데이터"의 모든 종류의 손에 당신과 함께 처리하는 방법?

 
당신이 요리사 인 경우, 단지 황홀 손님들이 요리의 색, 향과 맛이 일치하는 방법을 묘사, 심지어 요리 기술은 모든 책임을, 당신은 신선한 요리가 풍부한 다양한에 대한 준비가되면 준비 소스 요리를 할 때, 단지 문제를 가지고하는 데 필요한 주요 원료를 찾을 수 있습니다.

 

데이터 분석가의 역할은 요리사, 원료 문제, 요리사 확실히 요리하지 좋은 향기와 맛이있다 요리, 해당 데이터, 데이터 분석은 신뢰성이 자연스럽게 결론도 최고의 데이터 분석처럼 방법론 만 왜곡 데이터에 기초하고, 데이터 고심 내장 시스템은 분명 낭비.

 

과거 프로젝트, 나는 종종 날개 기형 때문에 보고서의 값에 영향을 미치는 부정확 한 데이터의 사용, 일부 고급 전문 데이터보고를했던 기술 제품과 같은 상황, 고객이 발생했습니다.

 

처음 두 기사는 저자가 데이터 지표의 얼굴을 분석하는 방법과 체계적인 데이터 시스템을 구축하는 방법에 대해 설명하고,이 3 번째 "운영 방법론의 데이터 계열,"핵심 주제에 초점을 맞춘 기사입니다 - 데이터 거버넌스.

첫 번째 장 "제인 데이터 분석 방법론 길입니다."

두 번째 "제인의 데이터 시스템 구축 방법론 길"

데이터 거버넌스는 많은 사람들의 눈에 근본적인 작업이 노력에 어려운 일이지만, 더 때문에 더 많은 작업이 무시할 수없는, 상부가 더 안정 될 것 견고한 기초를 공격한다.

이어서, 타입 I 및 더티 데이터 처리 방법을 이야기를 시작.

더티 데이터 유형 및 처리 방법

첫째, 우리가 직면 할 수있다 무엇이 문제 이해의 더러운 데이터의 종류를 살펴 보자.

1 개 누락 된 데이터 : 일부 누락 된 기록 또는 일부 값 (널)의 부족의 레코드, 또는 두 가지 모두가 누락되었습니다. 이 여러 가지 이유가 있습니다, 또는 인해 인간의 유도 시스템이 존재의 가능성. NULL 값이 순서대로 분석의 정확도에 영향을 미치지 않도록, 또는 분석에 포함 널값이 아닌 경우, 어느 실시 값을 채운다. 전자는 평균 0으로 채우도록 선택 논리 분석 계산해야 분석 시료의 양을 줄이고, 난수 등의 비율. 당신은 몇 가지 기록을 누락하는 경우, 비즈니스 시스템이 경우 레코드가 시스템을 통해 다시 가져 오기, 이러한 기록적인 비즈니스 시스템, 수동으로 만 화장 또는 포기가없는 경우.

 

2 데이터 반복 : 같은 기록의 복수는이 과정이 상대적으로 더 나은 중복 레코드를 제거하기 위해 나타납니다. 그러나 두려움 불완전한 반복의 공포, 녹음 등 두 멤버가, 나머지 값 문제에 같은 주소가 아닌, 동일, 또한 값이 우선 새로운 속성을 판단하는 시간이 시작되지 수있는 시간 속성이 존재하지 않는 인간의 판단 과정.

 

3 데이터 에러 : 데이터 엄격 권한 레코드에 따라있다. 이러한 이상치로, 분명히 가격 범위는 100 이하이지만, 200 = 기록 가격 왜 그러한 잘못된 형식, 날짜 형식 기록 문자열이되었다가, 예를 들어, 데이터가 균일하지, 베이징라는 일부 레코드, 일부 BJ라고, 일부라는 것입니다 베이징. 이상 값이 식별되고 제한된 범위에서 제외 할 수 있습니다를 들어, 오류를 포맷 들어, 시스템 레벨에서 원인을 찾을 필요가, 데이터가 균일하지, 시스템은 아무것도 할 수 없다, 그것은 진짜 "실수"가 아니기 때문에, 시스템은 BJ를 알고하지 않으며, 베이징은 같은 일 만 수동 개입이 일치하는 관계가 주어, 일반 청소 테이블을, 첫 번째 열은 원래 값은 두 번째 열은 원래 테이블에 규칙 테이블과 연관된 값을 청소, 얼마나 좋은 상관없이, 청소 값으로 분석을 수행하지 않습니다 일부 근사 알고리즘에 의해 자동 가능한 불균일 한 데이터를 검출한다.

 

데이터가 정확하지만 사용할 수 없습니다 : 4의 데이터를 사용할 수 없습니다. 이러한 "북경 해정 구 중관촌"로 기록 된 주소로,이 지역은 "북경시 해정은"함께 분할해야한다 "영역"Shihai의 수준을 분석 할. 소스에서 가장 좋은이 경우, 데이터 거버넌스를 해결합니다. 단지 키워드 검색을 통해 치료하는, 그리고 반드시 해결.

둘째, BI 데이터 요구 사항

우회의 중간 데이터 거버넌스에 다음, 우리는 더티 데이터의 위의 종류와 결합 된 BI 데이터 요구 사항을 확인합니다.

구조적 1 : 데이터를 구성해야합니다. 이 될 수있다 말도 데이터는 마이크로 블로그와 같은 텍스트의 큰 조각을 경우, 그것은 BI와 정량 분석을 할 수는 없지만, 종종 여론 분석 말했다과 같은 단어와 의미 론적 분석 기술을한다. BI 의미 분석 양적 백 % 차단으로 계산 분석,하지만 인간의 언어의 가능성이 끊임없이 변화하는 사람들과는 달리 자신이 더 불가능 시스템의 완전한 이해를 보장하기 위해 자리에 있지 만 가능한 정확도를 향상시킬 수 있습니다.

 

규범 2 : 충분히 사양 데이터. 그래서 막연한, 간단하게, 그것은 모든 더러운 세탁에 더티 데이터의 위 유형의 문제를 해결하는 것입니다 "깨끗한 데이터입니다."

 

(3)이 연관 될 수 있습니다 : 당신은 두 가지 차원을 원하는 경우 / 메트릭은 상관 관계 분석을 수행 / 메트릭 테이블 또는 동일하거나 관련 분야에 연결할 수 있어야합니다이 두 차원은 두 테이블을 가질 수 있습니다.

데이터 거버넌스의 세 번째 원칙

더러운 데이터 처리 방법의 앞에 말하기,하지만 사람들은이 방법으로 처리하는 경우에만 임시 변통의 조치이며, 장기 작업이 필요하면이 고통을 할 시간과 인력이 많이 걸립니다. 기본 규범은 여전히 ​​작업 데이터 관리를 할 필요가에서 더티 데이터의 문제를 개선합니다.

 

간단하게 데이터 거버넌스는 입력, 출력 사양을 제약 조건하도록되어했습니다.

한 제약 항목 : 사용자가 작업 제한을 할, 재생 너무 많은 공간을 제공하지 않습니다 있도록, 사용자 입력 값이됩니다 몰랐어. 사용자는, 시스템이 "필요"로 설정해야합니다 채우고, 항목의 제출시의 시스템이 아니라, 잘못된 형식을 확인하려면, 값이 정상 범위에없는, 고정 옵션의 값이 선거의 목록을 사용자에게 수 있도록해야합니다, 수동으로 입력하지 직접적인 오류 상황을 사용자가 다시 입력 할 수 있도록해야 가능한 분무 필드만큼 같은 분할 후 피, 국가, 지방, 도시, 지역, 주소 및 기타 세부 사항에서 여러 필드로 분할하도록 설계 위 밝혔다 주소로 설계 입력 양식; 저장된 데이터 입력 데이터 테이블은 통일이 아니라 데이터 중복 문제가 발생, 같은 데이터 테이블의 큰 숫자를 생산하기 위해 시도 할 수 있습니다.

 

2 사양 출력 : 보스는 "속도 반환의"인덱스로, 다른 사람들이보고를하고 볼 수는 각 보고서의 값이 동일하지 않습니다, 상사의 마음은 붕괴를해야한다, 나는 Mashui 만 전체 저주를 모른다. 일반적으로 통계 불일치에 의해 야기되는 계산 에러가 배제. 통합 의미에 그래서, 의미 론적 사전은 기업 수준 (하지 데이터 사전 데이터베이스)를 확인합니다. 포스터에 인덱스 이름은 모든 보고서는 의미 사전, 의미 사전 및 통계적 의미의 명확한 정의에 제출해야합니다. 다른 통계 지표 다른 이름 작성자해야합니다. 단어가 의미 사전에 발견 된 경우, 당신은 사전 의미에 새로운 단어를 등록 신청 절차를 취해야합니다.

넷째, 데이터 거버넌스 착륙

ETL 툴은 의미 론적 데이터가 시스템을 사용하지 않아도 더러운 사전 처리가 필요합니다. 사실, 이러한 시스템이 좋은 결과를 얻을 수 있습니다 엑셀 플러스 시스템이 너무 복잡 드문 국내 구현 성공 사례가 있기 때문이다.

또한 말할 간단한 홍보 전략을 방문하지만, 정보, 보스, 다음 우선권 후, 부서 파일럿을 유치 말할 확장 완료 구현해야했다. 어느 부서 부서가 가장 구덩이의 동등한를 차지 인덱스의 이름을 자신의 습관에 맞는 단어를 누를 수있을 것입니다 1 층. 기존의 표준, 이름은 같지만 다른 의미의 지표를 준수해야하는 부서의 뒷면은 다른 단어의 이름을 찾을 필요가있다. 아빠 Moren 그렇게 활성화되지합니다.

위의 데이터 관리 방법론의 세련된 버전입니다. 우리 모두는이 더러운 일이라고 알고 있지만, 나는 또한 나중에 손을 더 쓴 것을 생각 나게 좋아한다. 새로운 비즈니스 시스템 설계를 수행 한 후 경험을 바탕으로, 우리는 완전히 데이터 거버넌스의 사양을 고려할 수 있습니다.

추천

출처www.cnblogs.com/zwt20120701/p/11408834.html