"작지만 아름다운"데이터 거버넌스 관행

저자에 대해

에단

전 비즈니스 데이터 분석가, 현재 TMD 데이터 제품 관리자.

데이터 파트너와 함께 재미있는 일을 할 수 있기를 기대합니다 ~



1 적용    배경 및 적용 범위


서비스 경험에서 시작하여 데이터 거버넌스 수행 : 비즈니스가 지속적으로 발전하기 때문에 데이터가 비즈니스에 도움이되므로 데이터 구성이 특정 단계에 도달하면 다양한 문제가 발생합니다. 기본 데이터 모델이 너무 중복되고 링크가 너무 복잡하고 다른 문제는 비즈니스 측면에서 데이터를 사용할 때 발생하는 문제도 있습니다.


모든 사람이 데이터 거버넌스에 대해 이야기 할 때 종종 문제를 루트부터 해결하고 일련의 인덱스 사양, 모델링 사양을 지정하고 메타 데이터 관리 도구를 사용하여 필수 구현을 완료하려고합니다. 개발 측은 많은 조치를 취했지만, 비즈니스 측은 종종 무관 심해져 개발 학생이 자기 만족하는 상황을 형성합니다.


실습 과정에서 저자는 사용자 경험의 관점에서 데이터 거버넌스 구현을 장려하여 비즈니스 학생들이 데이터 거버넌스가 가져온 데이터 서비스의 업그레이드를 직접 경험할 수 있습니다.


이 기사의 내용은 비즈니스 라인 서비스 (데이터 BP)에서 축적 된 경험에 가깝기 때문에 특정 비즈니스 라인에 서비스를 제공하는 데이터 개발 / 제품에 더 의미가 있습니다.


2    방법론


01 현황   분석


2404dd373080aba785d5586ded672bec.jpeg

프로젝트 배경 : 저자가 서비스하는 비즈니스 시나리오의 90 %는 셀프 서비스 계산을 기반으로하지만 현재 인덱스 차원 데이터는 사용하기 쉽지 않아 비즈니스 사용 비용이 높고 횟수에 오류가 있습니다. 지표의 혼란 때문에.


핵심에 대한 두 가지 주요 이유가 있습니다. 한편으로는 건설 과정에서 핵심 지표 시스템이 명확하지 않아 많은 단계적 지표 차원이 확장되었습니다. 많은 "플립 플롭"프로젝트. 건설, 지표 차원은 비즈니스가 오프라인 상태가 된 후 분류되지 않았습니다.


프로젝트 목표 : 데이터 세트 사용의 어려움을 줄이기 위해 비즈니스 관련 데이터 세트 (비즈니스 라인으로 나눈 지표 차원 세트를 기반으로)에 대한 지표 차원을 관리하고, 적용 가능한 데이터 세트 거버넌스 sop 프로토 타입 세트를 촉진합니다. 비즈니스 서비스 시스템.


2.2   프로젝트 프로세스 방법

2.2.1 문제의 체계화

비즈니스의 실제 사용에 따르면 현재 지표 차원을 분류하는 데 4 가지 유형의 문제가 있습니다.

1) 아레나 명명을위한 많은 지표 (중간체의 볼륨 / 콘텐츠 볼륨 / 중간 스테이션의 콘텐츠 볼륨-중복 제거), 표면에서 특별한 차이를 볼 수 없습니다. 새 모델과 이전 모델에 대한 이유가 있으며 다른 시나리오에서 해당 메타 데이터 시스템의 번호에 액세스하는 다른 방법에 대한 이유도 있습니다.


2) 복잡한 지표가 중복되어있다. 예를 들어 "중국과 대만 출시 상태의 새로운 콘텐츠"와 같은 많은 지표가 있습니다. 차원을 통해 핵심 지표를 결합하는 솔루션을 고려할 수 있습니다 ( "새로운 콘텐츠에 한함"). "중국 및 대만 릴리스"차원 콘텐츠 콘텐츠 아래의 일 "차원)


3) 지표 이름 지정이 표준화되지 않았습니다 (예 : 정보 흐름 _ 침입 적 노출 _ 일 유지율, 어떤 행동 유지에 어떤 행동이 있는지 모르겠습니다).


4) 인디케이터 코멘트는 그 의미를 설명 할 수 없습니다 (중간 국 콘텐츠 량 : "중간 국 콘텐츠 량 (상태는 제한되지 않음)"). 사실 하단 레이어는 릴리스 상태로 제한됩니다. ).


2.2.2 계획 수립을위한 다자간 협력

1) 비즈니스 분석 학생들은 비즈니스에 대한 이해를 바탕으로 핵심 지표 차원 시스템을 요약합니다.


2) 데이터 제품은 위의 네 가지 유형의 문제가있는 지표 차원을 강조 표시합니다.


3) 비즈니스 측은 지표 차원의 사용 열성 및 비즈니스 요구에 따라 지표가 오프라인 상태 일 수 있는지 확인합니다.


4) 데이터 개발은 차원의 조합을 통해 계산을 단순화 할 수있는 지표에 대한 제안을 제공합니다 (예 : "당일 콘텐츠 추가 여부"차원 및 "대만에서 출시 된 콘텐츠 "지표 를 통해 새로운 콘텐츠 유입 경로 만들기, 원래의 새 표시기는 잘릴 수 있습니다.)


전체 프로세스는 데이터 제품 관리자가 시작하고 주도하며 다른 역할의 학생들은 자신의 전문 지식을 바탕으로 제안을합니다.


2.2.3 얕은 것에서 깊은 곳으로

지표 차원의 표면 수준 거버넌스에 우선 순위를 부여하고, 비즈니스 측면에서 인식 가능한 데이터 경험을 개선하고, 다양한 상황에 대응하여 애플리케이션 계층에서 세 가지 유형의 작업을 수행합니다.

1) 비표준 지표 이름 변경 (이해하기 어려운 이름과 비표준 지표 치수의 경우 회사 표준에 따라 이름을 바꿉니다)


2) 쓸모없는 지표 / 데이터 모델이 오프라인 상태 (일부 지표 차원에서 더 이상 사용되지 않는 모델은 오프라인 상태이며 오프라인으로 확인 된 모든 지표에 해당하는 모델은 오프라인 상태 임)


3) 동의어 이름과 다른 이름을 가진 차원 / 차원 표시기의 통합 (예 : 저자의 팀, 동의어 이름과 다른 이름을 가진 차원의 이유는 주로 초기 단계의 불규칙한 데이터 구성 때문입니다. 도시 이름 차원, 다른 팩트 테이블 모델이 연결됨 다른 도시 차원 테이블 및 다른 차원 테이블은이 필드에 대해 다른 이름을 가지고 있으므로 각 팩트 테이블 모델에서 사용되는 차원 테이블을 통합해야합니다.


지표 차원의 표면 관리가 완료된 후 데이터웨어 하우스는 데이터 링크를 더욱 최적화하고 심층 데이터 관리를 수행하여 기본 데이터 구성 및 데이터 생성의 효율성을 향상시킵니다.


2.3   프로젝트 효과

프로젝트가 종료 된 후 비즈니스 지표는 200+에서 약 80으로 줄어들었고 차원은 150+에서 약 70으로 축소되었습니다. 거버넌스 결과가 게시 된 후 비즈니스 측 피드백 : "실제로 효율성이 향상되었습니다! 더 이상 잘못된 지표를 클릭하는 것에 대해 걱정할 필요가 없습니다. 동시에 다른 협업 비즈니스 당사자가 데이터 세트를 사용할 때 통신 비용도 절감됩니다. . "


3   요약


프로젝트 실행에서 요약 할 가치가있는 생각 :

 거버넌스 구현은 "고객 중심" 입니다. 거버넌스는 테이블에서 내부로, 첫 번째는 비즈니스에서 가장 인지도가 높은 지표 차원 계층에서 운영을 간소화하고, 두 번째는 비즈니스 사용 과정에서 속도 경험을 개선하고 데이터웨어 하우스 링크를 근본적으로 관리하기 위해 하단에서 데이터 개발 비용의 장기적인 절감 효과를 달성합니다.


 협업 과정에서 우리는 "협력과 상생"의 원칙을 따르고, ba 및 비즈니스 당사자들과 협력하여 최적화 솔루션에 대해 생각합니다. 이는 여러 관점에서 최종 구현 결과의 신뢰성을 보장 할뿐만 아니라 데이터 거버넌스의 매우 낮은 수준의 작업을 인식 할 수 있습니다. 결국 거버넌스 프로젝트는 인상적인 결과를 얻을 수있었습니다.




데이터 담당자의 사적인 장소는 데이터 담당자의 성장을 돕고 데이터에 관심이있는 파트너가 학습 방향을 명확히하고 기술을 정확하게 향상시킬 수 있도록 도와주는 대가족입니다. 저를 따라 와서 데이터의 마법 같은 신비를 탐험 해보세요


1. "데이터 제품"으로 돌아가서 <빅 팩토리 데이터 제품 인터뷰 질문> 받기

2. "데이터 센터"로 돌아가 <다창 데이터 센터 정보>를 가져옵니다.

3. "비즈니스 분석"으로 돌아가서 <다창 비즈니스 분석 인터뷰 질문>을 받으십시오.

4. "친구 사귀기"로 돌아가서 교환 그룹에 가입하고 더 많은 데이터 파트너에 대해 알아 봅니다.


추천

출처blog.51cto.com/13526224/2665353