빅데이터 시대: 라벨링 시스템의 적용

빅데이터 시대: 라벨링 시스템의 적용

【1】필요성

프로젝트는 일반적으로 빅데이터 분석 플랫폼과 사용자 태그/사용자 초상화를 사용하며, 데이터 쿼리 관점에서 전통적인 연관 키 필드 쿼리부터 메타데이터 사용자 정의 쿼리, 태그 쿼리까지 점차 심화됩니다. 태그는 가장 세분화된 것입니다. 사전에 데이터를 분할하고, 복잡한 다중 테이블 연결 및 공동 쿼리 시 논리적 처리가 비즈니스 데이터의 논리적 판단에 영향을 미치지 않아 복잡한 논리적 처리로 인한 성능 영향을 제거합니다.

【2】두 가지 일반적인 라벨 관리 방법

원본 레이블 : 데이터베이스의 경우 데이터베이스의 테이블을 통해(소규모 기업)

제품화 후 레이블 : 터미널 지향: 소기업 영향, 빠른 응답 및 우수한 인터페이스 경험. (대기업)

【3】태그 분류 방법

  1. 소스별
  2. 비즈니스 시나리오별(비즈니스 시나리오 및 복잡성에 따른 계층적)
  3. 데이터 유형별(숫자/단일값/다중값/텍스트)

데이터 라벨 분류:

(1) 재산 라벨

(2) 통계 탭

(3) 알고리즘 라벨

Huawei 데이터 라벨 분류:

  1. 사실 라벨
  2. 규칙 라벨
  3. 모델 라벨

 

【4】라벨 내용 정보

주로 다음을 포함합니다:

【라벨 기본 정보】,

[라벨 데이터 테이블 정보],

[라벨 처리 정보],

[라벨의 품질 정보],

【태그 적용 정보】

[5] 라벨 구성의 전체 구조

라벨 구성 프로젝트에는 라벨 처리, 라벨 로드, 라벨 관리 및 라벨 서비스의 네 가지 링크가 포함됩니다.

레이블 처리: 많은 고객이 레이블 처리를 빅 데이터 플랫폼에 배치해야 하는지 기존 데이터 플랫폼에 배치해야 하는지 묻습니다. 실제로 어디에나 배치할 수 있는데, 기본 데이터가 이미 HDFS에 상륙했다면 빅데이터 플랫폼에서 하는 것이 좋으며 결국 분산 아키텍처의 처리 및 일괄 처리 속도가 장점이 될 것입니다. 또한 알고리즘 마이닝 및 텍스트 마이닝에 적합하며 기존 데이터 웨어하우스 기술은 레이블 지정도 지원할 수 없습니다.

 

라벨 로딩: 라벨 로딩 계층은 라벨이 외부 서비스를 제공하기 위한 물리적 저장 계층입니다. 여기서는 데이터베이스 선택이 특히 중요하며 나중에 특별한 장 분석이 있을 것입니다. 데이터 모델링 측면에서 넓은 테이블은 레이블이 지정된 데이터 모델의 표준입니다. 많은 고객이 와이드 테이블의 필드 수에 제한이 있는지 묻습니다. 넓은 테이블에 필드가 너무 많은 경우 주제별로 테이블을 분할하여 조인할 수 있나요? 모든 레이블 시나리오의 성능 응답 요구 사항은 두 번째 수준에 있으며 모든 데이터베이스 테이블 연결은 쿼리 효율성을 크게 감소시키므로 데이터베이스 선택 시 이러한 요소를 완전히 고려해야 합니다.

 

태그 관리: 태그 관리는 플랫폼 애플리케이션의 관리측을 말하며, 관리측은 내부 사용자를 위한 것이고, 서버는 고객 서비스를 위한 것이다. 관리 엔드에는 데이터 에이전시, 라벨 라이브러리 관리, 라벨 메타데이터 관리, 라벨 승인, 라벨 제거 및 제거, 라벨 적용 효과 평가, 파생 라벨 구성, 고객 그룹 추출, 고객 그룹 통찰력 및 기타 라벨 수명주기 관리 기능이 포함됩니다.

 

태그 서비스: 태그 서비스는 플랫폼 애플리케이션의 서버 측을 말하며, 관리 측과 서버 측을 마이크로 서비스로 나누어야 하며, 서로 다른 채널 호출이 점유하는 리소스를 격리하기 위해 분리하고 별도 배포를 권장하는 것이 목적입니다. 예를 들어 , 내부 심사 고객 그룹 부하가 너무 큽니다. 이때 모바일 뱅킹 태그 API 호출 서비스는 영향을 받을 수 없으며 서비스를 격리해야 합니다. 서버 측 설계는 게이트웨이 수준에서 동시 로드에 대한 압박을 충분히 고려하고, Java 프로세스 측에서 동시 성능의 병목 현상이 나타나지 않도록 분산 배포를 구현해야 합니다.

[6] 라벨 분류/디자인 및 구현 방법

"데이터 센터" 계획 시스템에서 데이터 레이블은 데이터 웨어하우스와 데이터 마트 사이에 있습니다. 데이터 마트를 준비하십시오.

[7] 데이터 라벨 디자인

 설계 단계:

1. 라벨 대상을 결정합니다

2. 대상관계를 통하라

3. 라벨 카테고리 디자인

4. 데이터 라벨 구현(라벨 퓨전 테이블)

두 가지 형태의 라벨 융합 테이블(수직 융합 테이블/수평 융합 테이블)

 

추천

출처blog.csdn.net/weixin_29403917/article/details/127982972