HashData 기반 Lake Storage 통합 솔루션 탐색 및 실습

2023년 4월 7일, 중국 DBA 연합(ACDU)과 Motianlun Community가 공동 주최하는 제12회 "Data Technology Carnival"(DTC 2023)이 Crowne Plaza Beijing New Yunnan에서 성대하게 열렸습니다. HashData의 수석 솔루션 설계자인 Li Jun은 4월 8일 특별 세션 6 - " Fusion Application: Hucang Technology Innovation "에서 "호수 및 창고를 위한 HashData 기반 통합 솔루션의 탐색 및 실행" 에 대한 특별 연설을 했습니다 .

이 글은 실제 연설 녹음을 바탕으로 작성되었으며, 연설문 전문은 다음과 같습니다(전문을 읽는 데 20분 이상 소요됨).

1. 호수와 창고 통합의 진화

데이터 웨어하우스의 개념은 Bill Inmon이 1991년에 출판한 "Building the Data Warehouse"라는 책을 공식적으로 발표한 이후 널리 받아들여졌습니다. 30년의 개발 끝에 금융, 통신, 항공 등 다양한 산업 분야에서 널리 사용되고 있습니다.

데이터 웨어하우스는 BI 및 보고 시스템에 쉽게 접근할 수 있고 강력한 데이터 관리 및 제어 기능이 있다는 장점이 있지만, 빅데이터의 등장으로 비정형 데이터를 지원하지 못하고 독점 시스템의 고비용, 독점 데이터 형식, 낮은 유연성 단점.

데이터 레이크의 개념은 2010년경 빅 데이터의 등장으로 등장했습니다. 저장 비용이 저렴하고 비정형 데이터를 지원합니다. 데이터 레이크는 한때 데이터 웨어하우스를 대체하는 것으로 생각되었지만 데이터 레이크가 실용화되면서 BI 시스템에 대한 지원 부족, 쿼리 성능 저하, 비실시간 데이터 상호 작용 및 낮은 안정성과 같은 몇 가지 단점을 점차 발견했습니다.

데이터 레이크와 데이터 웨어하우스 사이에 학계와 산업계에서 치열한 논쟁이 있었고 마침내 기본적으로 합의에 도달했습니다: 데이터 웨어하우스와 데이터 레이크는 사과와 오렌지와 같으며 완전히 다른 것이며 서로를 대체하지 않을 것입니다.

데이터 웨어하우스와 데이터 레이크는 서로를 대체하지 않고 공존하며 함께 기업의 데이터 플랫폼을 형성합니다. Gartner가 제안한 논리적 데이터 웨어하우스 개념은 데이터 웨어하우스와 데이터 레이크의 두 부분으로 구성되며 이는 대부분 기업의 현재 상태이기도 합니다.

그러나 혁신가들은 현상 유지에 만족하지 않고 2020년경 Databrick은 Lakehouse 통합 또는 중국의 Lakehouse로 번역된 Lakehouse 개념을 제안하는 데 앞장섰습니다.

Lakehouse가 상반기 Data Lake, 하반기 Data Warehouse가 소스라고 보는 것은 어렵지 않습니다. 그 의미는 Lakehouse가 데이터 레이크와 데이터 웨어하우스의 장점을 흡수하여 새로운 플랫폼을 만든다는 것입니다.

Lakehouse는 데이터 형식, 데이터 유형, 데이터 액세스, 안정성, 거버넌스 및 보안, 성능, 확장성 및 사용자 시나리오 지원에 대한 새로운 요구 사항을 제시합니다 .

위의 새로운 요구 사항을 충족하려면 Lakehouse에 다음과 같은 핵심 기능이 있어야 합니다.

  • 예금과 계산의 분리

데이터 레이크가 개선해야 하는 주요 기능:

  • 사무

  • BI 지원

  • 성능

  • 데이터 거버넌스 및 보안

데이터 웨어하우스가 개선해야 하는 주요 기능:

  • 여러 데이터 유형

  • 기계 학습

  • 비용

2. 외국 호수 창고 기술 개발 소개

외국 호수 창고 기술에 관해서 가장 많이 논의되는 세 가지 오픈 소스 솔루션은 Databrick, Hudi 및 Iceberg입니다. Databrick의 홈 솔루션은 DeltaLake입니다.DeltaLake의 제품 교육 및 평가판에 참여하는 영광을 얻었고 트랜잭션, BI 지원, 성능 등에 대한 핵심 기능을 가지고 있었고 경험은 매우 좋았습니다.

 Apache Hudi는 DeltaLake 경쟁 제품입니다.

 Apache Iceberg는 또 다른 DeltaLake 경쟁 제품입니다. DeltaLake가 상용 소스에서 오픈 소스로 변경하도록 강요한 오픈 소스 Hudi 및 Iceberg의 급속한 발전 때문입니다.

Iceberg와 관련하여 우리는 테이블 형식(데이터 테이블 형식)이라는 개념에 집중해야 합니다. 테이블 형식은 컴퓨팅 엔진이 직접 처리하는 대신 기본 스토리지 형식(ORC, Parquet 등)을 처리하는 데 도움이 되는 추상화 계층입니다. 이전과 같이 기본 저장소를 운영합니다. 이 개념은 매우 중요하며 나중에 기술 공유에서 사용될 것입니다.

 위에서 언급한 세 가지 오픈 소스 솔루션인 Apahce DeltaLake/Apache Hudi/Apache Icerberg는 모두 데이터 레이크를 데이터 웨어하우스에 통합하기 위한 기술 경로입니다.데이터 웨어하우스 솔루션으로서 HashData는 데이터 웨어하우스 통합에 대한 새로운 관점을 보여줄 것입니다. 데이터 레이크에.

3. HashData 혁신 및 탐색 실습

HashData의 원래 제품 프로토타입은 일반적인 MPP 아키텍처인 Greenplum을 기반으로 하지만 저장 및 계산이 결합되어 있습니다. 즉, 데이터 저장 및 데이터 계산이 모두 하나의 데이터 노드에 있습니다.

 클라우드 네이티브를 위한 반복 설계 후 HashData v3의 아키텍처는 다음과 같습니다. 서비스, ​​컴퓨팅, 스토리지를 분리한 아키텍처로 기존 MPP의 배럴 효과 문제를 효과적으로 해결하여 HashData 데이터 웨어하우스가 초대형 클러스터를 지원할 수 있도록 합니다.

HashData는 C은행의 초대형 데이터 웨어하우스 서비스에 성공적으로 적용되었습니다. 2022년 말 현재 20,000개 이상의 데이터 노드가 프로덕션에서 실행되고 있으며 데이터 스토리지는 약 13PB입니다.

데이터 웨어하우스를 데이터 레이크에 통합하는 또 다른 과제는 저비용 솔루션을 제공하는 방법입니다. Huawei Cloud 공식 웹사이트의 데이터에 따르면 객체 스토리지 비용은 디스크 및 SSD 가격의 수십 분의 1에 불과합니다. 모든 데이터가 오브젝트 스토리지에 저장되면 전체 솔루션이 크게 줄어듭니다. 불행하게도 개체 스토리지는 성능을 희생하는 IO와 잘 작동하지 않습니다. 가격과 성능 사이에서 우리는 다단계 스토리지 기술을 채택합니다. 영구 데이터는 객체 스토리지에 저장되고 핫스팟 캐싱 기술은 컴퓨팅 레이어에 추가되어 이 문제를 잘 해결합니다.

 오브젝트 스토리지를 사용하는 HashData 데이터 레이크 솔루션의 전체 비용은 원래의 1/10로 줄일 ​​수 있지만 핫스팟 캐시 기술을 통해 성능이 보장됩니다. 관련 Benchmark 데이터 보고서는 성능이 원래 수준에 매우 가깝다는 것을 보여줍니다.

 IoT 데이터와 같은 기계 생성 데이터의 경우 HashData는 스트리밍 컴퓨팅 엔진의 준실시간 쓰기를 지원하여 데이터 분석의 효율성을 향상시킵니다.

 Energy Group A의 경우 통합 데이터 레이크에 이미 1.7PB의 유전, 지질학, 탐사, 생산 등의 데이터가 저장되어 있으며, 물론 위에서 언급한 기계 및 장비에서 생성된 스트리밍 데이터도 있습니다.

반구조화된 데이터의 경우 기본적으로 데이터베이스는 이제 좋은 지원을 제공하며 반복되지 않습니다. 구조화되지 않은 데이터에 중점을 둡니다.데이터베이스는 실제로 이진 형식으로 사진을 저장할 수 있지만 사용하기 번거롭습니다.좋은 솔루션이 아닙니다.

구조화되지 않은 분석의 경우 현재 제공되는 솔루션은 두 부분으로 나뉩니다.

  1. 원시 파일은 오브젝트 스토리지에 저장됩니다.

  2. 파싱된 구조화된 데이터는 쉽게 검색하고 비교할 수 있도록 데이터베이스에 저장됩니다.

    다음은 고속도로에서 총검 데이터 분석 사례에 대한 추가 설명입니다. 카메라가 번호판 정보를 캡처한 후 원본 사진은 원본 증거로 개체 저장소에 저장됩니다. 분석된 번호판 번호, 색상 및 시간은 교통 통계 모니터링, 통행료 회피 감사 및 기타 애플리케이션을 지원하기 위해 HashData 데이터베이스에 저장됩니다.

  3. 기계 학습의 경우 HashData는 라이브러리에서 기계 학습을 수행하기 위해 SQL에서 함수 호출을 지원하며 이제 더 많은 개방형 Python 기본 지원을 지원합니다. 요약하면 HashData Lake Warehouse 통합 솔루션은 서비스, 컴퓨팅 및 스토리지를 분리하는 기술 아키텍처를 기반으로 하며 데이터 웨어하우스, 데이터 레이크 및 데이터 요소 시장을 포함한 여러 시나리오를 위한 솔루션입니다.

 

4. 호수와 창고의 통합에 대한 생각과 전망

레이크 웨어하우스 융합 후 통합 스토리지 + 멀티 컴퓨팅 엔진 패턴이 형성됩니다. 데이터 형식의 융합을 위해 HashData는 나중에 TableFormat으로 Iceberg를 도입할 예정입니다.

오늘 공유된 더 많은 기술 플랫폼 통합, 모델, 데이터 거버넌스 및 데이터 자산 관리에 대한 추가 주제는 위의 두 잡지를 참조하십시오.

추천

출처blog.csdn.net/m0_54979897/article/details/130153833