StreamingWarehouse에 대한 몇 가지 생각과 향후 동향

5781db0dd7bd0ce57bf6a93af7544c36.png300만 단어! 전체 네트워크에서 가장 완벽한 빅 데이터 학습 인터뷰 커뮤니티가 여러분을 기다리고 있습니다!

공책.

Hudi, Iceberg 및 Paimon의 프레임워크를 예로 들면 효율적인 데이터 흐름/일괄 읽기 및 쓰기, 데이터 역추적 및 데이터 업데이트를 지원합니다. 여기에는 주로 다음과 같은 측면에서 기존의 실시간 및 오프라인 데이터 웨어하우스에는 없는 몇 가지 기능이 있습니다.

  1. 이러한 스토리지 엔진은 자연스럽게 통합된 배치 흐름 통합 스토리지입니다. 테이블 데이터를 완성하기 위한 일괄 액세스를 지원할 뿐만 아니라 테이블 데이터의 전체 처리를 먼저 지원한 다음 변경 로그의 증분 스트림 처리를 지원합니다.

  2. UPSERT 스트림을 지원하는 것은 매우 중요하며 파일 구성 형식도 더 효율적입니다(LSM).

  3. TimeTravel을 지원합니다. 이론적으로 배치 또는 스트림 처리는 어느 시점에서나 수행될 수 있습니다.

  4. 다른 오프라인 데이터 웨어하우스 작업도 있습니다.

Lake 프레임워크를 기반으로 새로운 데이터 웨어하우스 시스템 Streaming Warehouse를 구축하면 모든 개발이 테이블 및 순수 SQL 작업을 중심으로 이루어집니다.

이러한 아키텍처는 핵심 문제를 해결합니다.

  1. 성능이 충분하면 실시간 링크와 비슷한 지연을 달성할 수 있습니다.

  2. 배치와 흐름의 자연스러운 통합, 일관된 수준, 컴퓨팅 의미의 자연스러운 정렬, 데이터 일관성 보장

  3. 중간 결과를 확인할 수 있는데 이는 현재 널리 사용되는 실시간 데이터 웨어하우스와 비교할 때 큰 장점입니다.

  4. 기록 데이터를 복원하는 것은 매우 편리합니다.

  5. 낮은 개발 및 저장 비용

이는 많은 기사에서도 언급됩니다. 일괄 흐름 통합 컴퓨팅 및 저장을 실현하고 스트림, 일괄 처리 및 OLAP 처리를 동시에 지원하며 "테이블" 형식의 데이터 처리를 실현합니다.

현재 대체할 수 있는 몇 가지 시나리오: 예를 들어 종단 간 지연은 분 수준에서 허용 가능하고, 데이터 로직은 복잡하고 오프라인 상태를 원하며, 실시간 일관성이 강력하고 기존의 데이터베이스를 핵심으로 하는 구체화된 뷰 및 저장 프로시저 생성과 같은 온라인 서비스 시나리오

그러나 위의 내용은 미래에 대한 이상적인 비전이며 현재 단계에서 많은 문제가 해결되지 않았습니다. 예를 들어 종단 간 지연이 순수한 실시간 시나리오의 지연보다 훨씬 큽니다. CheckPoint의 시간 간격 등

그러나 이러한 프레임워크의 지속적인 반복과 개발을 통해 미래는 달라질 수 있습니다.

이 글이 도움이 되셨다면 "좋아요",  "  좋아요"  3번 잊지 마세요  !

961b57e38463f75e3152fee67a17c887.png

56575fe54d4f8d873b6fcb63ebedf953.jpeg

2022년 전 네트워크 출시 예정 | 빅데이터 전문가 수준의 기술 모델 및 학습 가이드(Shengtian Banzi)

인터넷 최악의 시대가 실제로 도래했을 수도 있다

저는 Bilibili 대학에서 빅데이터를 전공하고 있습니다.

Flink를 배울 때 우리는 무엇을 배우나요?

193개의 기사가 Flink를 격렬하게 이겼습니다. 이 컬렉션에 주목해야 합니다.

Flink 제작 환경 TOP 문제 및 최적화, Alibaba Tibetan Bible Pavilion YYDS

CDC를 깜박이세요. 예수님이 그를 지켜주실 수 없을 거라고 확신해요! | Flink CDC 온라인 문제 목록

Spark를 배울 때 우리는 무엇을 배우나요?

Spark 모듈 중에서는 SparkSQL이 가장 강력하다고 말하고 싶습니다!

하드갱하이브 | 4만 단어 기본 튜닝 인터뷰 요약

데이터 거버넌스 방법론 및 실무에 대한 작은 백과사전

라벨 시스템 하의 사용자 초상화 구성에 대한 작은 가이드

40,000 단어의 긴 텍스트 | ClickHouse 기본 및 실습 및 전체 관점 분석 튜닝

[인터뷰 & 개인적 성장] 2021년 절반 이상, 사회모집과 학교모집 경험

빅데이터를 향한 또 다른 10년이 시작된다 | '하드갱 시리즈' 초판이 막을 내린다

성장/면접/경력 발전에 관해 내가 쓴 기사

Hive를 배울 때 우리는 무엇을 배우나요? "하드 하이브 속편"

추천

출처blog.csdn.net/u013411339/article/details/132419194