TPC-H 벤치마크: Databend Cloud와 Snowflake 비교

빠른 개요

TPC-H

TPC-H 벤치마크는 복잡한 쿼리와 데이터 유지 관리에 초점을 맞춘 의사 결정 지원 시스템을 평가하기 위한 표준입니다. 이 분석에서는 22개의 쿼리에 걸쳐 100GB의 데이터와 약 6억 행을 포함하는 TPC-H SF100(SF1 = 600만 행) 데이터세트를 사용하여 Databend Cloud와 Snowflake를 비교했습니다.

부인 성명

TPC Benchmark™ 및 TPC-H™는 TPC (Transaction Process Performance Council )의 상표입니다. 우리의 벤치마크는 TPC-H에서 영감을 얻었지만 공식 TPC-H 결과와 직접적으로 비교할 수는 없습니다.

눈송이와 Databend Cloud

  • Snowflake : Snowflake는 분리된 스토리지 및 컴퓨팅, 주문형 확장 가능한 컴퓨팅, 데이터 공유 및 복제 기능과 같은 고급 기능으로 유명합니다.
  • Databend Cloud : Databend Cloud는 Snowflake와  유사한 기능을 제공하며 스토리지를 컴퓨팅과 분리하고 필요에 따라 확장 가능한 컴퓨팅 성능을 제공하는 클라우드 기반 데이터 웨어하우스입니다. 이는 오픈 소스  Databend 프로젝트 에서 개발되었으며 특히 대규모 분석에 적합한 Snowflake의 현대적이고 비용 효율적인 대안으로 자리잡고 있습니다.

성능 및 비용 비교

  • 데이터 로딩 측면에서 Databend의 비용은 Snowflake보다 약 67% 저렴합니다.
  • 쿼리 실행 측면에서 Databend는 Snowflake보다 비용 효율성이 약 60% 더 높습니다.

알아채다

벤치마크에서는 튜닝이 수행되지 않았습니다. 결과는 Snowflake 및 Databend Cloud의 기본 설정을 기반으로 합니다. 우리의 말만 받아들이지 말고 직접 실행하여 결과를 확인해 보시기 바랍니다.

데이터 로딩 벤치마크

테이블 이름 눈송이(695s, 가격 $0.77) Databend Cloud(446s, 비용 $0.25) 행 수
고객 18.137 13.436 15,000,000
항목 477.740 305.812 600,037,902
국가 1,347 0.708 25
명령 103.088 64.323 150,000,000
부분 19.908 12.192 20,000,000
파티 지원 67.410 45.346 80,000,000
지역 0.743 0.725 5
공급자 3.000 3.687 10,000,000
총 시간 695s 446초
총 비용 $0.77 $0.25
저장 크기 20.8GB 24.5GB

쿼리 벤치마크: 콜드 스타트

문의 눈송이(총 207개, 비용 $0.23) Databend Cloud(총 166개, 비용 $0.09)
TPC-H 1 11.703 8.036
TPC-H 2 4.524 3.786
TPC-H 3 8.908 6.040
TPC-H 4 8.108 4.462
TPC-H 5 9.202 7.014
TPC-H 6 1.237 3.234
TPC-H 7 9.082 7.345
TPC-H 8 10.886 8.976
TPC-H 9 18.152 13.340
TPC-H 10 13.525 12.891
TPC-H 11 2.582 2.183
TPC-H 12 10.099 8.839
TPC-H 13 13.458 7.206
TPC-H 14 8.001 4.612
TPC-H 15 8.737 4.621
TPC-H 16 4.864 1.645
TPC-H 17 5.363 14.315
TPC-H 18 19.971 12.058
TPC-H 19 9.893 12.579
TPC-H 20 8.538 8.836
TPC-H 21 16.439 12.270
TPC-H 22 3.744 1,926
총 시간 207s 166초
총 비용 $0.23 $0.09

쿼리 벤치마크: 웜 스타트

문의 눈송이(총 138개, 비용 $0.15) Databend Cloud(총 124개, 비용 $0.07)
TPC-H 1 8.934 7,568
TPC-H 2 3.018 3.125
TPC-H 3 6.089 5.234
TPC-H 4 4.914 3.392
TPC-H 5 5,800 4.857
TPC-H 6 0.891 2.142
TPC-H 7 5.381 4.389
TPC-H 8 5.724 5.887
TPC-H 9 10.283 9.621
TPC-H 10 10.368 8.524
TPC-H 11 1.165 1.364
TPC-H 12 7.052 5.352
TPC-H 13 12.829 6.180
TPC-H 14 3.288 2.725
TPC-H 15 3.475 2.748
TPC-H 16 4.094 1.124
TPC-H 17 4.203 13.757
TPC-H 18 18.583 11.630
TPC-H 19 3.888 7.881
TPC-H 20 6.379 5,797
TPC-H 21 10.287 9.806
TPC-H 22 1,573 1.122
총 시간 138초 124초
총 비용 $0.15 $0.07

벤치마크 재현

아래 단계에 따라 벤치마크를 재현할 수 있습니다.

벤치마크 환경

Snowflake와 Databend Cloud는 모두 비슷한 조건에서 테스트되었습니다.

매개변수 눈송이 데이터벤드 클라우드
클러스터 크기 계산 작은 작은
vCPU 16 16
가격 $4/시간 $2/시간
AWS 지역 미국-동부-2 미국-동부-2
저장 AWS S3 AWS S3
  • Amazon Redshift 에서 가져온 TPC-H SF100 데이터 세트는  특별한 조정 없이 Databend Cloud 및 Snowflake에 로드되었습니다.

벤치마킹 방법

쿼리 실행의 핫 라운드와 콜드 라운드를 실행했습니다.

  1. Cold run : 쿼리를 실행하기 전에 데이터 웨어하우스를 일시 중지했다가 다시 시작합니다.
  2. Hot run : 데이터 웨어하우스가 일시 중단되지 않고 로컬 디스크 캐시를 사용합니다.

전제 조건

데이터 로딩

  1. 눈송이 데이터 로딩 :

  2. Databend Cloud 데이터 로딩 :

TPC-H 쿼리

  1. 눈송이 쿼리 :

  2. Databend Cloud 查询

Linus 亲自动手,阻止内核开发者用空格替换制表符 父亲是少数会写代码的领导人、次子是开源科技部主管、幼子是开源核心贡献者 华为:用 1 年时间将 5000 个常用手机应用全面迁移至鸿蒙 Java 是最容易出现第三方漏洞的语言 鸿蒙之父王成录:开源鸿蒙是我国基础软件领域唯一一次架构创新 马化腾周鸿祎握手“泯恩仇” 前微软开发人员:Windows 11 性能“糟糕得可笑” 虽然老乡鸡开源的不是代码,但背后的原因却让人很暖心 Meta Llama 3 正式发布 谷歌宣布进行大规模重组
{{o.name}}
{{m.name}}

추천

출처my.oschina.net/u/5489811/blog/11044358