빠른 개요
TPC-H
TPC-H 벤치마크는 복잡한 쿼리와 데이터 유지 관리에 초점을 맞춘 의사 결정 지원 시스템을 평가하기 위한 표준입니다. 이 분석에서는 22개의 쿼리에 걸쳐 100GB의 데이터와 약 6억 행을 포함하는 TPC-H SF100(SF1 = 600만 행) 데이터세트를 사용하여 Databend Cloud와 Snowflake를 비교했습니다.
부인 성명
TPC Benchmark™ 및 TPC-H™는 TPC (Transaction Process Performance Council )의 상표입니다. 우리의 벤치마크는 TPC-H에서 영감을 얻었지만 공식 TPC-H 결과와 직접적으로 비교할 수는 없습니다.
눈송이와 Databend Cloud
- Snowflake : Snowflake는 분리된 스토리지 및 컴퓨팅, 주문형 확장 가능한 컴퓨팅, 데이터 공유 및 복제 기능과 같은 고급 기능으로 유명합니다.
- Databend Cloud : Databend Cloud는 Snowflake와 유사한 기능을 제공하며 스토리지를 컴퓨팅과 분리하고 필요에 따라 확장 가능한 컴퓨팅 성능을 제공하는 클라우드 기반 데이터 웨어하우스입니다. 이는 오픈 소스 Databend 프로젝트 에서 개발되었으며 특히 대규모 분석에 적합한 Snowflake의 현대적이고 비용 효율적인 대안으로 자리잡고 있습니다.
성능 및 비용 비교
- 데이터 로딩 측면에서 Databend의 비용은 Snowflake보다 약 67% 저렴합니다.
- 쿼리 실행 측면에서 Databend는 Snowflake보다 비용 효율성이 약 60% 더 높습니다.
알아채다
벤치마크에서는 튜닝이 수행되지 않았습니다. 결과는 Snowflake 및 Databend Cloud의 기본 설정을 기반으로 합니다. 우리의 말만 받아들이지 말고 직접 실행하여 결과를 확인해 보시기 바랍니다.
데이터 로딩 벤치마크
테이블 이름 | 눈송이(695s, 가격 $0.77) | Databend Cloud(446s, 비용 $0.25) | 행 수 |
---|---|---|---|
고객 | 18.137 | 13.436 | 15,000,000 |
항목 | 477.740 | 305.812 | 600,037,902 |
국가 | 1,347 | 0.708 | 25 |
명령 | 103.088 | 64.323 | 150,000,000 |
부분 | 19.908 | 12.192 | 20,000,000 |
파티 지원 | 67.410 | 45.346 | 80,000,000 |
지역 | 0.743 | 0.725 | 5 |
공급자 | 3.000 | 3.687 | 10,000,000 |
총 시간 | 695s | 446초 | |
총 비용 | $0.77 | $0.25 | |
저장 크기 | 20.8GB | 24.5GB |
쿼리 벤치마크: 콜드 스타트
문의 | 눈송이(총 207개, 비용 $0.23) | Databend Cloud(총 166개, 비용 $0.09) |
---|---|---|
TPC-H 1 | 11.703 | 8.036 |
TPC-H 2 | 4.524 | 3.786 |
TPC-H 3 | 8.908 | 6.040 |
TPC-H 4 | 8.108 | 4.462 |
TPC-H 5 | 9.202 | 7.014 |
TPC-H 6 | 1.237 | 3.234 |
TPC-H 7 | 9.082 | 7.345 |
TPC-H 8 | 10.886 | 8.976 |
TPC-H 9 | 18.152 | 13.340 |
TPC-H 10 | 13.525 | 12.891 |
TPC-H 11 | 2.582 | 2.183 |
TPC-H 12 | 10.099 | 8.839 |
TPC-H 13 | 13.458 | 7.206 |
TPC-H 14 | 8.001 | 4.612 |
TPC-H 15 | 8.737 | 4.621 |
TPC-H 16 | 4.864 | 1.645 |
TPC-H 17 | 5.363 | 14.315 |
TPC-H 18 | 19.971 | 12.058 |
TPC-H 19 | 9.893 | 12.579 |
TPC-H 20 | 8.538 | 8.836 |
TPC-H 21 | 16.439 | 12.270 |
TPC-H 22 | 3.744 | 1,926 |
총 시간 | 207s | 166초 |
총 비용 | $0.23 | $0.09 |
쿼리 벤치마크: 웜 스타트
문의 | 눈송이(총 138개, 비용 $0.15) | Databend Cloud(총 124개, 비용 $0.07) |
---|---|---|
TPC-H 1 | 8.934 | 7,568 |
TPC-H 2 | 3.018 | 3.125 |
TPC-H 3 | 6.089 | 5.234 |
TPC-H 4 | 4.914 | 3.392 |
TPC-H 5 | 5,800 | 4.857 |
TPC-H 6 | 0.891 | 2.142 |
TPC-H 7 | 5.381 | 4.389 |
TPC-H 8 | 5.724 | 5.887 |
TPC-H 9 | 10.283 | 9.621 |
TPC-H 10 | 10.368 | 8.524 |
TPC-H 11 | 1.165 | 1.364 |
TPC-H 12 | 7.052 | 5.352 |
TPC-H 13 | 12.829 | 6.180 |
TPC-H 14 | 3.288 | 2.725 |
TPC-H 15 | 3.475 | 2.748 |
TPC-H 16 | 4.094 | 1.124 |
TPC-H 17 | 4.203 | 13.757 |
TPC-H 18 | 18.583 | 11.630 |
TPC-H 19 | 3.888 | 7.881 |
TPC-H 20 | 6.379 | 5,797 |
TPC-H 21 | 10.287 | 9.806 |
TPC-H 22 | 1,573 | 1.122 |
총 시간 | 138초 | 124초 |
총 비용 | $0.15 | $0.07 |
벤치마크 재현
아래 단계에 따라 벤치마크를 재현할 수 있습니다.
벤치마크 환경
Snowflake와 Databend Cloud는 모두 비슷한 조건에서 테스트되었습니다.
매개변수 | 눈송이 | 데이터벤드 클라우드 |
---|---|---|
클러스터 크기 계산 | 작은 | 작은 |
vCPU | 16 | 16 |
가격 | $4/시간 | $2/시간 |
AWS 지역 | 미국-동부-2 | 미국-동부-2 |
저장 | AWS S3 | AWS S3 |
- Amazon Redshift 에서 가져온 TPC-H SF100 데이터 세트는 특별한 조정 없이 Databend Cloud 및 Snowflake에 로드되었습니다.
벤치마킹 방법
쿼리 실행의 핫 라운드와 콜드 라운드를 실행했습니다.
- Cold run : 쿼리를 실행하기 전에 데이터 웨어하우스를 일시 중지했다가 다시 시작합니다.
- Hot run : 데이터 웨어하우스가 일시 중단되지 않고 로컬 디스크 캐시를 사용합니다.
전제 조건
- Snowflake 계정이 있습니다
- Databend Cloud 계정을 만듭니다 .
데이터 로딩
-
눈송이 데이터 로딩 :
- Snowflake 계정 에 로그인하세요 .
- TPC-H 스키마에 해당하는 테이블을 만듭니다. SQL 스크립트 .
- 명령을 사용하여
COPY INTO
AWS S3에서 데이터를 로드합니다. SQL 스크립트 .
-
Databend Cloud 데이터 로딩 :
- Databend Cloud 계정 에 로그인하세요 .
- TPC-H 스키마와 일치하는 필요한 테이블을 생성합니다. SQL 스크립트 .
- Snowflake와 같은 접근 방식을 사용하여 AWS S3에서 데이터를 로드합니다. SQL 스크립트 .
TPC-H 쿼리
-
눈송이 쿼리 :
- Snowflake 계정 에 로그인하세요 .
- TPC-H 쿼리를 실행합니다. SQL 스크립트 .
-
Databend Cloud 查询:
- 登录您的 Databend Cloud 账户.
- 运行 TPC-H 查询。SQL 脚本.
{{o.name}}
{{m.name}}