TPC-H-Benchmark: Databend Cloud vs. Snowflake

Schneller Überblick

TPC-H

Der TPC-H-Benchmark ist ein Standard zur Bewertung von Entscheidungsunterstützungssystemen mit Schwerpunkt auf komplexen Abfragen und Datenpflege. In dieser Analyse haben wir Databend Cloud und Snowflake anhand des TPC-H SF100-Datensatzes (SF1 = 6 Millionen Zeilen) verglichen, der 100 GB Daten und etwa 600 Millionen Zeilen enthält und sich über 22 Abfragen erstreckt.

Haftungsausschluss

TPC Benchmark™ und TPC-H™ sind Marken des Transaction Processing Performance Council ( TPC ). Obwohl unsere Benchmarks von TPC-H inspiriert sind, sind sie nicht direkt mit den offiziellen TPC-H-Ergebnissen vergleichbar.

Snowflake und Databend Cloud

  • Snowflake : Snowflake ist bekannt für seine erweiterten Funktionen wie entkoppelte Speicherung und Rechenleistung, skalierbare Rechenleistung bei Bedarf, Datenfreigabe und Klonfunktionen.
  • Databend Cloud : Databend Cloud bietet ähnliche Funktionen wie Snowflake und ist ein Cloud-natives Data Warehouse, das außerdem Speicher und Rechenleistung trennt und je nach Bedarf skalierbare Rechenleistung bereitstellt. Es wurde aus dem Open-Source-  Databend-Projekt entwickelt und positioniert sich als moderne, kostengünstige Alternative zu Snowflake, besonders geeignet für groß angelegte Analysen.

Leistungs- und Kostenvergleich

  • In Bezug auf das Laden von Daten sind die Kosten von Databend etwa 67 % niedriger als die von Snowflake.
  • In Bezug auf die Abfrageausführung ist Databend etwa 60 % kosteneffizienter als Snowflake.

Beachten

Im Benchmark wurde kein Tuning vorgenommen. Die Ergebnisse basieren auf den Standardeinstellungen von Snowflake und Databend Cloud. Denken Sie daran: Verlassen Sie sich nicht nur auf uns – wir empfehlen Ihnen, es selbst durchzuführen und die Ergebnisse zu überprüfen.

Benchmark zum Laden von Daten

Tabellenname Schneeflocke (695 Stück, Kosten 0,77 $) Databend Cloud (446s, Kosten 0,25 $) Anzahl der Zeilen
Kunde 18.137 13.436 15.000.000
Werbebuchung 477.740 305.812 600.037.902
Nation 1.347 0,708 25
Aufträge 103.088 64.323 150.000.000
Teil 19.908 12.192 20.000.000
Parteiunterstützung 67.410 45.346 80.000.000
Region 0,743 0,725 5
Anbieter 3.000 3.687 10.000.000
Gesamtzeit 695s 446s
Gesamtkosten 0,77 $ 0,25 $
Speichergröße 20,8 GB 24,5 GB

Abfrage-Benchmark: Kaltstart

Anfragen Schneeflocke (insgesamt 207 Stück, Kosten 0,23 $) Databend Cloud (insgesamt 166 Sekunden, Kosten 0,09 $)
TPC-H 1 11.703 8.036
TPC-H 2 4.524 3.786
TPC-H 3 8.908 6.040
TPC-H 4 8.108 4.462
TPC-H 5 9.202 7.014
TPC-H 6 1.237 3.234
TPC-H 7 9.082 7.345
TPC-H 8 10.886 8.976
TPC-H 9 18.152 13.340
TPC-H 10 13.525 12.891
TPC-H 11 2.582 2.183
TPC-H 12 10.099 8.839
TPC-H 13 13.458 7.206
TPC-H 14 8.001 4.612
TPC-H 15 8.737 4.621
TPC-H 16 4.864 1.645
TPC-H 17 5.363 14.315
TPC-H 18 19.971 12.058
TPC-H 19 9.893 12.579
TPC-H 20 8.538 8.836
TPC-H 21 16.439 12.270
TPC-H 22 3.744 1.926
Gesamtzeit 207s 166s
Gesamtkosten 0,23 $ 0,09 $

Abfrage-Benchmark: Warmstart

Anfragen Schneeflocke (insgesamt 138 Sekunden, Kosten 0,15 $) Databend Cloud (insgesamt 124 Sekunden, Kosten 0,07 $)
TPC-H 1 8.934 7.568
TPC-H 2 3.018 3.125
TPC-H 3 6.089 5.234
TPC-H 4 4.914 3.392
TPC-H 5 5.800 4.857
TPC-H 6 0,891 2.142
TPC-H 7 5.381 4.389
TPC-H 8 5.724 5.887
TPC-H 9 10.283 9.621
TPC-H 10 10.368 8.524
TPC-H 11 1.165 1.364
TPC-H 12 7.052 5.352
TPC-H 13 12.829 6.180
TPC-H 14 3.288 2.725
TPC-H 15 3.475 2.748
TPC-H 16 4.094 1.124
TPC-H 17 4.203 13.757
TPC-H 18 18.583 11.630
TPC-H 19 3.888 7.881
TPC-H 20 6.379 5.797
TPC-H 21 10.287 9.806
TPC-H 22 1.573 1.122
Gesamtzeit 138s 124s
Gesamtkosten 0,15 $ 0,07 $

Benchmarks reproduzieren

Sie können den Benchmark reproduzieren, indem Sie die folgenden Schritte ausführen.

Benchmark-Umgebung

Sowohl Snowflake als auch Databend Cloud wurden unter ähnlichen Bedingungen getestet:

Parameter Schneeflocke Databend Cloud
Berechnen Sie die Clustergröße klein klein
vCPU 16 16
Preis 4 $/Stunde 2 $/Stunde
AWS-Region us-east-2 us-east-2
Lagerung AWS S3 AWS S3
  • Der von Amazon Redshift stammende TPC-H SF100-Datensatz  wurde ohne besondere Abstimmung in Databend Cloud und Snowflake geladen.

Benchmarking-Methode

Wir haben heiße und kalte Runden der Abfrageausführung durchgeführt:

  1. Kaltlauf : Das Data Warehouse wird angehalten und wieder aufgenommen, bevor die Abfrage ausgeführt wird.
  2. Hot Run : Das Data Warehouse wird nicht angehalten und verwendet den lokalen Festplatten-Cache.

Voraussetzungen

Daten werden geladen

  1. Laden von Snowflake-Daten :

    • Melden Sie sich bei Ihrem  Snowflake-Konto an .
    • Erstellen Sie eine Tabelle, die dem TPC-H-Schema entspricht. SQL-Skript .
    • Verwenden Sie  COPY INTO Befehle, um Daten aus AWS S3 zu laden. SQL-Skript .
  2. Laden von Databend Cloud-Daten :

    • Melden Sie sich bei Ihrem  Databend Cloud-Konto an .
    • Erstellen Sie die erforderlichen Tabellen im Einklang mit dem TPC-H-Schema. SQL-Skript .
    • Laden Sie Daten aus AWS S3 mit einem Snowflake-ähnlichen Ansatz. SQL-Skript .

TPC-H-Abfrage

  1. Schneeflockenabfrage :

  2. Databend Cloud 查询

Linus 亲自动手,阻止内核开发者用空格替换制表符 父亲是少数会写代码的领导人、次子是开源科技部主管、幼子是开源核心贡献者 华为:用 1 年时间将 5000 个常用手机应用全面迁移至鸿蒙 Java 是最容易出现第三方漏洞的语言 鸿蒙之父王成录:开源鸿蒙是我国基础软件领域唯一一次架构创新 马化腾周鸿祎握手“泯恩仇” 前微软开发人员:Windows 11 性能“糟糕得可笑” 虽然老乡鸡开源的不是代码,但背后的原因却让人很暖心 Meta Llama 3 正式发布 谷歌宣布进行大规模重组
{{o.name}}
{{m.name}}

Ich denke du magst

Origin my.oschina.net/u/5489811/blog/11044358
Empfohlen
Rangfolge