Выполнение тестов TPC-DS (форматы ORC и TEXT) на Hive/Spark

В настоящее время запуск TPC-DS Benchmark в Hive/Spark в основном осуществляется через проект, ранее поддерживаемый Hortonworks: hive-testbench . В этой статье мы представим конкретные этапы работы на основе этого проекта. Однако этот проект поддерживает только генерацию данных в форматах ORC и TEXT.Если вам нужен формат Parquet, обратитесь к этой статье «Выполнение сравнительного теста TPC-DS на Hive/Spark (формат Parquet)» .

Примечания. В этой статье используется среда Hive/Spark — AWS EMR, версия: 6.11. Эта операция должна быть выполнена на узле Master EMR! Потому что в сценарии будут использоваться инструменты командной строки, такие как hdfs и beeline.

1. Предварительные условия

hive-testbench разработан на основе официального инструментария TPC-DS, поэтому его компиляция и установка аналогичны официальному набору инструментов TPC-DS.Его необходимо установить и установить перед сборкой.После установки выполнить следующая команда gccдля mavenсборки:

sudo yum -y install git
git clone https://github.com/hortonworks/hive-testbench.g

рекомендация

отblog.csdn.net/bluishglc/article/details/132279064