В настоящее время запуск TPC-DS Benchmark в Hive/Spark в основном осуществляется через проект, ранее поддерживаемый Hortonworks: hive-testbench . В этой статье мы представим конкретные этапы работы на основе этого проекта. Однако этот проект поддерживает только генерацию данных в форматах ORC и TEXT.Если вам нужен формат Parquet, обратитесь к этой статье «Выполнение сравнительного теста TPC-DS на Hive/Spark (формат Parquet)» .
Примечания. В этой статье используется среда Hive/Spark — AWS EMR, версия: 6.11. Эта операция должна быть выполнена на узле Master EMR! Потому что в сценарии будут использоваться инструменты командной строки, такие как hdfs и beeline.
1. Предварительные условия
hive-testbench разработан на основе официального инструментария TPC-DS, поэтому его компиляция и установка аналогичны официальному набору инструментов TPC-DS.Его необходимо установить и установить перед сборкой.После установки выполнить следующая команда gcc
для maven
сборки:
sudo yum -y install git
git clone https://github.com/hortonworks/hive-testbench.g