TPC-H on ImpalaをGithubに公開しました
前の2エントリで書いたTPC-HをImpalaで動かすためのスクリプトをGithubに上げました.
https://github.com/kj-ki/tpc-h-impalaになります.
実行手順
以下の例では,ClouderaのImpala Demo VMが起動していることが前提です.
あとは↓に書いてあるとおりにやれば動くはず.
まず,Gitを入れます.(ここだけはrootで)
yum install git -y
Impala用スクリプトをダウンロード.
git clone https://github.com/kj-ki/tpc-h-impala
TPC-Hデータを生成.
wget http://www.tpc.org/tpch/spec/tpch_2_14_3.zip mkdir tpch cd tpch unzip ../tpch_2_14_3.zip cd dbgen cp makefile.suite makefile vi makefile ## ここから CC = gcc DATABASE = SQLSERVER MACHINE = LINUX WORKLOAD = TPCH CFLAGS = -O -DDBNAME=\"dss\" -D$(MACHINE) -D$(DATABASE) -D$(WORKLOAD) -D_FILE_OFFSET_BITS=64 ## ここまでを編集してください make # ここでは1GBデータを生成します ./dbgen -s 1
mv *.tbl ~/tpc-h-impala/data/ cd ~/tpc-h-impala/data/ ./tpch_prepare_data.sh rm ~/tpc-h-impala/data/*.tbl
おもむろにImpala起動.
/home/cloudera/impalascripts/start-impalad.sh /home/cloudera/impalascripts/start-impala-state-store.sh
Go!!
cd ~/tpc-h-impala/data/
./tpch_benchmark.sh