TPC-H on ImpalaをGithubに公開しました

前の2エントリで書いたTPC-HをImpalaで動かすためのスクリプトGithubに上げました.
https://github.com/kj-ki/tpc-h-impalaになります.

実行手順

以下の例では,ClouderaのImpala Demo VMが起動していることが前提です.
あとは↓に書いてあるとおりにやれば動くはず.


まず,Gitを入れます.(ここだけはrootで)

yum install git -y

Impala用スクリプトをダウンロード.

git clone https://github.com/kj-ki/tpc-h-impala

TPC-Hデータを生成.

wget http://www.tpc.org/tpch/spec/tpch_2_14_3.zip
mkdir tpch
cd tpch
unzip ../tpch_2_14_3.zip
cd dbgen
cp makefile.suite makefile
vi makefile
## ここから
CC      = gcc
DATABASE = SQLSERVER
MACHINE = LINUX
WORKLOAD = TPCH
CFLAGS  = -O -DDBNAME=\"dss\" -D$(MACHINE) -D$(DATABASE) -D$(WORKLOAD) -D_FILE_OFFSET_BITS=64
## ここまでを編集してください
make
# ここでは1GBデータを生成します
./dbgen -s 1

TPC-HデータをHDFSに格納.

mv *.tbl ~/tpc-h-impala/data/
cd ~/tpc-h-impala/data/
./tpch_prepare_data.sh
rm ~/tpc-h-impala/data/*.tbl

おもむろにImpala起動.

/home/cloudera/impalascripts/start-impalad.sh
/home/cloudera/impalascripts/start-impala-state-store.sh

Go!!

cd ~/tpc-h-impala/data/
./tpch_benchmark.sh