Hadoopのためのデータセットあれこれ

Hadoop common user MLを見ていたところ,Data for Testing in HadoopHadoopで使えるデータセットってない?
という質問がありました.その返信でいくつか紹介されているものがあったので,列記しておきます.

実データ

Amazon Web Services

Amazonが,Public Data Sets : Amazon Web Servicesとして,公開しています.
Wikipedia Traffic Statisticsなんかもあったりして,面白いかもしれない.

Mahout

Mahoutが,Collections - Apache Mahout -として,公開しています.
外部サイトへのリンクなども雑多に並べてある感じ.

データジェネレータ

DataGeneratorHadoop

Pig Wikiに記載されている,Make DataGenerator A Hadoop Jobから使い方を参照できます.
"Data generator generates random values that matches the configuration."と書かれてあるとおり,
データの型やサイズを設定できるようです.

/dev/urandom

今回,最も漢らしかったのがコレ.

dd if=/dev/urandom of=data.bin bs=1024 count=10240

確かにこれならいくらでも生成できるな...

ワークロードエミュレータ

GridMix

ML上は単語しか出てなかったのですが,ググったらGridmix3が出てきました.
"Emulating Production Workload for Apache Hadoop"だそうな.

PigMix

こちらもググったレベルですが,PigMixがありました.
"These will be used to test the performance gap between direct use of map reduce and using pig."ということで,
Pig環境を試験したい場合はアリかもしれません.