Hadoopのためのデータセットあれこれ
Hadoop common user MLを見ていたところ,Data for Testing in HadoopでHadoopで使えるデータセットってない?
という質問がありました.その返信でいくつか紹介されているものがあったので,列記しておきます.
実データ
Amazon Web Services
Amazonが,Public Data Sets : Amazon Web Servicesとして,公開しています.
Wikipedia Traffic Statisticsなんかもあったりして,面白いかもしれない.
Mahout
Mahoutが,Collections - Apache Mahout -として,公開しています.
外部サイトへのリンクなども雑多に並べてある感じ.
データジェネレータ
DataGeneratorHadoop
Pig Wikiに記載されている,Make DataGenerator A Hadoop Jobから使い方を参照できます.
"Data generator generates random values that matches the configuration."と書かれてあるとおり,
データの型やサイズを設定できるようです.
/dev/urandom
今回,最も漢らしかったのがコレ.
dd if=/dev/urandom of=data.bin bs=1024 count=10240
確かにこれならいくらでも生成できるな...