2011-01-01から1ヶ月間の記事一覧

ドメイン単位でのはてなブックマークランキング

はてなブックマークは,どこのドメインからのエントリが多いのか.様々なサイトからブックマークされていますが, ある程度の傾向はあるのでは?そんな疑問から,ドメインごとに集計してみました. はてなダイアリー強し さっそく,上位30ドメインをどうぞ. …

2007/8/12はInternal Server Errorな日

ホットエントリーをscrapeしてる時に分かったのですが,なぜか2007/8/12分のみ取得できないようです. 前後の日は問題ないのですが,どういうことなんでしょう... ○: はてなブックマーク - 人気エントリー - 2007年8月11日 ×: はてなブックマーク - 人気エン…

Hadoopのためのデータセットあれこれ

Hadoop common user MLを見ていたところ,Data for Testing in HadoopでHadoopで使えるデータセットってない? という質問がありました.その返信でいくつか紹介されているものがあったので,列記しておきます. 実データ Amazon Web Services Amazonが,Publ…

はてなブックマークはロングテールになっているか

前エントリでソートしたホットエントリーを眺めてみると,上位と下位のブックマーク数に大きな差があるようです. グラフにしてみると,いわゆるロングテールの形状になっていて, しかもテール部分のブックマーク総数の方が,1割弱大きいことが分かりました…

はてなブックマークをブックマーク数順にソート

以前作った年間ランキングの元となったデータを,Hadoopでソートしてみた. わざわざHadoopなど使わなくても普通にソートすればいいのだが,モノは試しということで. 入力データ Web上のデータをひたすらscrapeしてきたものをTSVにした.ざっと表示させると…

MacでHadoopスタンドアローンモード

HadoopのMapperやReducerを自分で書こうとすると,ローカルマシン上でHadoopを動かしたくなります. Macなら最初からJVMも入ってるし,ソースを持ってくればそのままで動くか,と思ったらそうでもなかった. 何はともあれダウンロード Mac用のパッケージはな…