はてな匿名ダイアリーを抜粋するサイト「Masuda-digest」を開設しました

※とりあえず見てみたい方はこちらへどうぞ.

はじめに

通称,増田.
はてな匿名ダイアリーのことです.
ラボサービスなのにブックマークを集めることも多く,定着している感があるのではないでしょうか.


が,いかんせん流量がかなり多く,一日あたり数百エントリに達することも当たり前.結構いいこと書いてるエントリもあったりして注目したいのですが,時間的にとても追いきれません.はてブがついてるエントリを拾い読みしていましたが,もうちょっと何とかなんねーのか.と悶々としていました.

それから少しして

ふとしたきっかけで,ベイズフィルタについて書かれた本を読む機会があり,読んだ時は何とも思わなかったのですが,その後,ぼーっとしてると,
「スパムを分類してフィルタリングできるなら,増田も分類できるんじゃねーか?」
としょーもないことを思いつき,作り始めました.


一通り作ってみたところ,まあ悪くはないんじゃねーかという位の動きはするので「Masuda-digest」として公開します.

で,これって何なの?

単純ベイズ分類器で増田のエントリをフィルタリングします.

  • はてブのホットエントリに相当する確率を計算し,しきい値を超えれば表示します.
  • 参考として,カテゴリごとの確率も計算しています.
  • このBlogはRubyを書きなぐるBlogなので,Ruby (on Rails)で実装しました.

以下のような欠点も持ち合わせています.

  • Webデザインを知らないのでとっても見づらいです.何とかしたい.
  • カテゴリ分類の精度は正直期待できません.
  • CGIとして動かしているので,重いです.

最後に

はてな匿名ダイアリーを自動的に抜粋するサイトを作ってみました.
一度でもいいので,アクセスしていただければ幸いです.