楽天テクノロジーカンファレンス2010続き

基調講演のあと「CassandraとHadoopによるNoSQL協奏曲」にも参加したので,自分的に重要そうと思ったこと
をメモっておく.

Cassandra豆知識

書き込みは元々速い

よってチューニングは,あんまり気にしなくてもOK.コミットログに記録してから,非同期でSStableに保存されるから.
メモリに余裕があれば,多めに確保しておくと吉.

読み込みは工夫の余地あり

キーのキャッシュを多くすること.
Bloomfilterを使っているので,データが格納されているノードを結構な確率で知ることができる.
原理は分からなかったので...勉強しよう.

レプリケーションは奇数が基本

一般的には3を使うことが多いそうな.

HadoopとCassandra

Hadoopは巨大なデータセットの集計処理に向いている

Cassandraとの連携機能もあるが,効果的な連携ができているとはいえない.現状は,HadoopからCassandraへの連携だけ.
0.7からCassandraからHadoopへの連携もできるかもしれない.

Cassandraは大量書き込みがあるところに向いている

シンプルなクエリが大量に発生するところ.
もしくは,SPOFをなくして,運用負荷を軽減したいところ.

NoSQLにおけるデータモデル設計

RDBとは逆のやり方で設計する

どのようなクエリでアクセスするか,クエリを先に考える.

非正規化して格納する

そんなことすると遅くなるんじゃ?と心配になるが,そもそも書き込みが速いので問題ない.

キーの考え方

複数のカラムをくっつける.もしくはハッシュにしてキーにする.
ディスクは消費するけど,安いからいいじゃん,と割り切る.


当日は半分で打ち切りになってしまいました.導入部がかなり丁寧だったので,仕方ないでしょう.
続きは別の機会で.