楽天テクノロジーカンファレンス2010続き
基調講演のあと「CassandraとHadoopによるNoSQL協奏曲」にも参加したので,自分的に重要そうと思ったこと
をメモっておく.
Cassandra豆知識
書き込みは元々速い
よってチューニングは,あんまり気にしなくてもOK.コミットログに記録してから,非同期でSStableに保存されるから.
メモリに余裕があれば,多めに確保しておくと吉.
読み込みは工夫の余地あり
キーのキャッシュを多くすること.
Bloomfilterを使っているので,データが格納されているノードを結構な確率で知ることができる.
原理は分からなかったので...勉強しよう.
レプリケーションは奇数が基本
一般的には3を使うことが多いそうな.
HadoopとCassandra
Hadoopは巨大なデータセットの集計処理に向いている
Cassandraとの連携機能もあるが,効果的な連携ができているとはいえない.現状は,HadoopからCassandraへの連携だけ.
0.7からCassandraからHadoopへの連携もできるかもしれない.
Cassandraは大量書き込みがあるところに向いている
シンプルなクエリが大量に発生するところ.
もしくは,SPOFをなくして,運用負荷を軽減したいところ.
NoSQLにおけるデータモデル設計
RDBとは逆のやり方で設計する
どのようなクエリでアクセスするか,クエリを先に考える.
非正規化して格納する
そんなことすると遅くなるんじゃ?と心配になるが,そもそも書き込みが速いので問題ない.
キーの考え方
複数のカラムをくっつける.もしくはハッシュにしてキーにする.
ディスクは消費するけど,安いからいいじゃん,と割り切る.
当日は半分で打ち切りになってしまいました.導入部がかなり丁寧だったので,仕方ないでしょう.
続きは別の機会で.