以下の内容はhttps://tokibito.hatenablog.com/entry/20121126/1353937724より取得しました。


Hadoopについてメモ書き

ちょっと必要になったのでHadoopについて調べたりしてた。メモ書き。
Welcome to Apache™ Hadoop®!
Hadoopっていくつかのソフトウェアで構成された分散システムの基盤なんすね。

  • HDFS分散ファイルシステム
  • MapReduceが巨大なデータに対して並列処理できるシステム
  • HiveはSQLライクなクエリをHadoop上で実行できるシステム
  • 他にもジョブスケジューラとかノード管理とかいろいろ。
  • 1台のマシンで余裕で処理できるようなデータ量なら、Hiveを使わずにMySQLなどのRDBMSを使ったほうが速いぽい

Ubuntu12.04にインストールする場合は、ClouderaのCDH4を使えば簡単らしい。
https://ccp.cloudera.com/display/CDH4DOC/CDH4+Documentation
HiveよりCloudera Impalaのほうが速いけど、まだまだHiveよりできることが少ないらしい。
Cloudera Impala #pyfes 2012.11.24




以上の内容はhttps://tokibito.hatenablog.com/entry/20121126/1353937724より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14