Hadoop >

最終更新日: 2014-01-06

目次

はじめに

  1. 現在(2014年1月)、Apache Hadoopには開発が継続されているバージョンが複数存在しており、ユーザにとっては、プロダクション環境でどのバージョンを採用すべきかが一つの悩みどころとなっています。以下では、Apache Hadoop以外の主要ディストリビューションも含め、それらの特徴を比較検討し、どのバージョンを利用すべきかを考察していきます。
  2. 現在では、商用ディストリビューションも多く存在しますが、有力な選択候補として、CDH(Cloudera's Distribution, including Apache Hadoop)とHDP(Hortonworks Data Platform)を対象としています。
  3. 各ディストリビューションのバージョン比較については、Hadoopのバージョンをご参照ください。
  4. また、デフォルト設定の差異もそれぞれのディストリビューションの特徴を表すものとなっていますので、あわせてHadoopデフォルト設定もご参照ください。
  5. 内容の性質上、このページの情報は急速に陳腐化する恐れがありますので、ご参考にされる場合には十分ご注意ください。

セキュリティ要件を重視した場合

  1. セキュアHadoopの利用が必須であれば、各ディストリビューションで安定版(stable)とされているApache Hadoop 1.2、CDH4(ただしYARNではなくMRv1)、HDP 1.3の最新版が有力な選択肢です。
    1. 以前存在した、JDK 6のバグ(6946669)によりHDFSのチェックポイント機構やfsckに使用されている KSSL(Kerberized SSL、TLS/Kerberos)では高強度暗号のKerberosチケットを利用できないという問題は、これらのバージョンでは代替のSPNEGO/Kerberos実装により解消されています。

安定性を重視した場合

  1. セキュアHadoopのセットアップが不要であれば、各ディストリビューションが安定版(stable)としているApache Hadoop 1.2、CDH4(ただしMRv1)、HDP 1.3のいずれかの最新版で問題ないでしょう。

機能を重視した場合

  1. Apache版は、それぞれのプロダクトの開発が比較的独立していますので、任意に必要な機能を備えたバージョンを組み合わせることが可能です。一方で、プロダクト同士の相性問題に遭遇する恐れも存在します。
  2. CDHとHDPでは主要バージョンにおいてプロダクトスイートとして提供されていますので、プロダクト同士の相性問題を懸念する必要はほとんどないと思われます。ただし、息の長いCDH4に含まれるMRv1は安定しているものの、含まれるプロダクトのバージョンの古さに不満が残るかもしれません。それでも、積極的なバックポートが行われていますので、必要な機能が実装されているか確認の上、利用を検討するとよいでしょう。

Hadoop 2.x(YARN)を利用すべきか

  1. まず最初に、Apache Hadoop と HDPについては、1.xおよび2.xのプロダクトラインが並行して存続していますので、いずれかのメジャーバージョンを選択することになります。一方、CDH3がメンテナンス終了をむかえたCDHでは、CDH4またはCDH5を選択した上でその中に同梱されているYARNとMRv1(0.20ベース)のいずれかを動作させるのかが選択肢となります。ただし、CDH5はApache Hadoop 2.2 GAをベースにするもののまだベータリリースとされていることに注意する必要があります。
  2. 次世代Hadoopである 2.x は、Apache 2.2およびHDP 2.0.6でGAリリースとなりましたので、プロダクションでの利用を検討してもよいでしょう。一方、CDHについては、CDH4のYARNはプロダクション利用非推奨で、CDH5についてはベータリリースですので、YARNとしての利用は躊躇されるところです。CDHでは、まだCDH4のMapReduce? Ver. 1 を利用するのが推奨となっています。
  3. Hadoop 2.xの大きな目玉は、MapReduce?以外の分散処理フレームワークを実行可能にするYARNですが、これに対応したアプリケーションがリリースされつつあります。*1
  4. Apache Hadoop 2.2 または HDP 2.0.6 の採用を視野に入れて、YARNのプロダクション利用を積極的に検討しても良い頃でしょう。

参考リソース

  • Hadoop at Yahoo!: More Than Ever Before - 米Yahoo!がApache Hadoop 0.23をベースにしたものをプロダクションに配備しているようです。マイナーリリースが続けられ、2013年12月11日には 0.23.10 がリリースされていますので、もしかしたら2.x系で最も安定したバージョンはこれかもしれません。

*1 Tez (Hive Stinger)、Storm(Storm and Hadoop: Convergence of Big-Data and Low-Latency Processing)、GiraphGIRAPH-13)、Hama(HAMA-431)等

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2014-01-06 (月) 22:58:05 (1798d)