Hadoop >

目次

Pigとは

  • Pigとは、大規模なデータの分析を行うための抽象度の高い言語(PigLatin?*1)とその実行環境とを含むプラットフォームです。
  • 処理にはHadoop環境が利用されるため、Hadoop分散ファイルシステムHadoopMapReduceフレームワークのフロントエンドアプリケーションでもあります。Pigの分析語彙の抽象度は高く、Map/Reduce処理の詳細に引きづられないため、より分析ロジックの実装に集中できます。

インストール

  1. Pigインストール
  2. Pigインストール(旧) - DEPRECATED

Grunt(Pig対話シェル)

  • Grunt は、Pig の対話シェルです。動作確認に最適な環境です。
  • Grunt の動作モードには、Hadoop環境を必要としないローカルモードと、実際のHadoop環境に接続して分散処理を行う MapReduce? モードの二つがあります。検証または開発時には、ローカルモードを利用すると良いでしょう。

ローカルモード

  • ローカルモードでは、HDFS のセットアップを必要としません。ローカルファイルシステムが使用されます。開発環境として最適です。
  • 以下のようにpigコマンドに -x local オプションを与えて起動できます。なお、起動せずに起動パラメータを確認したい場合には、-secretDebugCmd? オプションを付加します。
    $ pig -x local
    grunt> pwd
    file:/home/alice

MapReduce?モード

  • MapReduce?モードでは、実際に HDFS に接続されます。
  • 適切に設定ファイル(pig-env.sh)を用意してから、pigコマンドで起動します。設定の詳細については、Pigインストールをご参照ください。
    $ pig
    または、
    $ pig -x mapreduce
    grunt> pwd
    hdfs://pleiades-nn.grid.example.com:9000/user/alice

サンプルコード

PigTips

リソース


*1 ピッグ・ラテン語とかけてあるのでしょう。

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2012-08-20 (月) 17:26:20 (2186d)