Hadoop >

目次

データのシリアライゼーション

  • これらは基本的なデータ型とコレクションの効果的な直列化(serialization)のためのフレームワークで、主にサービス間のメッセージ交換の最適化を目的としていますが、データ永続化レイヤでもその威力を発揮します。
  • 高効率性、柔軟性とともに複数プログラミング言語(サービス間連携が前提)からのアクセスの容易さを謳っているのが一般的です。
  1. Hadoop Writable: Hadoop組込
  2. Avro
    1. AvroSerDe
  3. MessagePack
  4. Protocol Buffers
  5. Thrift

ファイルベースのフォーマット

  • Hadoop(巨大なデータの永続化用途)では、分散処理とI/O最適化のために分割可能で圧縮をサポートできることが重要です。
  • 最近はクエリ応答の高速性が注目され、多くのカラム指向フォーマットが競い合って開発されています。

テキスト

  1. TextFile?
    1. CSV, TSV
    2. JSON
    3. XML, ...
  2. PigStorage?
    1. Load/Store Functions

バイナリ

  1. SequenceFile?
    1. Hadoop I/O: Sequence, Map, Set, Array, BloomMap Files
  2. MapFile?
  3. SetFile?
  4. ArrayFile?
  5. BloomMapFile?
  6. ORCFile (Optimized Row Columnar)
    1. LanguageManual ORC
    2. ORCFile in HDP 2: Better Compression, Better Performance
  7. RCFile (Row Columnar)
    1. http://en.wikipedia.org/wiki/RCFile
  8. Trevni
    1. Trevni: A Column File Format
  9. Parquet
    1. Parquet
  10. HBase StoreFile?(HFile), HLog(SequenceFile?)
    1. 9.7. Regions
    2. Appendix E. HFile format version 2
    3. 12.8. Writing to HBase
  11. TreasureData? Plazma
    1. Treasure Data’s Plazma: Columnar Cloud Storage

データ圧縮

  • 非構造化テキストデータには圧縮が必須です。
  1. Hadoopチューニング

データ変換

  • 最適なフォーマットへの変換は何でも食べるPigが最も相応しいでしょう。

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2014-06-05 (木) 15:55:32 (2792d)