Apache Impala における Parquet ファイルの読み込みメカニズム

はじめに

Apache Impala は、大規模なデータ処理に特化した分散型クエリエンジンであり、Apache Parquet などの列指向ファイルフォーマットを効率的に読み込む能力を備えています。この記事では、Impala が Parquet ファイルを読み込む際の內部メカニズム、特徴、最適化戦略を解説し、実際の運用における考慮點を整理します。

技術の定義と基本概念

Apache Impala のシステム構造

Impala は、フロントエンド（Java）とバックエンド（C++）から構成され、クエリプランニングと最適化をフロントエンドが擔當し、クエリ実行をバックエンドが擔當します。フロントエンドでは、実行時のコード生成によりパフォーマンスを向上させています。サポートするストレージシステムには HDFS、S3、Kudu、HBase などがあり、現在は Apache Iceberg を主な表形式として採用しています。ファイルフォーマットとしては、Parquet、ORC、Text がサポートされており、Parquet が核となるフォーマットです。

Apache Parquet の特徴

Parquet は列指向の圧縮ファイルフォーマットであり、以下の特徴を持っています。

スキーマ：データの構造を定義します。
行グループ（Row Group）：データを複數の行グループに分割し、各グループに列ブロック（Column Chunk）を配置します。
列ブロック：列ブロックはページ（Page）に分割され、各ページは異なる符號化方式（例：字典符號化、Delta 符號化）を採用します。
圧縮：Snappy や Gzip などの圧縮アルゴリズムをサポートし、空間と計算コストのトレードオフを考慮する必要があります。
フィルタリング技術：列インデックス、字典フィルタリング、Bloom フィルタリングを用いて、不要なデータを効率的にスキップします。

Impala における Parquet ファイルの読み込みプロセス

ファイル読み込みのフロー

メタデータ読み込み：ファイルヘッダーの SFT 構造を読み込み、行グループレベルの最小値/最大値を取得して初期フィルタリングを行います。
列インデックスフィルタリング：ページの統計情報（最小値/最大値）を基に、不一致のページをスキップします。
Bloom フィルタリング：列の Bloom フィルタをチェックし、一致しない行グループをスキップします。
字典フィルタリング：字典ページを読み込み、謂詞の一致を確認し、不一致の行グループをスキップします。
データ解圧と処理：條件を満たすページを読み込み、謂詞を適用し、行指向の形式に変換します。

メモリ管理とスレッド処理

Impala は、メモリ使用量を制御し、全體のデータをメモリにロードすることを防ぎます。行グループは単一スレッドで処理され、I/O と処理が重なって効率化されます。LLVM を用いて謂詞をコンパイルし、パフォーマンスを向上させます。また、メモリ制限に基づき、新しいスレッドの起動を動的に調整します。スレッド処理では、固定スレッド數（Fragment Instance）と動的調整（メモリと並行度に基づく）の2つのモードがあります。

懶惰マテリアライゼーション（Lazy Materialization）

Impala は、謂詞に一致する欄位のみを読み込み、一致しない場合は対応するデータブロックやページをスキップします。非謂詞欄位は後続の処理段階で追跡され、初期読み込み量を削減します。

最適化戦略と実際の運用

壓縮と符號化の選択

Snappy：解碼速度が速く、文字列型に適していますが、整數や浮動小數點型には効率が低下します。
Gzip：數値型に適しており、高い圧縮率を実現します。
売買データなどの數値型が主な場合、Gzip を選択し、文字列型が主な場合、Snappy を選択することが推奨されます。

行グループとページサイズの設定

行グループのサイズは、字典フィルタリングの効率や最小値/最大値フィルタリングの粒度に影響します。最小値は100MB程度が推奨され、過小なサイズはSFT構造の重複読み込みを引き起こす可能性があります。
ページサイズは圧縮効率とフィルタリングの細粒度に影響します。過小なサイズは圧縮率を低下させ、過大なサイズはフィルタリングの精度を低下させる可能性があります。

排序とインデックスの活用

排序された列は、字典符號化や圧縮効率を向上させるため、クエリ條件に頻繁に使用される列を対象にします。
排序コストとクエリ性能のバランスを考慮し、適切な列を選択することが重要です。

複雑な謂詞の処理

簡単な謂詞は直接適用可能ですが、複雑な條件にはBloomフィルタリングなどの技術を組み合わせる必要があります。
布ロムフィルタは、異なる値數が多い場合に有効ですが、誤検出の可能性があるため、実際のデータを検証する必要があります。

まとめ

Impala は、Parquet ファイルの読み込みにおいて、メモリ管理、スレッド処理、フィルタリング技術を組み合わせて高パフォーマンスを実現しています。圧縮アルゴリズムの選択、行グループとページサイズの設定、データの排序戦略など、運用時の最適化が重要です。実際の運用では、データの特性に応じてパラメータを調整し、効率的なクエリ処理を実現することが求められます。