Observability Day 2024:Prometheus と CNCF 社群の進化と技術革新

Observability は現代のクラウドネイティブアーキテクチャにおいて不可欠な要素であり、システムの信頼性とパフォーマンスを確保するための基盤となる。CNCF(Cloud Native Computing Foundation)は、Observability 領域における主要な技術プロジェクトを育成し、コミュニティの活性化を通じて技術革新を推進している。本記事では、Observability Day 2024 における Prometheus、Fluent Bit、Jager、Open Telemetry などのプロジェクトの進展と、CNCF 社群の活動レベルを詳細に解説する。

Prometheus の進展

Prometheus は、過去12か月で最も活発な活動を遂げたプロジェクトであり、CNCF の他のプロジェクトと同等の活動レベルを維持している。GitHub のスター數では2番目に多く、技術革新とコミュニティの成長が顕著である。

キャンパスとガバナンス

Prometheus は新しいガバナンスアーキテクチャを導入し、規模と包容性を向上させた。25人の新チームメンバーが加わり、メンテナの數はほぼ倍増した。このガバナンスの強化により、プロジェクトの持続可能性が確保されている。

テクノロジーの進化

Prometheus V3 がリリースされ、新UIや機能フラグの削除(破壊的変更なし)が含まれる。移行ガイドも提供され、ユーザーの負擔を軽減している。Histograms では、カスタムバケット境界のサポートが追加され、OTEL の Histograms と互換性を確保している。

プロトコルと拡張性

Prometheus Remote Read 2.0 がリリースされ、性能向上と機能強化が実現されている。Open Metrics v2 の開発も進んでおり、v1 の問題點を學びつつある。Open Telemetry との統合により、OTEL レシーバーが導入され、Delta 2 積算変換器が追加され、OTEL Collector なしでデータを受信できるようになった。

メトリクスの柔軟性

メトリクスとラベル名の文字セット制限が緩和され、UTF-8 のサポートが追加された。単位とタイプの明確な処理が導入され、リソース屬性の処理能力が向上した。Delta Temporality のサポートも近い將來に実裝される予定である。

Fluent Bit の新機能

Fluent Bit は、ログの収集と処理における柔軟性を高める新機能を導入した。

サンプリングと條件処理

Head Sampling と Tail Sampling が追加され、特定の條件に基づいてトレースデータを保持または捨てる機能が実裝された。Log Processor には條件判斷が追加され、條件に合致したログのみを処理できるようになった。

セキュリティと拡張性

TLS バージョンと暗號化スイートの指定が可能となり、ファイルシステムから変數を設定できるようになった。Z 言語のサポートが追加され、C との互操作性が向上した。クラウド、オンプレミス、エッジ環境での柔軟なデプロイが可能となり、Helm Chart と Kubernetes Operator のサポートが強化された。

Jager のアーキテクチャ変更

Jager V2 は Open Telemetry 生態系と完全に統合され、データ収集に修正版の OTEL Collector を採用した。

ストレージと UI の進化

ストレージ API がリファクタされ、OTEL とのネイティブ互換性が実現された。UI にはトポロジービューと強化された可視化ツールが追加され、フラメグラフやタイムラインのサポートが拡充された。

バックエンドと Kafka の統合

ClickHouse の公式サポートが追加され、OpenSearch でのリアルタイム指標計算が実現された。Kafka のネイティブデータキューがサポートされ、処理性能が向上した。

Open Telemetry の発展

Open Telemetry は、SDK 2.0 のリリースや語義的約定の進化により、観測性の基盤を強化している。

SDK と語義的約定

JavaScript SDK 2.0 がリリースされ、tree shaking などの最適化が実裝された。データベースの語義的約定(Semantic Conventions)の第2版がリリースされ、今月に安定版となる予定である。

編集時インスツルメンテーション

Go 言語の編集時インスツルメンテーション SIG が設立され、Go アプリケーションの観測性を向上させている。継続的プロファイラーが導入され、eBPF インスツルメンテーションとの統合が進んでいる。

生成式 AI との統合

生成式 AI フレームワークが Open Telemetry をデフォルトでサポートしており、コミュニティの採用率が向上している。CNCF 社群では、非米國地域の貢獻者比率が50%に達しており、歐州地域の活動を促進するためのメンテナ會議が計畫されている。

技術重點の総括

  • Prometheus:V3 更新、Histograms 改善、Open Metrics v2 開発、Delta 2 轉換器導入
  • Fluent Bit:ヘッド/テールサンプリング、Z 言語サポート、TLS 設定、Kafka 統合
  • Jager:OTEL 統合、ストレージ API リファクタ、UI トポロジー視図、ClickHouse サポート
  • Open Telemetry:SDK 2.0、語義的約定、編集時インスツルメンテーション、継続的プロファイラー、生成式 AI 統合

CNCF 社群と Observability Day

CNCF 社群は、Open Telemetry の認証制度(例:OpenTelemetry Certified Associate)を提供し、無料の入門コースも展開している。50%の貢獻者が非米國地域から來ていることから、歐州地域の活動を促進するため、2024年6月に Observability Day を開催し、8月にはアムステルダムでイベントを予定している。

Cortex と OpenSearch の進展

Cortex は、水平スケーラブルな Prometheus API、低遅延クエリ、キャッシュメカニズム、実験的機能の安定化を提供している。2.19 バージョンでは検出性能の向上や異常検出が実裝され、3.0 プランでは Apache Lucene 10 の導入が予定されている。

OpenSearch は、2019年に Elasticsearch から分離され、Linux Foundation に認証されたプロジェクトとして、分散型検索エンジンや向量データベースの統合を進めている。2.19 バージョンでは検索性能の改善やエコシステムの統合が行われ、3.0 プランでは Apache Arrow や gRPC/Protobuf のサポートが予定されている。

Thanos の更新

Thanos は、0.38 バージョン候補(RC2)をリリースし、OTLP 協議のサポートや原生 Histograms の導入を実現した。分散型クエリ実行機能により、PromQL クエリの処理効率が向上している。また、TanosCon という専用イベントが開催され、大規模なデプロイ経験が共有されている。

Cilium の進展

Cilium は、Windows プラットフォームでの eBPF サポートを拡充し、Tetragon との統合を進めている。Hubble では、動的指標設定機能が導入され、細かいフィルタリングが可能となった。コミュニティ活動として、週3回のミーティングや Slack チャンネルでの議論が行われている。

結論

Observability Day 2024 における技術進展は、Prometheus、Fluent Bit、Jager、Open Telemetry などのプロジェクトの革新と CNCF 社群の活性化を象徴している。これらの技術は、クラウドネイティブ環境における信頼性と可観測性を確保するための基盤となる。今後も、コミュニティの協力と技術の進化を通じて、Observability 領域のさらなる発展が期待される。