Observability Day 2024:Prometheus と CNCF 社群の進化と技術革新
PrometheusCNCFCommunityActivity LevelCNCFクラウド、オンプレミス、エッジ環境での柔軟なデプロイが可能となり、Helm Chart と Kubernetes Operator のサポートが強化された。
クラウド、オンプレミス、エッジ環境での柔軟なデプロイが可能となり、Helm Chart と Kubernetes Operator のサポートが強化された。
に直面していました: - **非構造化ログ**:アプリケーションからの出力がスキーマを持たず、手動処理が必要 - **ホストローテーション**:7日間のホスト交換によりログが失われる - **Kubernetes
- **Kubernetes**:OpenTelemetry Collectorのデプロイに使用し、Helmchartを活用したバージョン管理を実現。
Mutating Webhook(Kubernetes専用) - **方法**:Kubernetes APIを介してPod IDやコンテナ名を注入 - **課題**: - Kubernetes環境
**原因**:KubernetesのAttribute ProcessorがPod IPなどのメタデータを自動追加し、Istio SidecarによるIP衝突(127.0.0.1の共有)が発生。
**オープンテレメトリー**は、CNCFが主導するプロジェクトであり、Kubernetesやクラウドインフラストラクチャの観測性を強化するための基準を提供します。
### サーバーレス環境におけるメトリクスの課題 ShopifyはKubernetesをベースにGoogle Cloud上でサービスを展開しており、Cloud Runを活用したサーバーレスアーキテクチャ
## はじめに Kubernetesは現代のクラウドネイティブアプリケーションのデプロイと管理において不可欠な技術であり、Slackはチーム間のコミュニケーションを効率化するためのツールとして広く利用
- **CNCF の関連性**:Kubernetes や Prometheus などの CNCF ツールは、SLOs の監視と自動化された応答メカニズムを実現するための基盤となる。
## 背景と目的 現代の企業はAI原生開発プラットフォームを採用し、雲原生技術を基盤としており、ツール開発とオープンソースコミュニティへの貢獻に注力しています。數千のサービスと數百のWebアプリケーションを管理する中で、顧客體験の監視能力を向上させることが求められています。本稿では、平均検出時間(MTD)を3分未満に短縮し、顧客への影響を正確に評価するための「顧客中心の可観測性(Customer-Centric Observability)」の実現方法を解説します。 ## 顧客インタラクションの定義 **顧客インタラクション**とは、ユーザーが業務価値を生み出す行動(ボタンクリック、ファイルアップロード、銀行口座の追加など)を指します。このプロセスは以下のステップで構成されます: - 前端アクション(例:ボタンクリック) - 後端ネットワーク呼び出し - 応答処理とページ更新 - 最終的な表示確認 インタラクションの結果は、成功、降格、失敗(FCIS)の3つのカテゴリに分類されます。特に失敗インタラクションは重點的に監視対象とします。 ## 技術アーキテクチャと実裝 ### Open Telemetryの活用 Open Telemetry JavaScriptライブラリを用いて、インタラクションのトラッキングを実裝します。`createCustomerInteraction`メソッドをビジネスロジックに埋め込み、インタラクションの狀態(成功/失敗)を記録し、Open Telemetry Spanとして生成します。 ### データフローの設計 - 前端のSpanはOpen Telemetry JavaScriptによって収集され、 - Open Telemetry Collectorを経由して後端に送信され、 - 流処理パイプラインで成功/降格/失敗の指標を抽出し、 - 操作データラックに蓄積して異常検出に利用されます。 ### モニタリングとアラート Waveプラットフォームでデータを可視化し、異常検出パイプラインが指標の異常を検知します。閾値を超えた場合、Slack通知などの自動アラートが発信されます。 ## データ分析と効果 ### 顧客影響評価 **唯一ユーザー影響(Unique User Impact)**を計算し、重複を排除して影響範囲を正確に評価します。例えば、100ユーザーが2〜3回試行しても、5人の唯一ユーザーとしてカウントします。 ### 実績データ 8,500回のインタラクション中、21回が失敗し、5人の唯一ユーザーに影響(0.34%)を與えた例があります。このデータにより、問題の影響範囲と深刻度を特定できます。 ### 効率向上 MTD(平均検出時間)とMTI(平均修復時間)が明確に短縮され、開発者にフロントエンドシステムのリアルタイム狀態を提供します。 ## 関連技術とツール - **オープンソース貢獻**:Argo、Nomaなどのプロジェクトを維持 - **監視ツール**:Wave(データビジュアライゼーション)、操作データラック(異常検出用) - **信頼性確保**:ブラウザが10秒間バッファリングし、Open Telemetry Collectorにバッチ送信することで、データ転送の安定性と効率を確保 ## 今後の方向性 合成監視(Synthetic Monitoring)と実際のユーザーデータを統合し、異常検出モデルの精度向上と自動対応メカニズムの最適化を目指します。 ## 結論 本稿では、Open Telemetryを活用した顧客中心の可観測性の実現方法を解説しました。雲原生技術とAI原生開発プラットフォームの統合により、MTDの短縮と顧客影響の正確な評価が可能となりました。実裝においては、Open Telemetryの柔軟な拡張性と信頼性確保の仕組みを活用し、異常検出パイプラインの構築に注力することが重要です。今後は、合成監視との統合により、さらなる自動化と精度向上を目指します。