Kubernetes Pod 重啟處理技術與實踐策略

在 Kubernetes 集群中，Pod 的穩定性與彈性是系統可靠性的核心。當 Pod 遭遇異常或需要更新時，如何確保應用在重啟過程中不影響服務可用性，成為開發者與運維工程師必須面對的挑戰。本文深入解析 Kubernetes 的 Pod 重啟機制，探討其關鍵技術與最佳實踐，協助讀者建立具備彈性與高可用性的系統架構。

技術定義與核心概念

Pod 是 Kubernetes 中最小的部署單位，包含一個或多個容器。當 Pod 需要重啟時，Kubernetes 會透過 SIGTERM 信號通知容器終止，並提供 grace period（預設 30 秒）讓應用進行清理。若應用未處理此信號，系統將發送 SIGKILL 強制終止容器。此機制確保資源能妥善釋放，但需搭配其他技術協同運作，才能實現真正的服務連續性。

關鍵特性與功能

1. 容器終止流程

Kubernetes 的終止流程包含以下步驟：

信號處理：SIGTERM 信號觸發應用清理，若未處理則逾時後發送 SIGKILL。
grace period 範圍：此寬限期可能被 eviction API 或節點資源壓力覆蓋，例如 kubelet 可能忽略設定。
容器終止順序：主容器與 sidecar 容器同步終止，sidecar 會按啟動順序反向終止，確保依賴關係正確處理。

2. 多容器處理

sidecar 容器：自 Kubernetes 1.29 起支援終止順序控制，終止時按啟動順序反向執行。
grace period 共享：所有容器共享同一寬限期，需確保所有容器能在該時間內完成清理，避免資源爭用。

3. HTTP 服務器處理

即使實現 grace shutdown，Kubernetes 可能在終止信號發送前將流量路由至舊容器，導致請求丟失。解決方案包括：

pre-stop hook：設定 terminationGracePeriodSeconds 延遲終止，確保新容器就緒。
readiness probe：確認新容器就緒後才切換流量。
startup probe：區分啟動階段與後續階段的探針配置，避免啟動時過度健康檢查。

4. 控制器領導選舉優化

領導選舉機制：透過 List 資源競爭領導權，預設 leaderElectionDuration 為 15 秒，retryPeriod 為 2 秒。
優化方法：
- leaderElectionReleaseOnCancel：在終止時主動放棄領導權，將 leaderElectionDuration 設為 1 秒，縮短切換時間至 3 秒。
- 風險控制：避免過短的 leaderElectionDuration 引發 split brain 問題。

5. Pod Disruption Budget (PDB)

功能：限制重啟期間不可用的 Pod 數量，例如設定最多 1 個 Pod 不可用。
應用場景：
- 節點維護：防止 eviction 超過預算。
- 流量切換：確保至少一個 Pod 可用。
限制：
- 無預留 Pod：eviction 不會預先建立替代 Pod，需至少 2 個 Pod 才能保證 1 個可用。
- 永久阻擋 eviction：若設定 minAvailable 為 0 且 Pod 無法運行，可能阻擋維護操作。
- 不適用於刪除 Pod：PDB 僅限制 eviction 與 preemptive 設定。

實際應用與優勢挑戰

實踐建議：

信號處理：確保應用處理 SIGTERM，並在 grace period 內完成清理。
pre-stop hook：使用 terminationGracePeriodSeconds 延遲終止，配合 readiness probe 確保流量切換。
探針配置：區分 startup probe 與 readiness probe，避免啟動時過度健康檢查。
領導選舉優化：調整 leaderElectionDuration 與 retryPeriod，降低切換時間。
PDB 配置：根據應用需求設定 PDB，平衡維護與可用性。

優勢：

提供靈活的終止流程，確保資源妥善釋放。
支援多容器協同處理，提升系統複雜度。
透過 PDB 設定，保障服務可用性。

挑戰：

grace period 可能被外部因素覆蓋，需嚴謹配置。
領導選舉機制需平衡切換速度與系統穩定性。
PDB 的限制可能影響維護操作的靈活性。

總結

Kubernetes 的 Pod 重啟處理技術透過信號處理、grace period、pre-stop hook、探針配置與 PDB 等機制，確保應用在重啟過程中的穩定性與可用性。開發者需根據應用特性，合理配置這些技術，並結合領導選舉優化與 PDB 策略，建立具備彈性與高可用性的系統架構。透過深入理解這些核心概念，讀者可有效提升 Kubernetes 集群的運維效率與服務品質。