從遺留供應商工具到OTEL:在MSCI擴展可觀察性的實踐

從遺留供應商工具到OTEL:在MSCI擴展可觀察性的實踐

引言

在現代企業的數位轉型中,可觀察性(Observability)已成為維繫系統穩定與業務連續性的核心能力。隨著微服務架構與多雲環境的普及,傳統的遺留供應商工具逐漸暴露出靈活性不足、成本高昂與跨團隊協作困難等問題。MSCI作為一家資產管理規模達16.5萬億美元的金融服務公司,面對跨雲環境的分散式架構與高維護成本,亟需一種開放、標準化的可觀察性解決方案。OpenTelemetry作為Cloud Native Computing Foundation(CNCF)旗下的開源項目,以其靈活的數據採集能力與生態兼容性,成為MSCI實現可觀察性架構升級的關鍵技術。

技術與架構解析

OpenTelemetry的核心特性

OpenTelemetry 是一個開放標準的可觀察性框架,專為現代分散式系統設計,支持日誌(Logs)、指標(Metrics)與追蹤(Traces)三大核心信號的統一採集與處理。其核心特性包括:

  • 靈活性:提供豐富的SDK與導出器,兼容Java、Go、Python等多種語言,並支持與Elasticsearch、Prometheus、Jaeger等現有工具無縫整合。
  • 開放標準:避免供應商鎖定,透過OTLP(OpenTelemetry Protocol)實現數據的標準化傳輸與存儲。
  • 統一抽象層:透過Collector元件,建立數據聚合與轉換的中間層,降低對現有系統的依賴,實現漸進式遷移。

技術架構設計與實作步驟

MSCI的技術架構以OpenTelemetry為核心,結合現有工具形成混合式可觀察性堆疊,具體組成如下:

  • OpenTelemetry Collector:作為數據同步層,負責從應用端接收日誌、指標與追蹤數據,並進行格式轉換與路由。其部署於Kubernetes環境,透過Helmchart實現版本控制與快速擴展。
  • Elasticsearch:作為主要數據存儲,處理每秒1GB的數據流,支援日誌與追蹤的全文檢索與分析。
  • Jaeger:提供分佈式追蹤功能,整合Elasticsearch作為數據源,支援跨服務的調用鏈路追蹤。
  • Prometheus:監控系統指標,支援即時查詢與告警機制。
  • Grafana:作為統一視覺化層,整合日誌、指標與追蹤數據,提供應用層面的完整監控視圖。

實作步驟分為三個階段:

  1. 探索階段(2021):透過Java開發測試程序驗證OpenTelemetry的JVM指標捕獲能力,並與開發團隊合作逐步儀表化應用。
  2. 推廣與整合(2022):建立標準化上板流程(Onboarding Scorecard),推動80%應用程式完成儀表化,並優化跨團隊協作流程。
  3. 優化與擴展(2023):引入本地化原則(Locality Principle)優化雲端數據存儲,並自動化儀表化流程以減少人工介入。

優勢與挑戰

優勢

  • 成本與靈活性:透過CNCF生態系降低供應商依賴,並利用開源工具實現靈活擴展。
  • 跨團隊協作:統一數據層降低維護成本,提升開發與運維團隊的協作效率。
  • 可觀察性覆蓋率:80%應用程式完成儀表化,支援全面監控與預防性維護。

挑戰

  • 遺留系統整合:需處理數據同步與開發者抵觸,部分現有儀錶板需重寫以符合標準化。
  • 數據規模管理:日均處理2TB以上數據,需優化異常模式檢測與存儲策略。
  • 開源工具運營:需建立專門團隊確保OpenTelemetry的穩定性與持續演進。

總結

MSCI透過OpenTelemetry實現可觀察性架構的標準化與靈活性,解決遺留工具的限制,並建立可擴展的監控體系。此方案不僅提升系統穩定性與故障處理能力,也為未來技術升級奠定基礎。對於企業而言,OpenTelemetry的關鍵價值在於其開放標準與生態兼容性,使其成為從Legacy Vendor Tooling轉型至現代可觀察性架構的必經之路。建議企業在實踐中優先完成應用程式儀表化,並透過自動化管道與Kubernetes部署加速遷移過程,同時持續探索eBPF、生成式AI等新技術以強化監控能力。