戰略逐一拆解說明
以 ITIL 框架為基礎,作為可觀測 Observability 的戰略指引
將各組態項目(CI)納入觀測標的
Elastic Observability 可提供全面觀測所有組態項目(CI),如伺服器、應用程式及資料庫。透過 APM 分析揭示依存關係,結合 ML 預測問題,預先通知並避免服務中斷。Kibana 儀表板則針對運作數據即時視覺化,快速定位問題根源,提升 IT 團隊效率與系統穩定性。
採用機器學習 Machine Learning 進行潛勢預測
Elastic Observability 結合機器學習進行潛勢預測,採用異常檢測如 Isolation Forest 快速辨識問題及時間序列分析工具 Prophet 精準預測未來行為,讓 IT 團隊能提前處理潛在風險並減少意外中斷,全面提升系統穩定性及運營效率。
-
非監督式機器學習,異常檢測(Anomaly Detection)範例:
若某伺服器的 CPU 使用率突然從平常的 30% 飆升到 90%,而歷史數據顯示這種情況極為罕見,算法會將其標記為異常並發出警報。
IT 團隊收到通知後,可以立即調查原因,例如:檢查是否有應用程式故障或資源競爭,及時採取措施以防止服務中斷。
-
時間序列預測 (Time Series Forecasting) 範例:
在異常檢測作業為您的資料建立正常行為基準後,您可以使用該資訊來推斷未來的行為。
您可以使用預測來估計特定未來日期的時間序列值。
例如:您可能想要預估下週日 09:00 會有多少 visitors 造訪您的網站。
依據服務策略,定義出各服務的 SLO
Elastic Observability 透過服務策略定義各服務 SLO,如延遲和可用性目標,確保服務性能達標。平台支持 SLO 即時監控與跨度分析,快速辨識問題來源並提升服務穩定性。
監控這些 SLO,透過 Elastic 可觀測平台,進行跨度戰情分析
Elastic Observability 平台透過跨度戰情分析,可即時監控 SLO 達成情況,快速定位問題來源如網路、資源或應用異常,結合 AI 助理與 ML 技術,加速故障排除並提升服務品質。
事故與問題管理,維持 IT 服務持續性目標
-
Kibana 的 Cases 管理功能,專注於事故與問題管理,旨在幫助團隊進行以下任務:
- 追蹤與協作
有效協助團隊追蹤並解決 IT 服務問題,確保服務持續性。
- 案例創建
用戶可在 Kibana 介面中創建 Cases,記錄所有相關細節。
- 數據支援
添加日誌、指標及視覺化圖表(例如延遲趨勢圖)以深入分析根本原因。
-
Kibana 的 Cases 管理功能,有哪些亮點?
- 自動化處理
當警報觸發時,系統可自動創建案例。
可與外部系統(如 ServiceNow)整合,推送更新並同步作業。
- 團隊協作
支援評論、文件上傳及歷史活動日誌,促進團隊間的高效協作。
快速確定問題來源,實現及時解決。
善用 AI 助理,協助查找、分析、解決問題
Elastic Observability 結合 AI 助理,實現智能化問題排查與高效解決。
透過機器學習技術,AI 能自動檢測系統異常並即時通知相關團隊,例如:發現服務性能降低或資源使用過高時,AI 助理會快速定位問題根源。
AI 更能分析異常模式,預測可能影響,並依案例提案解決方案,減少停機風險。
此外,AI 可整合日誌與指標數據,從全局視角協助用戶掌握系統狀態。
實務應用中,AI 助理可成為 24/7 的系統衛士,顯著提升運營效率與服務可靠性,助力 IT 團隊化繁為簡,專注創造更多價值。
