fbpx

利用 AIOps 提升 IT 維運的可觀測性與自動化效率

人工智能維運(AIOps,Artificial Intelligence for IT Operations)在幫助 SRE、DevOps 團隊及開發者應對應用程序與基礎設施的複雜性變更速度以及維運環境中數據量的挑戰方面,扮演著日益重要的角色。

通過自動化來提升應用程序與基礎設施監控的效率與效果,AIOps 能夠減輕可觀測性團隊的工作量,讓他們有更多時間專注於處理更重要的分析工作。

〔更多細節請參考 A practical look at AIOps for observability and IT operations | Elastic Blog

因此本文將幫助你了解 AIOps,並且介紹一些實際應用場景。

概述

《什麼是 AIOps?初學者指南》中,我們深入探討了 AIOps:它是什麼、為什麼重要,以及如何建立生產就緒狀態。

我們談到,為什麼 AIOps 計劃應該從簡單入手,採用經過時間驗證且成熟的 AIOps 功能,然後隨著效益的實現和驗證,逐步增加更多 AIOps 特性。

AIOps 通過使用機器學習(Machine Learning),對大量可觀測性數據(包括日誌、追蹤、指標及相關信號)進行處理與分析,能夠提前發現潛在問題,從而降低停機時間並提升系統性能。

另外,AIOps 還能提供數據驅動的洞察和預測分析,幫助組織做出更明智的決策,優化應用程序和基礎設施的管理,以提升維運效率,並達到資源最大化利用的成果。

在可觀測性上的應用

讓我們來看看一些可觀測性的實際案例,以及 AIOps 是如何通過自動化常見的應用程序和基礎設施監控任務來解決這些問題,從而獲得更好的控制。

(圖一,可觀測性中的 AIOps 四大功能)

實時監控(Real-time monitoring)

可觀測性平台能夠即時收集並分析來自多個來源的數據,讓 SRE 們能夠更全面了解系統運行狀態,並及時識別潛在問題。

而 AIOps 功能可以用來自動識別多樣化數據中的模式,並清楚呈現數據之間的關聯性

這對於檢測和解決隱藏在系統正常運行範圍內的問題尤為重要。舉例來說,當應用程序運行緩慢時,AIOps 可用來識別導致交易緩慢或失敗的原因。

異常檢測(Anomaly Detection)

AIOps 還可以用來識別系統中的異常行為,讓您提前發現潛在問題。透過持續分析來自多種來源的數據,AIOps 平台能夠檢測出與正常模式偏離的情況,並發出異常存在的警報。

這有助於工程師主動識別並解決問題,防止其引發重大中斷或影響應用程序性能。

通過自動化分析大量數據(例如日誌、指標和事件),AIOps 也能夠協助 IT 團隊快速且準確地識別並解決問題,同時優化系統的性能與可用性

警報關聯與篩選(alert correlation and triage)

隨著現代系統產生大量數據,SRE 在梳理所有噪聲資訊(noisy data)並判斷哪些警報最為重要時,常常會感到不堪重負。

這時候,可觀測性平台就能夠利用 AIOps 技術和機器學習算法,識別不同警報之間的模式與關聯,讓 SRE 能夠優先處理最緊急的問題,集中精力應對挑戰。

AIOps 自動化能夠減少多種類型的雜訊數據,例如:

  • 多組相似或重複的資訊
  • 過多的檢測問題和警報(包括手動和自動),其中一些可能有相同的根本原因
  • 資訊性通知事件

這些因素都會在可觀察性數據和工作流程中造成不同程度的干擾性資訊。這對於 SRE 或 IT 維運團隊來說,警告疲勞在現代應用部署中會變得更加明顯。

在減少噪聲資訊並提供正確背景的工作中,AIOps 扮演着非常重要的角色,因為它能夠幫助 IT 維運團隊提高工作效率。

它會自動判斷和顯示系統健康狀況,將運營焦點重新集中在應用程序、服務和基礎設施上,而非單一數據片段。準確的健康評分能夠協助工程師辨識出這些系統所表現出的異常行為的範圍和嚴重程度。

透過根據業務和用戶行為,來自動排序系統和資訊,AIOps 可以協助處理最關鍵的部分。

AIOps 還能根據數據特徵檢測並消除重複資訊,並將相似資訊進行聚類或分組,統一呈現,進一步減少故障排除時的噪聲資訊。

當引入各種新型可觀察性信號和數據的時候,透過無監督機器學習(unsupervised machine learning)和異常檢測進行時間序列基準建置,能夠大幅降低監控與追蹤這些數據所需的人力。

根因分析(root cause analysis)

當問題發生時,AIOps 能幫助 SRE 更快地找出根因。透過分析來自多個來源的數據,AIOps 平台能夠識別問題的根本原因,即使它並不容易察覺。這有助於 SRE 更高效地解決問題,並防止相同問題再次發生。

自動提供與問題相關的上下文資訊,還能夠在工作流程中即時呈現關鍵資訊,加速調查過程。

AIOps 能夠將與問題相關的多個事件和行為進行關聯分析,幫助更全面的調查,同時縮短 MTTD(mean time to detection,平均檢測時間)和 MTTR(mean time to resolution,平均修復時間)

這類關聯分析與根因分析的一個例子是,AIOps 能夠找出在問題或異常事件中異常突出的數據屬性。其中一個或多個屬性可能進一步指向潛在的根本原因。

在面對一些特定且已被充分理解的問題狀況時,AIOps 能夠將問題從發生到根因定位的過程自動化,無需手動反覆調查。

結論 | 簡化業務與運營的可觀測性

AIOps 的目標是簡化 IT 運營團隊的工作,減少需要的手動操作,特別是針對日常和重複性的任務,並找到隱藏在大量數據中的關鍵問題。這能夠讓運營人員將注意力集中在更高層次的工作上,例如平台架構、平台工程、自动化、安全等任務。

現代的雲端混合環境與原生架構將運營團隊能夠管理的範圍逼到極限。

而成本分析與追踪、業務指標,以及業務影響與可觀測性數據的對齊,僅是運營團隊面臨的一些最新挑戰的例子。

然而好消息是,同樣的 AIOps 概念和分析能力,像是基準設定、異常檢測和關聯分析,不僅有助於提高可觀測性,對解決這些新的業務挑戰也同樣有效

人工智能和機器學習的能力更進一步,能夠幫助理解任何通用的信號和數據,讓使用者提取有用且可行的洞察,從而促進業務成功。

Related Posts