fbpx

國家實驗室 Oak Ridge 以 Elastic 優化超級電腦

blog-timeseries

前言

Oak Ridge 國家實驗室的歷史藏在田納西州的山丘上,它曾經是一個致力於解開原子能奧秘的最高機密政府機構。

如今該實驗室在支持核科學研究計劃的同時,擁有個更廣大的任務:研究從生物與環境系統到乾淨能源,再到 COVID-19 病毒結構。

幾乎所有 Oak Ridge 研究都以超能運算計劃(Supercomputing Program)為基礎,全球頂尖的研究員為了科學的進步,不斷突破電腦運算能力的極限。

Elastic 支援 Oak Ridge 超級電腦維持穩定性和高效能;於 2018 年部署的 Oak Ridge 最新超級計算機 Summit,高峰能為 200 petaFLOPS,即每秒 200 萬億次計算。 雖然這在當時令人印象深刻,但與實驗室將推出的超級電腦 Frontier 相比略顯遜色,而 Frontier 將於 2022 下半年全面上線。

Frontier 的高峰值能達到 1.5 exaFLOPS —— 比 Summit 提高 650%。 作為美國第一台百萬兆級運算電腦(Exascale計算機),它將幫助科學家在能源和國家安全研究方面實現有別以往的突破。

Frontier 佔據近兩個足球場的空間,運行需要 40 兆瓦的電力。與 Summit 的 13 兆瓦電力負載相比,Frontier 消耗的電力意味即使是微小變化也能帶來巨大的運轉效率。 反過來說研究人員使用 Frontier 解決以往無法解決的問題,帶來了更佳經濟效益和研究突破。

所有這一切都意味速度和性能對於構建 Frontier 以進行優化的團隊至關重要 —— 這也是該團隊請 Elastic 來監控和優化其性能的原因。

Oak Ridge 的分析和監控團隊最近討論了他們如何使用 Elastic 日誌來維持 Frontier 等複雜系統的穩定性,並利用 Kibana 數據視覺化來確定基礎設施效率。在這裡我們將分享他們的看法,對於任何規模或組織中運行 Elastic 的客戶都會很有幫助。 

如何利用 Elastic 的洞察力省下 200 萬美元

Oak Ridge 團隊實現了動態模擬、超導、湍流、量子材料和地球科學模擬的科學研究。他們不斷在尋找保持超級電腦穩定和高效的優勢。其中一項將為 Oak Ridge 國家實驗室每年省下 200 萬美元的基礎冷卻設施成本。

Summit 需要大量的水來冷卻。通過分析即時數據,他們可以在不中斷數據產出工作的情況下提高配置效率,從而將冷卻和能源成本降低七位數。

Oak Ridge 如何使用 Elastic 擴展研究任務

Oak Ridge 團隊對每天以 petaFLOPS 為單位運轉的的計算機規模略知一二。但他們必須多加利用 Summit 產生的那些難以置信的數據量,而不只是保存它。而這就是 Elastic 的用武之地,Oak Ridge 團隊將 Elastic 用作數據儲存和分析引擎。

目前,Summit 有六個數據節點,可用儲存容量為 2.7 PB,並計劃進行擴展。為數據生命週期管理實施數據分層,Summit 對每日存取量沒有硬性規定。但該系統仍有每天 1.5 TB 數據的軟限制,借助 Elastic 的定價模型,可以經濟實惠地存取冷層和凍結層中的舊數據。

這種分佈式、可擴展的架構有助於團隊為新研究提案和項目做好準備,輕鬆地將數據集添加到系統中。

Oak Ridge 超級電腦數據流是如何工作

可想而知 Oak Ridge 團隊是處理最複雜的系統設置。但為了簡化其數據流生態系統,他們採用了在任何規模組織中部署過 Elastic 的人都很熟悉的設置。

Oak Ridge 團隊使用 Kafka 直接向 Elastic 的 Logstash 工具提供實時數據源。Logstash 解析這些數據流,啟用 Elasticsearch 強大的查詢功能並在 Kibana 中進行輸出可視化。輸出還可以流入 Prometheus 監控容器化工作負載,然後再流入 Grafana 或 Nagios ,以進行額外的可視化和警報。

Oak Ridge 團隊使用此分析來製定有關 Summit 基礎設施的數據驅動決策。除此之外,產生數據的科學家可以請求存取索引。並且使用 Elastic 的數據儲存和分析引擎技術,無需花費數小時進行專業培訓。

Oak Ridge 超級電腦團隊優化 Elastic

Oak Ridge 超級電腦團隊經理 Gina Tourassi 表示:「數據驅動的科學發現已經加速轉變,隨著人工智能的不斷發展,這趨勢將會持續下去。」

作為在國際舞台上處於高性能計算(High Performance Computing)的先鋒機構,Oak Ridge 團隊提供了使用 Elastic 進行 HPC 監控的三個技巧:

調校

  • 了解你的硬體:根據 CPU、儲存和記憶體可用性調整 Elastic 集群,以創建穩定、可靠的系統
  • 以神奇比率(the magic ratios)為目標:每 1 GB 堆 20 個分片這樣的彈性比率是一個重要的經驗法則
  • 調整儲存和數據層:使用符合 Elastic 建議的熱、溫、冷、凍結比率以獲得最佳性能
  • 將索引分片大小保持在每個分片 50 GB:對於高吞吐量數據管道,增加 Logstash 的批次處理大小或 worker 數量以匹配此數字

故障處理

  • 檢查你的日誌:使用監控集群來了解如果出現任何異常,應該從哪裡開始挖掘問題
  • 常見的檢查區域:CPU 或記憶體使用率高、意外的網路流量模式以及數據管道或配置問題。 使用 Logstash 過濾功能來識別問題區域。

復原

  • 預先計劃更新和升級策略:制定恢復計劃,以減少數據丟失或停機時間並優化恢復機制
  • 一些需要注意的事項: 緩慢的恢復時間可能表明潛在問題存在,例如磁盤 I/O 中的瓶頸,或可能會減慢恢復速度並降低集群性能的網路

超級電腦準備就緒

ElasticON 會議上,Oak Ridge 團隊分享了他們為美國對百萬兆級革命做出貢獻的方法。 Elastic 也很榮幸能夠成為讓世界上最快電腦保持在線的幕後推手。

其他資源

本文翻譯自:How Oak Ridge National Laboratory optimized its supercomputers with Elastic

參考更多 Elastic 相關資訊:https://www.omniwaresoft.com.tw//elastic/

相關文章