HPC(高性能計算)話題備受矚目,不僅因為本土系統在業界博得好評,更重要的是高性能計算逐漸走進每個人的生活,并且發揮著不可或缺的作用。比如說金融、氣象、能源、制造等行業中的很多企事業都在應用高性能計算,作為普通百姓的衣食住行,我們在刷卡購物、打電話、聽天氣預報、出門坐車時也已經在享受高性能計算所帶來的準確與方便。
談到HPC,大家最關注的總是計算性能,卻鮮有人談到HPC的存儲系統,即并行文件系統。在近期舉辦的一次溝通會上,中國氣象局正研級高工洪文董、中國高性能計算TOP100排行榜發起人袁國興、中國計算機學會高性能計算專業委員會秘書長張云泉幾位HPC領域的專家,不約而同地就HPC領域并行文件系統的重要價值闡述了各自的觀點。
并行文件系統是HPC實現資源調度和性能優化的關鍵因素
在高性能計算領域,尤其以氣象部門為例,很多天氣預報的模式都是將任務分成多個小任務,最后通過網絡將其歸結到一起。并行計算快速進行,而相應的數據量也隨之激增,這就需要有并行文件系統進行處理。
中國計算機學會高性能計算專業委員會秘書長張云泉在溝通會上表示,在高性能計算領域,需要通過并行來實現加速,而這樣的加速對于高性能計算來說,有著重大的意義。
中國氣象局正研級高工洪文董說,“要實現HPC系統的科學計算的效能,就一定需要一個并行的文件系統。CPU需要通過并行文件系統將眾多的存儲硬件管理起來,尤其在氣象領域,數據相互之間是有關聯的,計算的結果之間要進行交換,這對于并行文件系統的要求就更高。”
因此,洪文董認為,一般的開源并行文件操作系統并不能滿足科學計算領域HPC系統的需求,因為在科學計算領域,大多數時候文件系統存儲的數據相互之間是需要相互影響的,即它們是分布共享并行文件系統,不像社會計算領域,如電信、網絡、物流等,每個文件系統的數據相互之間沒有關系,它們是分布并行文件系統。這兩種模式對于文件系統的要求是完全不一樣的。
中國高性能計算TOP100排行榜發起人袁國興也認為,在HPC系統中,存儲系統的響應速度必須要盡可能地高,同時并行文件系統也需要盡可能地高效,否則,系統產生的數據量激增,即便計算系統速度再快,如果并行文件系統無法快速響應,那么也會急劇降低HPC整體系統的性能。
并行文件系統可以把多個結點上的磁盤組織成為一個大的存儲系統,提供更大的存儲容量和聚集的I/O帶寬,并隨系統規模的擴大而擴展,在多種存儲環境下發揮著重要的作用,尤其是集群結構的高性能計算領域。
同時,張云泉認為,現在大數據的發展,使得HPC的研究有了新的用武之地,產生了眾多的新興交叉學科。無論對于深度學習還是大數據分析、在線游戲而言,各種全新的應用對于HPC提出了全新的需求,這些對于HPC的存儲系統,尤其是并行文件系統提出了各種挑戰。
從高性能上看,GPFS即現在的IBM Spectrum Scale,通過將I/O分布在多個硬盤提高性能,能夠高效工作在1個節點到4000多個節點的集群環境中,也能夠很好地支持SSD盤和閃存陣列。
同時,可靠性是高性能運算的重中之重,在GPFS環境中,某一節點的硬盤連接丟失,不會影響到其他的節點,GPFS使用RSCT的功能持續監控不同文件模塊的健康狀態,當任 一錯誤被檢測到時,相應的恢復動作將自動執行。GPFS還提供了額外的日志和恢復功能,可以維持元數據的一致性。最大三副本,可支持節點的自動Failover。相較于開源的CEPH,作為商用系統代表的GPFS,經歷了大量的實踐和檢驗,相對來說更加穩定和可靠。
洪文董認為,“從商用軟件的角度來說,IBM的GPFS是并行文件系統中做得最成功的,也是業界做得最好的。”
IBM Spectrum Scale,以商業的可靠性滿足多方高性能存儲需求
軟件定義存儲時代,高性能計算面臨著不同時代、不同品牌的存儲設備和解決方案的整合的問題,IBM整合了自身所有跟存儲相關的軟件,推出光譜存儲家族,以幫助企業和機構應對高性能計算時代出現的新問題。光譜家族的Spectrum Scale, 即廣為人知的IBM并行文件系統明星產品GPFS,也就是HPC領域備受推崇的并行文件系統的商用軟件,在2013年的全球top500超級計算機有超過150臺的集群使用GPFS文件系統。
如同IBM軟件定義解決方案的銷售顧問蔣軍華在溝通會上所介紹的,IBM光譜家族的Spectrum Scale,是一個為高性能計算設計的高可靠性并行文件系統,它不僅可以在一個高性能計算集群中實現多個計算節點的數據快速存取,還能夠實現跨廣域網的存儲整合與數據共享,幫助用戶形成統一的存儲資源池,同時,它還解決了數據存儲經濟性的問題,依靠信息生命周期管理功能幫助用戶實現數據的自動分層管理,保證存儲資源的高效利用。這些對于高性能計算領域尤其是類似于氣象預報等科學計算領域,有著非常重要的價值。
IBM Spectrum Scale是經驗證、可擴展且高性能的數據及文件管理解決方案(基于 IBM General Parallel File System 或 GPFS,之前被稱作代碼名稱 Elastic Storage)。 IBM Spectrum Scale 提供世界級的存儲管理功能,具有極致的可擴展性、閃存加速性能,以及基于策略的自動存儲分層功能(從閃存、磁盤到磁帶)。IBM Spectrum Scale可以幫助客戶減少 90% 的存儲成本,同時提高云、大數據和分析環境中的安全性和管理效率。
首先,IBM Spectrum Scale解決的是數據高可靠性和高可用性。憑借去中心化的系統架構設計,GPFS文件系統元數據和數據都采用分布式架構存儲,不論管理節點、文件系統節點或是元數據節點失效后都能恢復,不存在單一故障點,保證了系統的使用。隨著高性能計算集群規模和文件系統的增長,元數據的訪問也不會成為系統瓶頸。
其次,IBM Spectrum Scale解決的是跨廣域網的存儲和數據資源整合,幫助用戶形成統一的全局文件命名和數據管理。比如,廣州遇到南方的暴雨天氣期間,由于氣象預報計算需求的增加,它需要借助北京的超級計算機計算南方的天氣,這其中就涉及到數據的傳輸和同步。通過Spectrum Scale軟件全面整合后能夠策略化地去定義數據存放,根據每個氣象計算算例后面附帶數據量的大小,結合IBM Platform LSF調度軟件決定該計算任務是在本地計算還是調度到遠端計算,快速獲取計算結果。
最后,IBM Spectrum Scale可以在生產環境下實現磁盤空間動態擴展及壓縮。由于IBM Spectrum Scale通過將節點內讀寫操作分布到多個磁盤上,大大增加了文件系統的帶寬,通過整個系統的負載均衡避免了某個磁盤過大的讀寫。此外,IBM Spectrum Scale可以動態調整添加或者刪除硬盤。系統處于相對空閑時,用戶可以在已配置的硬盤上重新均衡文件系統以提高吞吐量。