作為我國最早開展高性能計算(HPC)研究的單位之一,清華大學早在2005年開始自建高性能計算平臺,如今,高性能計算平臺二期工程已經于今年4月正式投入使用。清華高性能計算平臺(二期)擁有“探索100”百億次集群計算機,集群機采用最新Intel Xeon X5670處理器,740個計算節點,系統理論峰值超過100TFlops,計算能力在全國高校居首位,能很好地服務于清華大學交叉學科的研究,并為校內外用戶提供高性能計算資源、并發算法開發、高性能計算相關資訊等各類服務。
打造百億次集群計算機
2009年清華大學成立了地球系統科學研究中心,并聯合計算機系、環境系、核能研究院等院系成立了全球變化研究院,致力于研究全球氣候變化背景下地球系統科學的前沿課題及其產生的社會經濟影響。“超級計算平臺是全球氣候變化研究、地球系統科學研究必備平臺,為此,清華大學啟動了以“探索100”百億次集群計算機為核心的清華高性能計算平臺二期工程的建設,借助高性能計算平臺還原或預測地球自然變化過程,實現對洋流、大氣、地殼等的仿真研究。” 清華大學計算機系高性能所高工張武生介紹說。
在“高標準、高要求、高起點”建設原則指導下,清華大學與浪潮集團合力打造的清華高性能計算平臺(二期)通用CPU計算性能達到了每秒104萬億次,GPU計算性能達到每秒68萬億次,總計算性能為每秒172萬億次,是我國在地球系統模擬領域速度最快的超級計算機,也是目前我國高等院校性能最高的計算平臺。清華高性能計算平臺(二期)內存總容量達到30TB,共享存儲系統容量1PB,系統功率包括制冷系統功率不到350千瓦。除了卓越的計算能力,清華高性能計算平臺(二期)還實現了兩個關鍵點:第一,采用超異構并行可擴展架構,使得整體應用效能比其他架構提升了25%;第二,為了達到低能綠色設計理念,超算系統的計算節點采用了高密度的刀片式服務器設計,能夠自動調整的智能液冷系統也大大降低了能耗,使得整體系統能耗降低了30%,年電費節約100萬。
Platform LSF提供可信賴的作業調度和管理
清華大學超百萬億次超級計算機系統應用環境非常復雜,其應用領域覆蓋了物理、化學、應用數學、材料、力學、自動化、計算機、核技術、航空航天、生物信息、石油、電機、醫學、地質等眾多學科,這就要求高性能計算集群平臺的作業調度系統必須能對各個應用軟件具有非常良好的支持,即作業調度系統要與各個商業應用軟件具有良好的接口和后臺支撐,同時還必須支持各種開源軟件,以確保各種應用軟件在集群環境下的穩定應用。
清華大學采用了Platform LSF作業調度系統對高性能計算平臺進行管理和調度。張武生介紹說,清華大學HPC平臺(一期工程)也采用了Platform LSF,實踐證明Platform LSF有兩大優點,一是穩定性非常好,從來沒發生作業或者節點丟失的問題;二是可用性好,LSF提供了豐富的參數配置,通過組合的方式就能滿足各種不同的配置需求。此外,Platform公司給我們的高性能計算提供了強有力的支持,利于我們快速響應用戶需求。
Platform LSF是業界領先的最為廣泛使用的分布式批處理中間件,它可以用于提供PaaS服務, 并支持網格化SaaS。Platform LSF在可靠性、響應時間、可操作性、可維護性等方面有較大的優勢,表現在:
● 高可靠性。隨著機群系統的逐步擴大,依賴于機群系統的人越來越多,機群系統的故障將導致數百、乃至數千分布世界各地的員工工作受到影響,甚至直接影響到產品的測試、驗證乃至發布。LSF具有高可靠性,其機群系統的平均無故障時間大于99.95%,即一個季度,停機時間小于一個小時。
● 100%可信賴的作業調度和管理。LSF提供的透明遠程執行機制以及通過JobStarter提供的作業運行環境自適應機制可以確保作業調度和運行的正確性。
● 高可擴展性。Platform LSF單一機群管理的CPU數已經向10000 ~ 20000等更多CPU方向展。
● 良好的可操作性,支持在線修改。Platform LSF支持在線修改,支持系統管理員根據用戶需求的變化,動態地修改系統配置,不影響作業的運行和用戶的使用。
● 良好的可維護性。Platform LSF支持機群系統的在線升級和維護。系統管理員可以在不影響作業的運行和用戶使用的情況下,替換新的系統服務程序,進行系統在線升級和維護。
張武生表示,Platform 作業調度系統確保了整個集群的負載平衡,提高了作業運行效率,大大降低了作業運行的成本,為清華大學高性能計算提供了可信賴的作業調度和管理。
清華大學高性能計算平臺(二期)目前已經承擔起聯合國政府間氣候變化專門委員會第五次評估報告(IPCC-AR5)氣候模擬、預測、評估試驗的計算任務,而這個計算任務以往都只有發達國家參加,此次中國是加入的唯一發展中國家。除此之外,該平臺還為973、863計劃和國家自然基金等項目提供計算支持,用戶覆蓋了物理、化學、應用數學、材料、力學、自動化、計算機、核技術、航空航天、生物信息、石油、電機、醫學、地質等眾多學科,為清華大學交叉學科的研究提供了有力的保障。