作為一個城市現代化發展水平的重要標志,公共計算平臺能夠讓更多的人力資源、資金、技術快速流動起來,在帶來巨大的經濟效益和社會效益的同時,推動著高新技術產業以及企業自主創新的發展,具有深遠意義。
上海超級計算中心(SSC)由上海市政府投資建設,累計總投資規模5億元人民幣以上,坐落于上海市張江高科技園區。多年來,上海超級計算中心立足上海,面向全國,為來自工程科研院所和多所知名大學的超過350家用戶,提供了隨需應變的高性能計算資源、技術支持以及高級技術咨詢服務,支持了一大批國家和地方政府的重大科學研究、工程和企業新產品研發,在汽車、航空、鋼鐵、核能、市政工程、新材料、生物制藥、天文、物理、化學等多個領域取得了大批重大成果。
挑戰:數百萬億次計算規模 作業調度系統面臨挑戰
上海超算中心目前擁有曙光4000A(2004年世界排名第十)和“魔方”(曙光5000A,2008年世界排名第十、亞洲第一)等多臺超級計算機,同時配備豐富的科學計算和工程計算軟件。
上海超算中心主機系統分三期工程進行建設,其中,二期工程部署了曙光4000A超級計算機系統,共有512個計算節點,每個節點4個CPU,于2004年底投入運行。三期工程部署了魔方(曙光5000A)超級計算機,于2009年6月投入運行,共有1500多臺計算節點,2.5萬多個核。在魔方(曙光5000A)上運行超過了40種以上的各類商用應用軟件和上百種的科學研究程序。
上海超算中心高性能計算集群系統三期主機的處理能力為二期主機的20倍,CPU個數為二期主機的10倍以上,系統每天運行的作業數、訪問用戶數及作業類型等也成比例增長,因此系統運行的復雜度呈成倍增長態勢,這對主機系統管理和運行的核心軟件——作業調度系統提出了更高、更嚴的要求。
同時,上海超算中心高性能計算集群平臺的應用環境非常復雜,其應用領域遍及基礎科學研究(包括計算化學、高能物理、地球物理、天體物理、 新材料研究、生物醫藥、基因研究、人工智能等);社會公益事業(包括數值氣象預報、環境保護、地震預報);工業與工程計算(包括航空航天、船舶和海洋工程、汽車設計、地質勘探、建筑工程、核電工程、電子與通訊、裝備制造);數據處理(包括金融、政務、商務、證券、交通)等多個領域,這就要求高性能計算集群平臺的作業調度系統必須能對各個應用軟件具有非常良好的支持,不僅能支持各種工程計算應用,還能支持各種各樣基礎科學研究。這意味著作業調度系統要與各個商業應用軟件具有良好的接口和后臺支撐,同時還必須支持各種開源軟件,確保各種應用軟件在集群環境下的穩定應用。
解決方案:Platform LSF挺身而出 難題不再
自上海超算中心二期工程實施以來,Platform就積極參與到高性能計算集群系統建設中來,為上海超算中心的高性能計算集群系統的正常運作提供強有力的支持。
Platform為上海超算中心高性能計算集群系統三期工程提供的Platform 作業調度系統(Platform LSF HPC)解決方案拓撲圖如下圖所示。在訪問網絡層,提供用戶使用高性能平臺的通道,通過登錄節點作為統一接口訪問高性能服務,同時,將用戶與高性能后臺系統隔離,提高安全性和可管理性。在管理網絡層,提供對高性能平臺進行部署、監控、調度和管理通信平臺,保證系統可控性和可管理性。在計算網絡層,提供高性能應用、并行計算應用之間數據通信,減少延遲和增大帶寬,保證高性能計算應用的高效率和高質量。在存儲網絡層,提供存儲服務器與存儲設備高IO吞吐和高流量通訊訪問,保證系統對存儲利用的高并發和大吞吐。當然,其他節點對存儲訪問不僅依賴存儲網絡,同時還將依賴IO服務器與其他服務器之間的管理網絡或計算網絡(取決于IO服務器使用管理網絡還是計算網絡提供IO服務)。
Platform作業調度系統(Platform LSF HPC)的核心是Platform LSF。LSF是業界領先的最為廣泛使用的分布式批處理中間件,它可以用于提供PaaS服務, 并支持網格化SaaS。在電子設計、航空航天、汽車、生命科學、政府、教育、科研、石油等各個領域獲得了廣泛應用,包括德州儀器(TI)、AMD、通用汽車、戴姆勒克萊斯勒、波音、聯合技術等著名公司均采用LSF對其高性能計算平臺進行管理和調度。
LSF在可靠性、響應時間、可操作性、可維護性等方面有較大的優勢,表現在:
高可靠性。隨著機群系統的逐步擴大,依賴于機群系統的人越來越多,機群系統的故障將導致數百、乃至數千分布世界各地的員工工作受到影響,甚至直接影響到產品的測試、驗證乃至發布。LSF具有高可靠性,其機群系統的平均無故障時間大于99.95%,即一個季度,停機時間小于一個小時。LSF的高可靠性已經在TI,AMD,NVIDIA等超大規模機群的運營中得到證明。
100%可信賴的作業調度和管理。LSF提供的透明遠程執行機制以及通過JobStarter提供的作業運行環境自適應機制可以確保作業調度和運行的正確性。TI、 AMD、NVIDIA、GM等作業調度系統運營表明,在不考慮用戶因素和操作系統等其它因素的情況下,其作業調度系統確保作業運行的正確性為99.99%以上。
高可擴展性。Platform LSF單一機群管理的CPU數已經向10,000 ~ 20,000等更多CPU方向展。目前在TI, AMD, NVIDIA等企業單個機群最大CPU數均超過計10000個,節點數在4、5000臺以上。
良好的可操作性,支持在線修改。Platform LSF支持在線修改,支持系統管理員根據用戶需求的變化,動態地修改系統配置,不影響作業的運行和用戶的使用。
良好的可維護性。Platform LSF支持機群系統的在線升級和維護。系統管理員可以在不影響作業的運行和用戶使用的情況下,替換新的系統服務程序,進行系統在線升級和維護。
效果:實現負載均衡 管理更便捷
Platform 作業調度系統很好地幫助上海超算解決了大型、復雜作業的調度,保證了整個集群的負載平衡,提高了作業運行效率,大大降低了作業運行的成本。表現在以下幾個方面:
保證了負載均衡,讓每臺機器都參與運算,提高了整個集群的使用率。作業提交后,可以很均衡的提交到集群中的上千個計算節點上,讓上萬個核都參與運算,而不是每次都是一部分機器參與運算。
作業的運行時間大大降低,降低了運行成本,從而提高了系統的吞吐量。例如一個運行10小時的FLUENT的作業,利用LSF調度后,一般可以將時間縮短到8小時,甚至5小時,效率提高了20%~50%。
管理方便。LSF已經將2000多臺計算節點分三個邏輯分區進行了合理的管理,管理員可以很容易地對每個邏輯分區的每個計算節點進行實時查詢和監控。
操作方便。LSF已經集成了40多個應用軟件,上海超算的客戶可以很容易的提交他們的作業、數據的上傳和下載,并對作業進行實時監控。
上海超算中心魏玉琪經理認為,Platform LSF是個很優秀的集群調度軟件,LSF很好的幫助上海超算解決了大型、復雜作業的調度,保證了整個集群的負載平衡,讓2萬多個核都參與運算,提高了作業運行效率,大大降低了作業運行的成本。現在上海超算中心的高性能計算集群系統保持著滿負荷運行,每天有上千個作業吞吐量,LSF能很好的將用戶作業進行調度,并保證了作業運行的穩定性、安全性,而且查詢也非常方便,能實時地對作業進行監控。Platform幫助上海超算中心將各種應用軟件集成到了LSF中,方便了中心的用戶提交作業。他表示,未來,上海超級計算中心將進一步提升技術能力和服務水平,協助更多的用戶將先進計算能力轉化為科研創新能力,打造國際一流的超級計算中心。