今年國內最矚目的HPC產品莫過于超千萬億次的“星云”超級計算機,其設計之初定位于千萬億次性能,計劃采用基于x86架構的模塊化刀片服務器。由 于一年兩度的Top 500全球超級計算機排行榜即將發布(一般是在每年6月和12月),而“星云”超級計算機正在加緊調試和沖擊最高性能(超算的評測需要很長的調試時間已達 到最佳性能)。
千萬億次超級計算機定名“星云”
“超級計算機中有‘星群’概念,與以往集群不同,星群的每一個節點都很強,這樣匯聚起來就像一個燦爛的光球。另外,云計算現在是熱門的概念,而超級 計算機是云計算的重要組成部分,‘星云’在投入運行之后將擔當云計算中心的重要角色。這就是千萬億次超級計算機命名為星云的原因。”公司總裁歷軍先生解釋 了星云名稱的來歷。
配置性能揭秘 “星云”與“天河”區別明顯
“星云”超級計算機和“天河一號”的主要區別有兩方面:一是架構上天河一號主要是GPU計算+x86處理器;而“星云”是模塊化服務器(按計算需求 自行選擇主要計算組件)——前者是眾核計算做并行處理,后者是國產模塊化刀片服務器(x86處理器+GPU計算卡)的異構體系。第二方面是可靠性方面,眾 所周知傳統GPU計算在可靠性方面由于缺乏ECC奇偶效驗等RAS特性因此計算可靠性被人詬病;而“星云”中由于采用的是模塊化服務器,每節點可容納10 塊GPU計算卡,因而在較重要的節點可實現多卡冗余的計算模式(互相比對),保證了數據可靠性。
從性能上來看,“天河一號”的峰值性能在千萬億次,平均Linpack性能在500多萬億次。而“星云”超級計算機的實測性能平均在千萬億次——全 球之前只有“走鵑”和“Jaguar”達到了平均千萬億次的性能。從實用角度看,“星云”超級計算機的效能名列前茅,是一臺通用性超級計算機——已有的 x86處理器的強大生態環境和可根據應用調整的模塊化服務器提供了保證。
據記者了解,“星云”超級計算機采用的是曙光最新的SSI模塊化刀片服務器TC3600作為節點;網絡方面采用了QDR Infiniband模塊(最高速率的互聯模塊);此外,由于TC3600的I/O擴展性,每個節點還配備了10個GPU計算卡,在針對“華大基因”這類 公司的微生物計算方面擁有明顯優勢。
應用豐富 “星云”未來是云計算中心
對于很多人質疑這類超級計算機應用是否跟得上的問題。歷總表示,曙光5000“魔方”以20倍的計算性能提升取代了曙光4000。而進駐上海超算的 當天,“魔方”就掛載了30%的負載,去年已經全部滿載并開始計算任務排隊。可見國內超級計算的需求在不斷增長——
“沒有機器,就沒有人做應用,也就沒有企業來用超算解決問題。”歷總認為,“從歷史經驗來看,曙光每一臺機器推出一年之后就滿負載運行。因此我們總 結出鐵律:先有機器,應用才能跟上來,企業才能解決問題。整個高性能計算產業也就發展起來。”
此外,歷總還表示,目前業界達成共識的是未來云計算時代的必然趨勢。而星云作為一臺均衡的通用性系統,在承載高負荷單應用時擁有超級計算性能,而當 未來面向云計算的多用戶多應用計算時,也可以將計算資源最大化的切分,成為一個云計算中心。
“星云”與“魔方”的重要區別在于,“魔方”還處在高性能計算中心階段,提供計算能力。而“星云”更多的提供的是服務,其未來云計算中心的定位也使 其應用將遠超過以往的超級計算機。歷總引用深圳市領導的話表示,這是深圳近來最大的高科技投入,而目前已經有大量客戶在排隊等待使用“星云”。
歷軍總結表示,曙光千萬億次計算機問世后,國產高性能計算機將實現兩大突破:一是采用國產模塊化刀片服務器(我國第一個模塊化刀片服務器)將具有劃 時代的偉大意義;二是高性能計算機現有的機群體系結構將在千萬億次時代實現改變——自主研發的高密度異構(x86+GPU)超級計算機。“這是中國速度 (曙光5000宣傳語)向世界速度(期待星云TOP500取得好成績)的跨越。”