集群計(jì)算以及部門和工作組高性能計(jì)算系統(tǒng)大型計(jì)算能力的持續(xù)增長已經(jīng)對存儲架構(gòu)提出了挑戰(zhàn)。輸出數(shù)據(jù)的傳統(tǒng)存儲方法是通過一個(gè)或多個(gè)經(jīng)由存儲區(qū)域網(wǎng)絡(luò)(SAN)或直連存儲(DAS)連接到存儲的服務(wù)器使用網(wǎng)絡(luò)文件系統(tǒng)(NAS),傳統(tǒng)的方法已經(jīng)落后于大部分大型高性能計(jì)算安裝基礎(chǔ)對性能和可擴(kuò)展性不斷增加的需求。高性能并行解決方案的另一種方法可能更加昂貴,并且相對于NFS難于創(chuàng)建并維護(hù)。
因此,很多中等的高性能計(jì)算設(shè)施正在競爭滿足應(yīng)用程序的I/O需求。研究計(jì)算社區(qū)的那些人認(rèn)識到劃算的,高性能,可擴(kuò)展性,有彈性和易于管理的集中存儲需求可能是當(dāng)代的高性能計(jì)算設(shè)施面臨的最大的挑戰(zhàn)。
從根本上說,高性能計(jì)算依賴計(jì)算能力,帶寬和存儲。這些因素互相依賴可能決定高性能計(jì)算解決方案的計(jì)算和信息容量。為更好的擴(kuò)展,高性能計(jì)算應(yīng)用程序在組成計(jì)算集群的大量的客戶機(jī)中分配計(jì)算。高性能計(jì)算集群能夠從十個(gè)延伸到上千個(gè)客戶端,聚合的I/O請求從數(shù)十到上百GB/s一路排列下來到較小的具有更多適度的I/O性能需求的4節(jié)點(diǎn)集群。所高性能計(jì)算集群不管大小,共享很多共同的需求。
隨著CPU核心持續(xù)增加,對數(shù)據(jù)吞吐量的要求不斷增加,需要計(jì)算節(jié)點(diǎn)訪問GB,甚至TB存儲數(shù)據(jù)并返回給存儲。無論是計(jì)算還是存儲,數(shù)據(jù)傳輸通常決定了系統(tǒng)的互連設(shè)計(jì)。使用Gb以太網(wǎng)和InfiniBand已經(jīng)司空見慣,10Gb以太網(wǎng)正在變得更加便宜,網(wǎng)絡(luò)帶寬同樣已經(jīng)在可用性和速度方面持續(xù)增加,而且延遲在不斷減少。
計(jì)算集群和帶寬增加可能需要大量的存儲和/或高性能存儲充分獲得計(jì)算和帶寬的潛能。隨著應(yīng)用程序產(chǎn)生和處理大量數(shù)據(jù)的增加以及集群中的每個(gè)主機(jī)需要統(tǒng)一訪問任一后端數(shù)據(jù),高性能存儲變得日益關(guān)鍵。
應(yīng)用程序需求驅(qū)動(dòng)了恰當(dāng)規(guī)模的計(jì)算集群(核心數(shù)量),網(wǎng)絡(luò)帶寬/延遲和存儲之間的相互依賴性。然而這使設(shè)計(jì)高性能計(jì)算系統(tǒng)成為一個(gè)挑戰(zhàn),促使靈活性的增加以便高性能計(jì)算系統(tǒng)可以調(diào)整以實(shí)現(xiàn)高性能并/或減少成本。集群的特點(diǎn)之一是精確的靈活性,提供組合組件創(chuàng)造更加有效的總體系統(tǒng)的可能性。存儲也不是例外,不同的應(yīng)用程序和工作負(fù)載產(chǎn)生不同的需求,可以通過恰當(dāng)?shù)拇鎯M件和解決方案的組合解決。高性能計(jì)算系統(tǒng)基本的數(shù)據(jù)時(shí)間軸有幾個(gè)離散階段。
1.為高性能計(jì)算應(yīng)用程序生成輸入數(shù)據(jù)。雖然工作任務(wù)的存儲性能需求可能不同,但是存儲的可靠性是必須的。如果丟失了應(yīng)用程序的輸出,你一般可能通過重新運(yùn)行應(yīng)用程序重建丟失的數(shù)據(jù)。然而,丟失輸入數(shù)據(jù)可能需要花費(fèi)大量時(shí)間和金錢重建,你甚至可能必須重做整個(gè)實(shí)驗(yàn)。
2.應(yīng)用程序執(zhí)行數(shù)據(jù)I/O以及輸出數(shù)據(jù)后處理/后分析。應(yīng)用程序執(zhí)行時(shí)讀取或?qū)懭霐?shù)據(jù)的初始階段關(guān)注和應(yīng)用程序的性能相匹配的I/O性能,以便任務(wù)在合理的時(shí)限內(nèi)完成。取決于吞吐量和IOPS需求,可能需要使用高性能的可擴(kuò)展性存儲系統(tǒng)。本階段的第二部分,應(yīng)用程序運(yùn)行后,輸出數(shù)據(jù)被存儲在一個(gè)可靠的存儲系統(tǒng)用于分析。假使I/O需求非常低,數(shù)據(jù)將被遷移回主存儲。在這種情況下,主存是可靠的存儲區(qū)域,通常被備份以防止硬件故障的發(fā)生。
3.歸檔數(shù)據(jù)。大多數(shù)用戶想通過將數(shù)據(jù)存儲在磁帶,磁盤或者磁帶和磁盤的組合可靠的在線歸檔數(shù)據(jù)。這樣做,解放了不間斷的應(yīng)用程序和工程的主存儲,如果應(yīng)用程序或用戶隨后請求數(shù)據(jù),仍然能夠保持?jǐn)?shù)據(jù)持續(xù)訪問。通常情況下歸檔存儲的容量請求比主存儲請求高更多,但是性能需求更低。
高性能計(jì)算處理的每個(gè)階段——創(chuàng)建輸入數(shù)據(jù),運(yùn)行應(yīng)用程序生成輸出并分析,歸檔結(jié)果——都有唯一的需求集合。伴隨著無處不在的成本壓力使單一的解決方案難于實(shí)現(xiàn)。