1980年,當Bill Fost先生苦思冥想在為新公司取個什么名字的時候,無意間看到了飛機外層層疊疊的云層,由此“Stratus”誕生了。但是Bill Fost沒有想到,1990當他們注冊北京辦事處的時候,竟然可以使用“美國容錯計算機公司”,這種用技術術語命名公司的現象,此后再也沒有出現過。不知道國內有多少用戶知道 “美國容錯計算機公司”,進而了解容錯技術,但是相信,這幾年數量有限與很多技術領先型公司相類似,“酒香不怕巷子深”是其風格,市場上的低調在一定程度上制約了發展。
容錯的含義比較寬泛,這種不確定性容易引發歧義,增加理解上的難度。從概念上來說,容錯是指服務器對于錯誤的容納能力,是應用過程中對于服務器穩定性追求的一個目標。為了這樣一個目標,有幾種技術上的實現方法,目前國內談論最多的是三種:服務器群集技術、雙機冗余服務器方案和單機容錯技術。
實際上,服務器群集和雙機冗余的技術比較類似,雙機冗余是最簡單的集群,是其一個特例,也可以把服務器集群技術視為雙機冗余的延伸,可以理解為一種多機容錯的方案。在一般的討論之中,集群技術是為了解決計算性能不足的問題,通過多臺服務器的集群計算,為高性能計算領域應用提供所需要的高性能。采用集群技術,通過多臺服務器之間的負載均衡,可以解決服務器單點故障所引發的系統不穩定,提高系統的可靠性,因此集群具有更好的容錯能力,但是在實際的應用中,集群技術多用于高性能計算。
單機容錯技術以Stratus公司的ftServer、惠普公司的NonStop服務器和NEC公司的Express5800/ft為代表。這種技術具有比雙機冗余方案更高的容錯能力。據記者查閱有關技術資料,雙機冗余系統的可靠性可以達到99.9%,也就是3個9的能力,而Stratus公司的方案,其可靠性可以達到5個9。在記者的采訪中,惠普公司企業服務器產品經理陳武勝表示,其NonStop服務器作為目前惠普公司最高檔的服務器,其可靠性可以達到7個9的水平。在記者看來,雙機冗余與單機容錯有很多的差異,絕不是3個9和5個9的區別。為了了解這些區別,記者分別采訪了有關軟硬件廠商,并結合實際的應用案例,幫助讀者了解有關容錯服務器的技術。
產品技術篇之一 “沒有錯誤”的容錯服務器技術
單機容錯技術是我們為了區別雙機冗余技術對Stratus等容錯服務器的稱謂,但是在我的采訪中,有關服務器廠商都不愿意采用這個稱謂,他們更愿意采用容錯服務器,因為單機只是一個表現形式,并不能準確表達其技術的特征。IDC資詢師將這種技術稱之為“沒有錯誤”的容錯服務器技術。
容錯與同步技術
美國容錯公司技術顧問高峰在接受記者采訪時表示,容錯服務器的技術并不難理解,計算機自誕生之日起,其系統結構并沒有發生任何改變,仍然是馮諾依曼教授所提出的由運算器(CA)、控制器(CC)、存儲器M和輸入/輸出裝置所組成,而容錯服務器的思路就是把所有這些部件全部采用冗余硬件設計。兩個部件共運行同一個任務,以此來提高系統的運行可靠性。
這種思路和方法在其他服務器產品中也有采用,據富士通公司首席技術官周一平介紹,富士通PRIMEQUEST服務器就采用了這種方法,該服務器采用英特爾安騰2處理器,富士通把很多大型機和 Unix小型機的技術進行了遷移。例如把處理器、內存和PCI總線進行冗余設計,使系統具有高的可靠性。
高峰表示,這種冗余硬件的設計并不難理解,但是最為困難的是如何保證計算和數據在硬件中的同步,這是Stratus核心的專利技術。在Stratus容錯服務器中,它被稱為同步(Lockstep)技術,在惠普的NonStop服務器中被稱為鎖步技術。
安騰還是x86
容錯服務器另外一個需要關注的焦點是處理器。據陳武勝介紹,目前惠普的NonStop服務器分為兩個系列:NonStop S和Integrity NonStop,其產品的差別在于所采用處理器芯片不同,NonStop S所采用的是MIPS芯片,是收購原美國天騰公司的產品,而Integrity NonStop所采用的是英特爾安騰2處理器。
陳武勝表示,除了處理器的差別之外,新的Integrity NonStop具有很多新的設計,例如采用3部件的冗余設計,此外系統總線也有很大改進,因此其可靠性才能夠達到7個9的水平。他指出,目前安騰2芯片已經內置了Lockstep同步技術,在芯片級提供了系統容錯設計的能力。而此前處理器芯片不具備這樣的能力,就需要通過外部結構設計來解決同步的問題。據了解,Integrity NonStop可以進一步分為NS1000、NS14000和NS16000,分為入門級、中高端和最高端服務器產品,其中最高端的NS16000服務器,其每個服務器的節點采用2~16個安騰2處理器。這些處理器節點通過惠普公司獨特的ServerNet進行連接,可以提供多達4080個處理器計算能力。
在Stratus公司的產品中,更加強調容錯的能力。據高峰介紹, ftServer已經是該公司第四代產品系列,此前先后經歷過Motorola M68000、Intel I860芯片、HP PARISC等不同處理器,以及VOS專有操作系統等階段。目前第四代產品采用基于x86結構的Intel 處理器,其W系列最高的6600可以實現基于容錯的4路雙核處理器的計算。高峰表示,Stratus將會在今年發布基于8路的容錯服務器產品。
高峰表示,容錯服務器選擇哪種處理器的關鍵還是要根據應用的需求。安騰處理器采用了全新的64位計算架構,需要配合主機級的NonStop操作系統。與之相比,x86架構應用比較普遍,用戶軟件無須要進行二次開發。Stratus公司之所以采用Linux、Windows等通用的平臺代替專用的VOS操作系統,就是為了降低容錯服務器的應用成本。
“無解”的軟件故障
容錯服務器通過硬件部件的冗余設計,以及同步技術的保證,可以有效解決因為硬件原因所造成的系統故障,但是并不能解決軟件故障。
高峰表示,雖然在理論上存在著兩個相同部件同時損壞的情況,但是隨著硬件水平的提高,這種概率是比較低的。高峰表示,容錯硬件的設計一方面可以防止硬件的單點故障,同時也可以防止硬件所造成的計算錯誤,并對此做出校正。從技術的角度來看,所有軟件在硬件看來就是0和1,但是在某些情況下,硬件會產生不穩定,造成非0非1的中間狀態,就會產生計算的錯誤,這種錯誤并不一定導致系統宕機,其錯誤不易被察覺。
在容錯服務器中,由于采用冗余部件同時運行同一應用任務,這樣當兩個系統產生不一樣計算結果的時候,系統就會察覺,并通過技術手段對于計算錯誤進行校驗,從而提高應用的準確性。但是如果是軟件本身的問題,無論是操作系統還是應用軟件,那么容錯服務器沒有辦法對于這種錯誤進行修整。因為對于容錯服務器而言,硬件所能夠辨別的就是0和1,至于0和1所蘊含的軟件邏輯,硬件無從辨別。高峰表示,軟件的問題只能夠通過軟件的方法加以解決。有些用戶對此存在一些誤解,認為容錯服務器不會宕機,實際上容錯服務器只能夠解決硬件的故障。
關于容錯服務器應用,記者也采訪了NEC技術經理黃后生,他表示,選擇容錯服務器的意義在于為關鍵業務應用提供可靠的硬件平臺。黃后生表示,用戶為追求系統可靠性,往往會選擇小型機,但這會增加成本,同時也對企業的技術人員提出了比較高的要求。但是選擇容錯服務器沒有這樣的要求,可以使用他們比較熟悉的Windows平臺或者Linux平臺。
黃后生表示,目前NEC的Express5800/ft服務器在原理上與Stratus非常類似,兩家公司在技術上有著戰略合作,共同開發有關容錯服務器的相關技術。目前NEC是Stratus公司的投資股東,持有 Stratus公司部分股票。在全球服務器市場上,NEC位列前5強,具有豐富應用和推廣的經驗,以及雄厚的市場推廣能力。在技術支持和服務方面,NEC 已經建立了非常好的渠道,這些優勢都有助于容錯服務器在中國的應用和推廣。
共2頁: 1 [2] 下一頁 | ||
|