首先,我所定義的歸檔系統指什么?大型歸檔系統又指什么?歸檔系統指由所保存的信息組成的一個存儲庫,但里面的信息大部分不經常被訪問。
歸檔系統的定義最近出現了變化。就在僅僅三四年前,歸檔系統總是放在磁帶上,磁盤緩存容量很?。ㄍǔ2坏娇偞鎯θ萘康?%)。管理磁帶及/或磁盤上數據的軟件名為分層存儲管理(HSM)軟件,是35年多以前為大型機開發的。
而如今,我們使用基于磁盤的大型歸檔系統,通過網絡來備份數據。比如說,本人的辦公電腦和家用電腦都通過互聯網來備份,基于云的大型歸檔系統現在很常見。當然,這方面存在可靠性問題,但那是另一個話題了。
我給大型歸檔系統所下的定義很簡單:凡是SATA磁盤驅動器數量在2000個以上的,都是大型歸檔系統。如今,這個容量相當于約4PB(1PB=1015字節);明年等驅動器容量增加后,可能會達到8PB??紤]到2000個驅動器的預計故障率,我現在使用2000個驅動器作為歸檔系統。即便在需要2400個驅動器的RAID-6配置環境中,考慮到為單單一個應用系統管理那么多驅動器所需要的重構時間,也會面臨重大挑戰。
三種災難
有三種災難需要考慮:單個文件或單組文件的故障、元數據受損,以及我經常所說的“噴灑器錯誤”(sprinkler error)。
單個文件或單組文件的故障這個問題與計算機房的噴灑器壞掉,因而破壞所有設備全然不同。與全面性的災難(地震、颶風、雷擊、電源浪涌和噴灑器壞掉等)相比,一個文件或一組文件出現故障的可能性要大得多,而且常見得多;但是我在設計系統架構時,常常確保數據總是至少有兩個副本。而在大型歸檔系統中,考慮到萬一發生災難,需要從存儲系統重新復制數據,并確保數據完整性,兩個副本可能是不夠的。
發生元數據受損問題也不太可能,但確實會發生,而且發生的頻率比許多人所認為的還要高。元數據受損可能表現為文件系統元數據受損;或者,如果使用了重復數據刪除技術,表現為其中一個數據塊受損;要是不給予充分的保護,可能會變成一場災難。
當然,某個站點會對數據采取多大的保護力度,成本是決定性因素。許多廠商都在談論四個9(99.99%)、五個9(99.999%),甚至八個9(99.999999%)的可用性和可靠性。不過,如果你有數PB的數據,那么這個概念就需要重新考慮了。
下面這張表表明了基于可靠性方面9的數目而預計的數據丟失情況。
所以,如果是十個9的數據可靠性,又只有1PB數據,那么預計會丟失900,720個字節。因此,面對大型歸檔環境,必須重新考慮著眼于9的數目的數據可靠性。在一些數據保存環境下,不管什么原因丟失數據都是根本無法接受的。我在這種類型的環境中經常發現,當企業從模擬系統進入到數字系統后,一些管理人員不了解數據在數字介質上并非100%可靠;保有數字介質的多個副本其成本高于在書架上保有圖書,那是由于數據必須遷移到新介質上;要是數據沒有好多個副本,仍然不是100%可靠。
為基于磁盤和磁帶的歸檔系統支招
我建議針對大型歸檔系統,應采取下列數據保護策略和程序。除非另有說明,否則這些建議同時適用于基于磁盤的歸檔系統和基于磁帶的歸檔系統。
數據應同步復制到潛在災難區域之外的另一個場地,而且數據要經過驗證。比如說,假設你所在地出現了龍卷風,就應該復制到離所在地北邊或南邊至少100英里之外的地方——復制到至少500英里之外的地方,那就更安全,因為大多數龍卷風是沿往東或往西方向行進的。
確保有額外的糾錯碼(ECC)或校驗和可用,以便驗證數據。大多數HSM系統在磁帶上提供了按文件檢驗和(per-file checksums),但是大多數在磁盤上沒有這種校驗和。面向磁帶和磁盤的T10 DIF/PI等技術會在今年面市,許多廠商正在研制端到端的數據完整性驗證技術。按文件檢驗和正開始成為文件系統領域的一個常見討論話題,但是檢驗和糾正不了數據;它只能告訴你某個文件壞了。如果你想知道文件中哪個地方壞了,就需要文件中有糾錯碼(ECC)來檢測故障,最好能糾正故障。
就基于磁盤的歸檔系統而言,所有RAID設備都應該啟用“讀操作奇偶性檢驗”功能。一些RAID控制器支持這項功能,而另一些RAID控制器不支持。有些RAID陣列支持這項功能,但是會引起性能大幅下降。要是存儲系統里面的某個故障問題引起檢驗和失效,這項功能還提供了比單單擁有按文件檢驗和更高一級的完整性。讀操作奇偶性檢驗可以確保:及早發現RAID控制器上的數據塊故障,以免整個文件出現故障。
就基于磁帶的歸檔系統而言,有必要指出的是,數據并不是直接轉移到磁帶上,而是先轉移到磁盤上,然后通過HSM轉移到磁帶上。RAID設備同樣應該啟用讀操作奇偶性檢驗功能。
確保在硬件的所有方面針對軟錯誤和硬錯誤都進行了錯誤監測。軟錯誤最終會變成硬錯誤,還有可能會變成數據故障。應該趁軟錯誤還沒有變成硬錯誤,迅速解決掉。這對磁帶來說是個重大問題,因為自我監測、分析和報告技術(SMART)方面缺乏標準。
如果可能的話,定期保護和備份元數據,這包括文件系統的元數據和磁盤上數據的HSM元數據;因為萬一出現故障,企業不必恢復所有數據,就可以恢復元數據。如果元數據和數據在文件系統中分開存放,那么這一步效果要好得多,也要容易得多。
定期驗證按文件校驗和。對于大型歸檔系統來說,考慮到所需要的處理器、內存和I/O帶寬,這成了一個重大的架構問題。
為基于磁盤的歸檔系統和基于磁帶的歸檔系統作災難恢復規劃大同小異。有一些技術不同,但關鍵還是在于定期驗證,防備可能出現的災難。而太多的企業在大型歸檔系統方面沒有投入足夠的資金,還沒有預計到數據會丟失。如果你有一個50PB大小的歸檔系統,又只有一個復制站點,假設你因某個災難而丟失了歸檔系統,那么當你重新復制站點內容時,幾乎肯定會丟失數據。介質方面的硬錯誤率是沒法回避的。
原文鏈接:http://www.searchstorage.com.cn/showcontent_45918.htm