重復數據刪除技術明顯是對磁盤對磁盤備份技術的挑戰。上千的公司已給其備份環境實施了某種形式的重復數據刪除技術,并感到運行良好。重復數據刪除技 術可實現動態數據精簡,使公司實現在一個小型磁盤上保留備份數據的多個連續復本。隨著越來越多的完整備份數據被發送到系統,精簡比例進一步優化,這些復本 已可支持磁盤數據恢復。一個重復數據刪除系統(通常是一個設備或用途導向的存儲陣列)事實上僅僅是將磁帶庫擴容。其可提供時長為幾周的備份數據on- site復本,也有的可延長到幾個月,但是更長時間的則無法實現。
但是在實現了大部分的數據恢復需求之后,這些舊備份數據該用來做什么呢?
1,將其恢復,轉移到冗余文件夾中,再將那些數據集轉移到正式的檔案文件中嗎?
2,把這些數據刪除?因為這些文件已經完成了最初的使命——支持幾周或幾個月的數據恢復。
3,或者是,將這些數據保留?
對于大多數企業,答案是將這些數據保留,采用備份系統來管理一個檔案文件。盡管重復數據刪除技術使這種處理方式很具吸引力,采用備份系統長期存 儲數據存在如下缺點:數據安全、數據恢復和數據銷毀問題。
我們真正需要的是一個關注歸檔(archive-focused)的存儲系統,比如那些來自Permabit,仍可以壓縮或復制數據,但是也可 保留長期數據。備份和重復刪除的數據不提供數據加密,其未被鎖定以確保數據未經更改,數據無法通過文件或EMAIL的恢復來讀取,也無法在必要時被銷毀。
加密
必須對數據加以安全防護,這意味著應避免不必要的或無意識的數據存取。這通常意味著必須對數據加密。但重復數據無法加密,除非存儲器平臺將其整 合,這是因為分別加密確立了數據的唯一性,而唯一的無復本數據則不存在需要去除的重復數據。因此永久保存的備份數據是不能加密。
鎖定
除了給數據提供避免意外刪除或毀壞的保護,還有其他需要關注的問題。因為有調整和從規的需求,當前,IT管理人員必須使數據可用于法律發現。這 意味著數據可用于支持一個未了訴訟。但法律也需要確保這一數據在用于支持某一未了訴訟(例如監管鏈)前未經更改。驗證監管鏈未經更改的唯一方法是:將數據 轉移到一個WORM數據流中。不幸的是,大多數重復數據備份系統也不提供WORM功能。
恢復
正如上面提到的,數據存儲的新需求是構造特定數據以響應法律發現行為。存儲系統必須恢復指定時段內任何有問題的文件;否則就要交罰金。其次,歷 史數據應該可用于業務領域(例如趨勢分析和客戶預測程序),實現業務收益最優化。同樣,數據歸檔之后,以前的一個項目或許需要重啟或重新研究。關鍵在于, 如果數據值得在最初就保留,則其應該是可讀取并便于訪問的,而且不是備份軟件的專有格式(在未來的幾年中會發生改變)。
因為備份系統的目的是改進備份有效性,配置了重復數據刪除技術的備份系統將所有備份工作存儲在一起,通常是上千或幾十萬的文件,同時每一次恢復 都必須對所需文件進行重建。這與磁盤檔案(單一終端用戶訪問共享文件和復制其所需的文件不同)的功能不同。從管理員的角度看,采用備份系統進行長期存儲的 結果是搜索所需文件需要額外時間(從冗繁的文件中找出相關文件)。
現在的組織中,郵件系統事實上是一個歸檔系統。在資源不確定的情況下,由于郵件系統是按時間順序排列,因此被用于進行數據查詢。一些人甚至采用 郵件來存儲附件,這樣就不需要將其復制到共享文件中。當考慮到采用一個有重復數據刪除功能的備份系統來長期存儲郵件時,存取和恢復成為問題的關鍵。
由于郵件系統是一個大型數據庫,因此備份系統威脅著郵件系統(以Exchange為例)。將每一信息都作為獨立記錄進行存儲,并將指示器引到現 有的文件附件。其備份過程類似數據庫,但是存儲的數據信息量更大。進行消息級(Message-level)存儲需要一個特殊的模塊,并且還需要進行一個 更慢的備份過程,以將數據準備好進行小顆粒精確恢復。
實現數據使用最優化、減少備份循環的方法是實施郵件歸檔解決方案。這一解決方案用于發送獨立文件類型檔案中的信息和附件。如果配置了 Permabit Enterprise Archive或類似的檔案級解決方案,歸檔系統就成為了保存信息的唯一倉庫。這樣不僅效率提高,而且實現了對保留數據的管理。
銷毀
采用備份系統管理歸檔系統帶來了另一問題。實現一個數據集的從規和法律審慎意味著不僅僅要給法庭提供文件,也意味著可訪問文件的所有復本,這樣 他們即可適時銷毀文件。必須確保需要銷毀的文件已完全銷毀——文件及其復本均已徹底銷毀。
運行重復數據刪除技術的備份系統會有很多備份文件復本。而這些文件或許僅物理存在于一個位置。但由于文件是初次保存,因此仍在虛擬擴展到很多備 份中。眾多的冗余文件、虛擬復本,這使得重復數據刪除率在最初驚人地高。為了確保所有復本均已銷毀,每一項備份工作(以及工作涉及的文件)都必須在文件銷 毀之前找到,并全部銷毀。
采用備份結構進行長期存儲出現的另一個問題是隔離。由于備份任務都是整體寫入存儲系統,需要刪除的候選文件必須從備份任務的整體中隔離出來。這 意味著必須將備份任務恢復,之后才能刪除文件。一旦文件被刪除,必須將備份任務另存,以保存剩余文件。這是一個復雜的程序,
總結:
備份軟件最初的設計目的是進行數據備份,其次是進行數據恢復。備份系統假定數據是可存取、可更改的,并且不用于長期管理這些數據集合。當重復數 據刪除技術(數據被長期存儲)被用于備份系統,就帶來了一些問題。
在這些系統里,當數據老化移出或越過了其更改、恢復的界限,則應該在其成為候選刪除文件之前從備份系統中移出。對于已不屬于備份循環系統的數 據,應將其存儲在用途導向的歸檔存儲系統(采用軟件來長期管理應用軟件和多代技術的數據集)。這些系統可提供長期存儲所需的三種技術:數據安全,數據存取 和數據銷毀。