由于能夠降低成本,重復(fù)數(shù)據(jù)刪除技術(shù)是目前存儲市場上最炙手可熱的技術(shù)之一。但是它又有多種形式,如果企業(yè)想要從中選擇最適合自己的一種重復(fù)數(shù)據(jù)刪除技術(shù),對每一種都得有所了解。
重復(fù)數(shù)據(jù)刪除技術(shù)的工作原理是,分析數(shù)據(jù)集或字節(jié)流,只存儲及/或只發(fā)送不重復(fù)的數(shù)據(jù);重復(fù)數(shù)據(jù)由指向第一次出現(xiàn)的數(shù)據(jù)的指針來取代。一些IT專業(yè)人士認(rèn)為,重復(fù)數(shù)據(jù)刪除和單實(shí)例存儲(SIS)是一回事,但其實(shí)并非如此。兩者的主要區(qū)別在于,SIS在文件層面分析數(shù)據(jù)流,所以如果用戶重命名了一個文件,SIS會將該文件視作新文件,因而再次存儲;如果使用重復(fù)數(shù)據(jù)刪除技術(shù),文件的全部內(nèi)部內(nèi)容會被視作是重復(fù)內(nèi)容。因而,SIS節(jié)省的存儲空間比較小。
數(shù)據(jù)經(jīng)過所有重復(fù)數(shù)據(jù)刪除技術(shù)處理后,最終在磁盤上所占的空間小得多,但實(shí)現(xiàn)的方法大不相同。兩種很流行的方法分別是固定塊長度和可變塊長度;如果采用后者,重復(fù)數(shù)據(jù)刪除引擎可以改變塊大小,并且能識別更多的重復(fù)模式,因而減小了所存儲的數(shù)據(jù)量,并增加了節(jié)省的空間。嵌入式重復(fù)數(shù)據(jù)刪除技術(shù)(inline deduplication)和處理后重復(fù)數(shù)據(jù)刪除技術(shù)(post-process deduplication)也有不同的優(yōu)缺點(diǎn)。如果采用嵌入式重復(fù)數(shù)據(jù)刪除,數(shù)據(jù)在存儲到磁盤上之前,先經(jīng)重復(fù)數(shù)據(jù)刪除處理;這種方法不需要有任何額外的磁盤空間以便在重復(fù)數(shù)據(jù)刪除之前存儲數(shù)據(jù),但是存在以下缺點(diǎn):
•延長了完成備份所需的時間,導(dǎo)致在辦公時間備份窗口比較長,并降低了性能,另外由于前一個備份任務(wù)仍在進(jìn)行,所以無法開始下一個備份任務(wù);
•缺乏靈活性,無法允許重復(fù)數(shù)據(jù)刪除處理效果不好的數(shù)據(jù)保持非重復(fù)數(shù)據(jù)刪除的狀態(tài);
•常常迫使用戶為了恢復(fù)單單一個文件而將整個備份內(nèi)容“還原”,因而減慢了恢復(fù)速度。
如果采用處理后重復(fù)數(shù)據(jù)刪除技術(shù),經(jīng)重復(fù)數(shù)據(jù)刪除處理之前,備份內(nèi)容暫時放在基于磁盤的緩存存儲器(staging storage)上;一些技術(shù)允許在緩存了一定數(shù)量的數(shù)據(jù)流后,開始進(jìn)行重復(fù)數(shù)據(jù)刪除處理,這降低了對緩存存儲器大小的要求,同時允許備份盡快完成。
所以,雖然處理后重復(fù)數(shù)據(jù)刪除技術(shù)需要額外的磁盤空間用于緩存存儲區(qū),但它能夠加快備份速度,縮小備份窗口,允許對重復(fù)數(shù)據(jù)刪除處理效果不好的數(shù)據(jù)不進(jìn)行重復(fù)數(shù)據(jù)刪除處理,而且提供了更快的恢復(fù)速度。
重復(fù)數(shù)據(jù)刪除在源/客戶端或目標(biāo)/存儲器上進(jìn)行。源端重復(fù)數(shù)據(jù)刪除(source-side deduplication)通常使用位于客戶端的重復(fù)數(shù)據(jù)刪除引擎,該引擎會對照集中放置的重復(fù)數(shù)據(jù)刪除索引來查找重復(fù)內(nèi)容,而這個索引通常放在備份服務(wù)器或媒體服務(wù)器上;只有不重復(fù)的塊才會被傳送到磁盤上。
源端重復(fù)數(shù)據(jù)刪除的優(yōu)點(diǎn)在于,它減少了爭奪網(wǎng)絡(luò)資源的現(xiàn)象,因?yàn)橥ㄟ^網(wǎng)絡(luò)傳送的數(shù)據(jù)比較少。
不過,如果采用源端重復(fù)數(shù)據(jù)刪除技術(shù),用戶就要為客戶端添加散列算法,這是需要大量占用處理器資源的一種算法。這意味著,原本就在超負(fù)荷運(yùn)行的客戶端會變得更不堪重負(fù),可能會導(dǎo)致備份速度減慢、備份窗口延長。
目標(biāo)端重復(fù)數(shù)據(jù)刪除(target-side deduplication)一般更適合數(shù)據(jù)密集型環(huán)境,在存儲器層面進(jìn)行重復(fù)數(shù)據(jù)刪除處理,因而不需要功能足夠強(qiáng)的客戶端,因?yàn)樯缮⒘兄档墓ぷ髟谀繕?biāo)這一層進(jìn)行。缺點(diǎn)是,更多的數(shù)據(jù)將通過網(wǎng)絡(luò)來發(fā)送。
不同廠商提供的不同解決方案對進(jìn)行重復(fù)數(shù)據(jù)刪除處理的時間和地點(diǎn)進(jìn)行了混合搭配:比如說,一種解決方案可能在源端開始進(jìn)行嵌入式重復(fù)數(shù)據(jù)刪除,另一種解決方案可能在目標(biāo)端開始處理后重復(fù)數(shù)據(jù)刪除。
評估重復(fù)數(shù)據(jù)刪除技術(shù)時要考慮的最后一個標(biāo)準(zhǔn)就是,確定數(shù)據(jù)保留多長時間;分析的數(shù)據(jù)越多,發(fā)現(xiàn)重復(fù)數(shù)據(jù)的可能性就越大,因而節(jié)省的空間就越大。比如說,一個初始的完整備份將只對照自己來進(jìn)行重復(fù)數(shù)據(jù)刪除;但是當(dāng)?shù)?周的完整備份執(zhí)行完畢后,只有自第1周以來被更新或被添加的不重復(fù)數(shù)據(jù)才會存儲起來。對備份內(nèi)容進(jìn)行重復(fù)數(shù)據(jù)刪除處理時,此后每周的備份內(nèi)容會保留起來,占用數(shù)量減少的額外磁盤空間,從而讓企業(yè)可以在現(xiàn)有數(shù)量的存儲器上存儲更多個備份,保持一段更長的時間,幾乎不需要從異地存儲器來恢復(fù),除非整個站點(diǎn)出現(xiàn)了故障。
那么,總的說來,用戶在規(guī)劃重復(fù)數(shù)據(jù)刪除策略時應(yīng)該考慮哪些方面?他們的目標(biāo)將影響應(yīng)該評估哪些重復(fù)數(shù)據(jù)刪除技術(shù)。
以下是重復(fù)數(shù)據(jù)刪除技術(shù)方面的一些典型目標(biāo)和考慮因素:
•最大限度地節(jié)省磁盤空間;
•重復(fù)數(shù)據(jù)刪除節(jié)省的磁盤空間比SIS更多;
•可變塊重復(fù)數(shù)據(jù)刪除技術(shù)節(jié)省的磁盤空間比固定塊重復(fù)數(shù)據(jù)刪除技術(shù)更多;
•嵌入式重復(fù)數(shù)據(jù)刪除技術(shù)降低了對磁盤空間的要求;
•源端重復(fù)數(shù)據(jù)刪除技術(shù)可以增加節(jié)省的磁盤空間;
•經(jīng)重復(fù)數(shù)據(jù)刪除處理后的數(shù)據(jù)保留更長時間,這允許用戶在同樣容量的磁盤存儲器上存儲更多個備份,保留更長的時間;
•最大限度地提高靈活性;
•處理后重復(fù)數(shù)據(jù)刪除技術(shù)提供了這種功能:讓重復(fù)數(shù)據(jù)刪除處理效果不好的數(shù)據(jù)可以保持非重復(fù)數(shù)據(jù)刪除的狀態(tài),確保了寶貴時間和處理功能沒有浪費(fèi)在不會得益于重復(fù)數(shù)據(jù)刪除的數(shù)據(jù)上;
•如果采用處理后重復(fù)數(shù)據(jù)刪除技術(shù),恢復(fù)速度更快;
•處理后重復(fù)數(shù)據(jù)刪除技術(shù)允許用戶在成本最多低至硬件存儲器十分之一的現(xiàn)有存儲器上存儲數(shù)據(jù);
•更短的備份窗口;
•可以將處理后重復(fù)數(shù)據(jù)刪除安排在備份窗口之外進(jìn)行;
•目標(biāo)端重復(fù)數(shù)據(jù)刪除技術(shù)不會沒有必要地延長備份窗口。
重復(fù)數(shù)據(jù)刪除技術(shù)可以讓用戶大幅節(jié)省時間、人力資源,當(dāng)然還有預(yù)算。
雖然這項(xiàng)技術(shù)在不斷發(fā)展,但如今市面上已經(jīng)有幾款成熟可靠的解決方案。如果企業(yè)選擇了滿足其自身要求的合適產(chǎn)品,就會發(fā)現(xiàn),過去很少有哪項(xiàng)存儲技術(shù)像重復(fù)數(shù)據(jù)刪除技術(shù)這樣可以給自己的數(shù)據(jù)中心帶來如此重大的作用。