數(shù)據(jù)量的爆炸性增長,讓我們不得不更加關(guān)心存儲。這也造成了目前談?wù)?ldquo;數(shù)據(jù)挖掘”、“知識管理”等話題更容易引起共鳴。現(xiàn)在所說的存儲,并非是 簡單的“存”和“儲”的含義,不是把數(shù)據(jù)放在角落里就萬事大吉的。更重要的是,我們要通過這些數(shù)據(jù),進一步產(chǎn)生價值,提升企業(yè)業(yè)務(wù)能力,增加效益。這時 候,“存儲”就演變成了更多的其他含義。比如“備份”、“數(shù)據(jù)歸檔”、“數(shù)據(jù)保護”、“數(shù)據(jù)挖掘”等等。那么在這些“存儲”的替代名詞之中,目前哪個是業(yè) 界談?wù)撟疃嗟哪?“數(shù)據(jù)歸檔”當屬其一。為什么這么說?是有充足理由的。
備份與數(shù)據(jù)歸檔 即分散又統(tǒng)一
存儲網(wǎng)絡(luò)工業(yè)協(xié)會(SNIA)是如何解釋數(shù)據(jù)歸檔的呢?SNIA在《網(wǎng)絡(luò)存儲雙語詞典》中的解釋是——Archive(數(shù)據(jù)歸檔)是指數(shù)據(jù)集合 的一致性拷貝,通常用以長期持久地保存事務(wù)或者應(yīng)用狀態(tài)記錄。一般情況下,數(shù)據(jù)歸檔通常用以審計和分析的目的,而不是用于應(yīng)用恢復(fù)的目的。
上面的解釋太術(shù)語了,不好理解,那么我們可以用備份和數(shù)據(jù)歸檔作一下對比,因為備份是很多人容易理解的名詞。備份和數(shù)據(jù)歸檔都是數(shù)據(jù)存儲的應(yīng)用 形式,只是應(yīng)用目的不同。
先來看看備份,其實就是對數(shù)據(jù)進行復(fù)制,是為了確保在出現(xiàn)數(shù)據(jù)丟失或系統(tǒng)災(zāi)難時將復(fù)制的數(shù)據(jù)恢復(fù)回來。因此備份關(guān)注的是業(yè)務(wù)信息的變化和更新, 是短期的存儲行為,并且經(jīng)常被覆蓋。比如銀行每天要備份交易記錄。
根據(jù)備份的解釋再來看數(shù)據(jù)歸檔就很好理解了。數(shù)據(jù)歸檔是針對“海量數(shù)據(jù)”的應(yīng)用,是對數(shù)據(jù)進行有計劃的遷移。當數(shù)據(jù)停止改變或不被頻繁使用時, 通過數(shù)據(jù)歸檔把它們轉(zhuǎn)移到別的地方,讓出主存儲空間,并且使之處于日常的備份窗口之外,既節(jié)約了空間,又提升了備份的效率。
那么根據(jù)上面的解釋,如果再簡化來說,那就是“Ctrl+C”和“Ctrl+X”的區(qū)別,備份是復(fù)制,數(shù)據(jù)歸檔是剪切。當然,這只是為了方便理 解的比喻,其實里面的玄機還是很多的。
備份和數(shù)據(jù)歸檔雖有區(qū)別但又互相聯(lián)系。只要涉及到數(shù)據(jù)歸檔必然會有數(shù)據(jù)備份的需求,并且兩者都是對存儲設(shè)備進行操作,因此它們完全可以基于同一 技術(shù)體系來實現(xiàn)。所以我們看現(xiàn)在的主流存儲廠商推出的都是“數(shù)據(jù)管理軟件”,既能備份,又可以數(shù)據(jù)歸檔,大有“分而合之”之意。目前,備份和數(shù)據(jù)歸檔常常 放在一起考慮,統(tǒng)稱BURA (BackUp, Restore, Archive)。兩者相似之處都是用復(fù)制來保護重要數(shù)據(jù)不被損壞或丟失。常見的BURA解決方案是D2D2T,就是Backup Disk to Disk, then to Tape。這樣滿足了對備份速度的要求,也滿足了對大容量長保存時間的數(shù)據(jù)歸檔要求,平衡了各方面的需求。
廠商推出的軟件既然如此,那么企業(yè)對數(shù)據(jù)歸檔與備份的需求也是分不開的。對企業(yè)而言,備份和數(shù)據(jù)歸檔具有兩種不同但互補的功能:備份用于快速復(fù) 制和恢復(fù),以減少故障、人員錯誤或災(zāi)難帶來的影響;數(shù)據(jù)歸檔則用于對數(shù)據(jù)進行有效的管理、保留和長期的訪問與檢索。企業(yè)可以將數(shù)據(jù)歸檔和備份結(jié)合起來用, 以達到優(yōu)化成本、改進存儲基礎(chǔ)設(shè)施的整體效力,使備份能夠在有效的數(shù)據(jù)歸檔解決方案下變得更有效率,而數(shù)據(jù)歸檔也可以利用備份基礎(chǔ)設(shè)施滿足數(shù)據(jù)保護需要。
需求飆升 容量左右應(yīng)用
隨著數(shù)據(jù)量的爆炸性增長,數(shù)據(jù)歸檔的需求明顯增多。IDC在發(fā)布《2007年第三季度全球存儲軟件市場收入》時,其存儲軟件分析師 Michael Margossian曾說到:“整個市場受到數(shù)據(jù)歸檔和數(shù)據(jù)保護與恢復(fù)軟件市場強勁需求的推動。企業(yè)對備份軟件的需求似乎有所降溫,對數(shù)據(jù)歸檔軟件的需求 逐漸抬頭。”
那么對于企業(yè)來說,在當前的市場競爭環(huán)境中,需要增加數(shù)據(jù)分析能力以提升競爭力非用“數(shù)據(jù)歸檔”不可。比如我們查詢每月電話費,目前只能查到6 個月之內(nèi)的費用。而一年前的話費呢?并非電信部門將此數(shù)據(jù)刪除了,只是沒有讓其顯示給用戶。這些更久遠的數(shù)據(jù)是被“數(shù)據(jù)歸檔”了,但是又可以供電信部門隨 時查看。當電信部門需要分析話費,進而推出新業(yè)務(wù)時,就會從數(shù)據(jù)歸檔數(shù)據(jù)中調(diào)出這些“年代久遠”的數(shù)據(jù)來。國內(nèi)一家制造領(lǐng)域大型企業(yè)CIO的感觸也十分 “直白”。他認為,“讓數(shù)據(jù)賺錢,比讓數(shù)據(jù)省錢來的更加有價值。”這也表明了,數(shù)據(jù)歸檔比備份來說,更容易幫助企業(yè)提升競爭力。
可以說,數(shù)據(jù)歸檔是在企業(yè)實施備份方案后的進一步對數(shù)據(jù)的梳理。為什么說是在備份基礎(chǔ)之上的升華呢?因為沒有備份數(shù)據(jù)的情況下,誰敢“剪切”。 所以備份是前提,數(shù)據(jù)歸檔是提升。而且數(shù)據(jù)歸檔也比備份的前提條件要求更多。首先就是容量的要求,一般量級都是在TB級甚至PB級。對于不到TB級存儲量 的企業(yè)來說,與其采用數(shù)據(jù)歸檔,還不如直接加大磁盤容量來的實際。比如佛山伊戈爾這家致力于向全球市場提供電源變壓器、電力變壓器和變壓器鐵芯組件的專業(yè) 供應(yīng)商,其IT部門負責人歐建文在接受記者采訪時介紹道:“在容量方面,佛山伊戈爾郵件數(shù)據(jù)庫120GB、工程資料文件70GB、一般應(yīng)用系統(tǒng)SQL數(shù)據(jù) 庫120GB、Oracle數(shù)據(jù)庫及應(yīng)用有170GB,總共480GB的數(shù)據(jù)量。由于數(shù)據(jù)量不大,我們確實對數(shù)據(jù)歸檔技術(shù)沒有需求,只是使用了備份功 能。”
但并不意味著現(xiàn)在沒有應(yīng)用數(shù)據(jù)歸檔技術(shù)的企業(yè)對這項技術(shù)就不關(guān)心。比如2007年,SNIA完成了一項全面調(diào)查,該調(diào)查涉及了來自世界各國各種 組織的數(shù)百人。令人驚訝的是,80%的人說他們的信息必須保存50年以上,68%的人說他們的數(shù)據(jù)必須保存100年以上。這樣保存數(shù)據(jù)的話,容量增長可想 而之。所以佛山伊戈爾也看到了這種數(shù)據(jù)爆炸增長的趨勢,在制定未來3年IT建設(shè)規(guī)劃時,“數(shù)據(jù)歸檔”已經(jīng)躍然紙上。歐建文對記者說:“目前數(shù)據(jù)歸檔技術(shù)已 經(jīng)排在佛山伊戈爾未來3年內(nèi)應(yīng)用的日程上了,未來會首先在ERP、財務(wù)信息和郵件方面應(yīng)用數(shù)據(jù)歸檔。”
ILM解決數(shù)據(jù)歸檔難題
雖然數(shù)據(jù)歸檔的需求正在逐步崛起,但是擺在我們面前的難題其實還有很多。其中最主要的有兩個難點:數(shù)據(jù)長期保留和法規(guī)遵從。數(shù)據(jù)保留的時間遠遠 超過存儲系統(tǒng)(磁盤或磁帶)和應(yīng)用程序的壽命。對于長期數(shù)據(jù)歸檔(15 年以上),最大的挑戰(zhàn)是邏輯遷移。邏輯遷移保持了應(yīng)用程序的特定性,自動化主要流程變得更困難。完整“保存”需要保持數(shù)據(jù)的可讀性和可解釋性。
在法規(guī)遵從方面,隨著越來越多的商務(wù)運作采用數(shù)字方式進行記錄和存儲,制定用以管理商務(wù)和數(shù)據(jù)的相關(guān)法律法規(guī)越來越多,未能遵從這些法規(guī)而造成 的后果也變得越來越嚴重。除遵從政府的規(guī)范法規(guī)之外,組織還需要制定自己的內(nèi)部政策和規(guī)程,緩解風險和控制 IT。層層的法規(guī)遵從給數(shù)據(jù)歸檔增加了難度。
目前在磁盤或磁帶上做備份、數(shù)據(jù)歸檔,每隔3~5年就需要遷移一次數(shù)據(jù)(同時在物理上和邏輯上)。物理遷移需要將信息從一個物理存儲系統(tǒng)移到另 一個系統(tǒng),或從一種介質(zhì)格式移到另一種格式以維持物理可讀性、可訪問性和完整性。邏輯遷移需要將信息從一種邏輯格式移到另一種格式(如從應(yīng)用程序的舊版本 移到新版本),以保持可讀性和可解釋性。所以,對于上面提到的SNIA調(diào)查得出的結(jié)論,“絕大部分人希望數(shù)據(jù)保存50年甚至100年”,那么存儲于磁帶, 則要面臨讀取困難和保存時間不夠長這樣的問題。簡而言之,我們需要保留信息的時間遠遠超過存儲系統(tǒng)(磁盤或磁帶)和應(yīng)用程序的典型生命周期。甚至保留期還 沒到,物理介質(zhì)就開始退化,變得無法讀取。
那么有沒有什么方法,既可以長久保留數(shù)據(jù),又可以增加容量,還能快速讀取數(shù)據(jù)呢? SNIA長期數(shù)據(jù)歸檔和法規(guī)遵從存儲計劃 (LTACSI) 主席、NetApp全球?qū)嵺`總監(jiān)Gary Zasman給出的建議是:針對應(yīng)用程序、操作及數(shù)據(jù)存儲庫實施正式生命周期管理流程,以在使用壽命中解決數(shù)據(jù)管理的效率問題。
目前,在數(shù)據(jù)歸檔中應(yīng)用ILM(Information Lifecycle Management,信息生命周期管理)的理念已經(jīng)逐步被用戶接受,這不僅能幫助企業(yè)從整體上改善其數(shù)據(jù)資產(chǎn)的管理,以最低的成本來實現(xiàn)大量數(shù)據(jù)的有效 管理與高效利用。并且隨著應(yīng)用的成熟與現(xiàn)實的需求,數(shù)據(jù)加密、身份認證、虛擬化等技術(shù)也逐步走進數(shù)據(jù)歸檔的應(yīng)用中,并且有效地提高了數(shù)據(jù)歸檔應(yīng)用的效率, 增強了數(shù)據(jù)安全性,大大降低了操作的復(fù)雜性和成本。
數(shù)據(jù)歸檔技術(shù)走向何方
一個好的存儲數(shù)據(jù)歸檔系統(tǒng)可以幫助企業(yè)實現(xiàn)以下目標:降低保留歷史數(shù)據(jù)的成本;更有效和快捷地對歷史數(shù)據(jù)訪問和利用;減少保護和維護信息所需的 人力管理成本;保護數(shù)據(jù)歸檔數(shù)據(jù)的安全性。但是對于數(shù)據(jù)的讀取,數(shù)據(jù)歸檔現(xiàn)在還不能做到盡善盡美。比如我們現(xiàn)在拿起一本100年前的書,可以毫不費力地進 行閱讀,而幾年前的備份磁帶,讀取可能要困難得多。即使有正確的硬件來讀取磁帶(且磁帶本身仍然完好),我們還是需要知道磁帶的寫入格式,且需要可以識別 此數(shù)據(jù)的應(yīng)用程序。
在IT應(yīng)用早期,磁盤陣列不像今天這么發(fā)達,磁帶庫是主要的備份技術(shù)。如今,硬盤越來越便宜,不僅磁帶在備份中的應(yīng)用減少了,甚至有人提出用磁 盤陣列來做數(shù)據(jù)歸檔,全面取代磁帶庫。但是,由于磁盤陣列的技術(shù)特性所決定,存儲在其中的資料都處在熱狀態(tài)。這就是說,用于數(shù)據(jù)歸檔的磁盤存儲系統(tǒng)不應(yīng)該 關(guān)機,其重新加電的過程也很復(fù)雜。而在提倡“綠色計算”的今天,長期開機很不利于能耗的降低。而且,幾十年、上百年的資料,使用頻度不一定很高,磁盤和磁 帶相比,成本效益就更加懸殊。所以說,對于數(shù)據(jù)歸檔來說,磁帶庫仍然是不可替代的最佳選擇。
為了更快更方便地讀取數(shù)據(jù),數(shù)據(jù)歸檔的理想方案應(yīng)該是VTL(虛擬磁帶庫)。VTL通常具有幾個重要優(yōu)點,同其他D2D解決方案一樣,它們在本 質(zhì)上比磁帶更可靠,并且不會出現(xiàn)介質(zhì)錯誤、機械故障或起停問題。虛擬磁帶機和介質(zhì)如果使用穩(wěn)定,則不會磨損;它們也不需要清潔和維護。最重要的是,與物理 磁帶庫相比,企業(yè)VTL可以使數(shù)據(jù)歸檔的性能提高一個數(shù)量級。不過VTL雖然性能出眾、又具有管理便捷的優(yōu)勢,但是其成本依然是一道難以逾越的門檻,這讓 很多有數(shù)據(jù)歸檔需求用戶不得不望VTL興嘆。