談到所有的存儲功能,除了歸檔數據存 儲系統。現在讓我們來看看供應商如何將這些功能作為解決方案展示給IT經理,并將之置于數據需求之列。
我們上次沒有講到的系統之間的一個關鍵差異是效率。大部分企業數據庫的數據流量在增長,卻缺乏控制,甚 至無法控制,而資金、電量和數據中心空間都是有限的資源,因此數據庫對這些資源的利用率必須提高。
供應商采用多種方式來提高其數據歸檔解決方案的效率。數據縮減技術如壓縮、單一實例存儲 (singleinstancestorage)和大部分功能強大的sub-file重復數據刪除技術,這使得供應商可將30lbs的數據裝入10lb的 數據歸檔。在不使用Spinning disk時,將其關閉,無論供應商將其稱為MAID(Copan,Nexsan)或是HDS,其可將1TB驅動器的能源消耗從7.5W減少至不到1W.
但即使這些驅動器都停止運行,MAID系統仍要消耗大于等于其正常運行時30%的電量,因為在低負載 時,電力供給效率變低。處理器在處于空轉狀態時仍有電力消耗,而空轉存儲器與一個采用最新級別EnergyStar的空轉服務器處理器(消耗電量為 55W)相比,也好不到哪去。
數據歸檔存儲的最簡系統,我稱之為上鎖的NAS(lockedNAS)。供應商包括NetApp和 Sun公司已經擴展了其文件系統和NAS操作系統以將保持執行力加進來。他們是仿效了NetApp公司對SnapLock的命名方式,將最新改進技術的日 期加到設備壽命的末尾,打上“只讀”的旗號。這一系統將在壽命期結束時對只讀部分進行重設。
Locked NAS是一般系統,但是缺乏上次我所提到的一些其他功能。
而NetApp文件編檔員核查每個有眾多雜亂信息的數據塊的完整性,這并非在后臺運作,在發現問題時也 無法從遠程獲取一份已損壞的本地數據塊的完整版本。可測量性和長期擴展是問題所在,因為增加驅動器以及每5—7年進行一次數據轉移(因為你企業的供應商或 許將不再支持你的企業系統)并不是解決問題的好方法。
基于磁盤的數據存儲歸檔這一市場領域,另一競爭者是 ContentAddressableStorage,采用每個存儲目標(文件,email信息等)的hash作為存儲目標(而非文件位置)的重要標識符 ——同NAS系統。與通常思維不同,CAS系統不采用完整的文本索引作為其選址方案,而僅選用存儲目標的hash.事實上,大部分CAS系統,包括EMC 公司的Centera、Nexsan公司的Assurion和Caringo公司的CAStor,都未給其存儲內容編制索引。
他們在企業內部實施了單一實例存儲(例如相同文件的多次拷貝將導致相同的冗余數據),也檢查了 filehash,以整合后臺數據。除了大部分文件系統支持的名稱、所有者以及時間戳,大多數CAS系統也可存儲擴展元數據。結果是,大多數有復雜的應用 程序編程接口被用于文件存儲和恢復,這就要求數據歸檔軟件供應商寫入并測試界面。SNIA有標準的XMLAPI——被稱為XAM,將在一年后首先出現在 CAS以及其他固定內容存儲系統上。
CAS供應商很重視擴展元數據。ILM(當前僅僅是個構想,尚未有產品)的數據分類功能、e- discovery功能,及類似功能都需要除名稱和日期外的其他數據,以進行決策。我存有疑問的是:需要存儲一個有API的特殊文件系統。數據歸檔軟件或 者內容管理系統僅能夠將元數據和所有重要的文本索引完整地放入獨立于文件系統的數據庫。
一些供應商已經建造了類似NAS的設備,采用hash確保完整性及識別數據的唯一標識,而不將其作為目 標數據的主要地址。類似DataDomain公司的設備和NEC公司的Hydrastor,都被作為備份目標,但從其特征看,與數據歸檔設備的水平差不 多。DataDomain的設備可進行數據保存和去除,這與CAS的功能相同。Permabit公司的EnterpriseArchive采用相似的 hash來協助管理NAS數據。
很多此類系統采用RAIN(獨立結點的冗余陣列)結構,這樣一個有1u到2u服務器及內置存儲器的群組 或網格支持和管理分布在陣列中的數據。某些系統采用吸收/修復結點,這些節點可管理hash數據,并接收數據,同時存儲支持數據結點。有些系統同時具有上 述兩方面功能。
如果得以完整實施,RAIN模式將使100個結點獲得可測量性,新結點也可獲得可測量性,處理器的速度 更快,磁盤容量更大,且都將增加一個陣列,曾經放置在舊的慢速結點或出現問題結點上的數據都將被重新安置,接著舊結點都將被少量點擊或命令取代。然而,大 部分RAIN系統有一個相關的高速處理器,這會導致電力消耗的增加,同時可能會導致訪問次數極少的大型數據歸檔消耗過多。