使用元數據和政策管理
一些有大數據存儲需求的機構將關注于在相對較低的成本的基礎上獲得大量的容量。對一些應用程序,存儲解決方案和服務的一個重要屬性就是它們的元數據能力。這包含了支持靈活的元數據和用戶定義元數據的能力。
另一個重要的功能是政策管理,即使用元數據來實施或驅動一些功能,比如多長時間保留數據,何時何地安全地處置數據,以及在哪里保存數據(包括與應用程序相關的信息)。這給非結構化數據帶來了一定的靈活的結構,同時沒有與結構化數據管理相關的限制或約束。
尋找合適的媒介
找到合適的存儲媒介可以幫助用戶滿足它的需求。硬盤驅動器(HDD)長期以來是流行的方式來為許多應用提供均衡的性能、容量、存儲密度和成本效率。隨著用戶需要在更長的時間內保存更多的數據,這個趨勢將繼續。
大數據還可以得益于如今的使用動態隨機訪問記憶體或NAND閃存記憶體--或兩者結合--來支持帶寬需求的固態驅動器解決方案。SSD可以被用于存儲元數據和其他經常被訪問的數據。
磁帶繼續在大數據中扮演幾種角色。這些角色包括定時地將大量數據遷移,提供歸檔或為磁盤上的數據提供備份。
降低大數據資源占用
重復數據刪除并不總是最大化大數據容量的有效方式。用戶可以考慮其他工具、技術來緩解由于存儲和保護不斷增長的數據集而帶來的壓力。
例如,一個大數據項目可以使用歸檔或自動分層技術來將一些數據遷移到更低層或低成本存儲層,比如磁帶。
另一個降低數據占用的方法就是重新思考如何、何時、何地以及為何數據要被保護。另一個減少數據占用的技術就是數據壓縮(實時的或異步的),用不同的壓縮算法來降低存儲需求。
保護和服務于大數據
2020年全球將有4.0026萬EB(1EB=10億GB)的數據預計將產生,14倍于2012年創建的數據的量。
來源自IDC Digital Universe 2012(2012年IDC數字宇宙報告)
保護大數據要求基本的可靠性、可用性和可服務性--比如冗余電源、冷卻、控制器、節點和接口。用戶還必須確保數據的完整性和耐用性,執行后端數據檢查來探測校驗碼或保護錯誤和比特損壞等意外情況。這些后端檢查必須對正常運行的操作是透明的,而且必須在它們發展成問題之前糾正這些情況。
用戶還必須重新檢查RAID(獨立磁盤冗余陣列)水平以優化他們的大數據存儲解決方案。需要考慮得因素包括有多少驅動器在RAID池或組中,數據塊或I/O大小,以及正在使用的設備的大小和類型,哪些可以進行優化以便適應更小量的數據。
考慮存儲系統選項
一些用于分析工具的大數據解決方案采用集群或網格的配置內部或專用存儲以及應用程序軟件的行業標準x86或ia64服務器。
大數據應用程序還可以利用現有的針對不同使用情境進行優化的存儲系統。一些用于傳統的高性能計算的存儲系統可能適合于使用塊或文件訪問方式的帶寬密集型并發或并行訪問應用程序。
配置對象訪問(包括HTTP、XML和云數據管理接口)的存儲解決方案也可以用于大數據存儲需求,比如視頻、音頻、圖片、監控、地震數據或地質數據,以及其他需要有大型文件需要存儲的應用程序。對象存儲系統支持各種大小和不同類型的數據。
大數據存儲小貼士:
使用不損害性能的智能電源管理解決方案
利用各種工具和技術來降低數據的資源占用
留意不同解決方案下總的裸存儲和可用存儲
評估那些可能可以優化的領域的存儲設置(包括RAID或保護)
如果遇到很長的硬盤修復時間,找出磁盤故障的原因
在可行的情況下使用混合的SSD、HDD和磁盤存儲來攤低預算
云可以輔助大數據應用程序下的SSD、HDD和磁盤存儲
自加密驅動器提供安全性并減少驅動器處置時間
用程序的許多不同方面有不同的存儲需求。了解一家機構的需求和選項可以幫助支持數據增長并同時最小化預算增長。
進行了大改進的小硬盤
制造商們在硬盤驅動器上取得了明顯的進步,包括4TB容量(未來還可以更大)的3.5英寸驅動器,以及容量更大速度更快的2.5英寸硬盤驅動器。
一些新的1萬轉2.5英寸硬盤驅動器相比舊的1.5萬轉3.5英寸驅動器有相同的(或更好的)性能。其他硬盤上的改進包括瓦片磁記錄和熱輔助磁記錄技術,這些技術能夠提高驅動器單位面積的存儲密度(在一個磁片上給定物理空間內所能存儲的比特數)。硬盤在繼續增長和增加功能,使得它們也適用于大數據環境。
總體上,大數據的存儲選擇包括:
專門用于使用內部或外部設備的服務器的存儲
通過共享軟件在服務器之間共享的存儲
使用塊、文件和對象的存儲,或使用一個可以在線、近線或離線訪問的應用程序編程接口(API)的存儲
固態驅動器、硬盤驅動器、磁帶或云上的存儲
使用得到擦除碼、副本、快照、和廣域網分散等方式進行保護的RAID的存儲
根據國外媒體heraldnet報道,微軟Windows Azure軟件及相關云服務年銷售額已經突破10億美元大關,這也是微軟在挑戰亞馬遜云服務市場時首次獲得如此驕人的業績。
這對于Azure來說無疑是一個里程碑事件。Azure是微軟的云計算平臺,存儲有企業信息和各類應用程序,以支持用戶跨網絡平臺來訪問這些信息和服務。
Azure服務平臺框架示意圖
在過去半年以來,Azure訂閱用戶獲得大幅增長,增長幅度高達48%。而與此相關的服務器與應用工具部門也連續9個季度實現10%的收入增長。而微軟傳統的Windows業務部門其收入較2010年最好水平下降了5.7%。
但與亞馬遜相比,微軟還存在挑戰。需要考慮如何維持現有客戶,并說服新用戶選擇Azure。