對存儲容量復雜而無止境的需求讓存儲管理員感到十分頭疼。以下將為大家介紹一些如何應對數據洪流的方法。
以往只有科研人員、互聯網巨頭以及亞馬遜、推特、臉譜和Shutterfly等社交媒體巨頭面臨這樣的問題,但是現在越來越多的企業開始嘗試通過大數據挖掘來發現手中所掌握的有價值的信息,并以此獲得競爭優勢。如今,沃爾瑪、金寶湯、輝瑞默克和Wawa連鎖便利店等公司正在為他們的大數據制訂一套宏偉的計劃。
為了更快的回應客戶、更好的追蹤客戶信息或是更迅速的向市場導入新產品,許多公司開始投資大數據分析。
市場研究機構IDC存儲分析師Ashish Nadkarni稱: “對于身處互聯網時代的任何公司來說,如果他們不這樣做,那么他們的競爭對手就會這些做。”
目前所有機構都在逐漸被來自內部和外部的數據所淹沒。在這些數據中,許多數據是實時傳輸過來的,其中又有許多數據只會被用上幾分鐘、幾小時或是幾天時間。
市場研究公司Aberdeen Group表示,因此而帶來的存儲需求增長對大型企業來說尤為棘手。在這些大型企業中,從2010年至2011年,結構化和非結構化數據所需要的存儲容量平均增長了44%。無論多大規模的公司,數據存儲需求每隔2.5年就會翻一番。而且,對視頻存儲、電子表格、格式化數據庫和純非結構化數據進行優化分別需要不同的工具。
Aberdeen 集團虛擬化和存儲分析師Dick Csaplar 稱:“能夠讓存儲方面的花銷不隨存儲需求增長而增長是一個挑戰。”能夠幫助主流大數據用戶避免陷入這一惡性循環的技術有存儲虛擬化、去重和存儲分層技術。對于科研人員、社交媒體網站與仿真項目開發人員等大數據重度用戶,面向對象的和關系型數據庫存儲都是不錯的選擇。
與內部日常存儲平臺相比,為了以易于訪問的格式存儲拍字節級(和更大規模)數據,系統在設計上要更為復雜。以下是專家對管理和存儲大數據提出的一些建議。
你正在分析什么類型的數據?
所需的存儲類型取決于你分析的數據類型與數量。全部數據均有一個保存期限。例如,股票報價只在價格變動前的一或兩分鐘內重要。棒球比賽得分對于人們來說只需要保存24小時或是直到下一場比賽時。這一類型的數據在最需要的時候應當保存在主存儲器中,隨后即可以轉移至廉價的存儲器內。多年來的觀察已經證明了這一理念,即被長期存儲的數據通常并不需要存儲在容易被訪問到的主驅動器上。
你實際上需要多大存儲容量?
在存儲大數據時,你需要的存儲容量和類型取決于你所需要存儲的數據大小和這些數據的使用時限。
在大數據分析中涉及三種類型的數據。Nadkarni稱:“它們能夠將來自多個來源的數據每秒源源不斷的傳輸給你,在這些數據失去時效性之前,你的時間切片應當為數分鐘。”這類數據包括天氣、交通、社交網絡上的趨勢話題和關于全球事件的推文等更新信息。
大數據還包括了那些休眠數據或是公司為了適度使用而生成和控制的數據。
數據傳輸需要快速捕獲和分析能力。Nadkarni稱:“一旦你分析了它們,你就不再需要它們了。但是對于休眠數據或被公司控制的數據,你應當將它們存儲起來。”
哪種類型的存儲工具更合適?
對于那些剛開始涉足大數據存儲和分析的公司,行業觀察人士建議采用將所有的存儲將放在一個保護傘下的存儲虛擬化技術、去重壓縮數據技術和分層存儲方案,以確保最有價值的數據被存儲在最容易被訪問的系統中。
存儲虛擬化提供了一個軟件抽象層,讓用戶無法找到物理設備,并且允許所有設備作為一個單一的池被管理。盡管服務器虛擬化已經成為了目前IT基礎設施中一個成熟組件,但是存儲虛擬化仍然未被廣泛接受。
在2012年2月份,Aberdeen對106家大型公司進行了調查。結果顯示,僅有20%的受訪者表示他們擁有一個單獨的存儲管理應用。平均下來,3個管理應用對應3.2個存儲設備。
盡管如此,許多存儲廠商并不愿意讓自己生產的設備接受其他廠商產品的管理。Csaplar稱:“存儲虛擬化非常復雜并且極為耗時。因此它們無法像服務器虛擬化那樣被廣泛接受。”相反,許多存儲管理員正在關注針對第三或第四層存儲的云解決方案,因為云方案能夠更為容易地在不同基礎設施之間轉移數據,同時可以降低存儲成本。他補充稱:“許多公司已經這么做了,并且收到了良好的效果,但是距離人們的期望值還存在一定的差距。”
Csaplar希望看到,隨著網絡連通性的改善、成本的下降以及傳輸過程中數據加解密能力的提升,云存儲和其它基于云的計算資源的使用率在不久的未來出現增長。他稱:“有了云,你可以從運營預算中結算每月的賬單,而不無需單獨的資金預算。”
去重與壓縮
通過去重技術,管理員能夠降低所需的存儲空間。由于數據壓縮工具可識別出各個文件中的短重復相同字符串,并且每個文件僅存儲一份拷貝,因此去重過程可以消除冗余數據。
那么這樣一來可以降低多少存儲需求呢?Aberdeen的調查報告顯示,13%的受訪者表示他們將數據大小降低了50%,另有約13%的公司表示高度重復的結構化數據減少了30%至50%。
存儲分層
一旦公司確定他們將分析哪些數據,存儲管理員能夠將最新和最重要的數據放在速度最快、可靠性最高的存儲介質上。隨著數據的時效性越來越差,這些數據可以被轉移到速度較慢、價格較便宜的存儲上。具有存儲分層程序自動化功能的系統正在受到關注,但是還沒有被用戶廣泛采用。
在制訂存儲等級時,管理員必須要考慮存儲技術、設備的速度以及保護數據安全的RAID的形式。
失效備援的標準解決辦法是復制,通常以RAID陣列的形式進行復制。在線照片分享網站Shutterfly的高級副總裁兼首席技術官Neil Day指出,如果數據的規模過于龐大,那么RAID所產生的問題會比所解決的問題還要多。由于允許用戶無限量地存儲原始分辨率的照片,因此目前該網站存儲的數據已經超過了30拍字節。
在傳統的RAID數據存儲模式中,每份數據的拷貝都被做成鏡像存儲在陣列中的多個磁盤上,以確保數據的完整性和可靠性。不過,這也意味著所存儲和被做成鏡像的每份數據在大小方面都翻了五倍。隨著RAID陣列所使用的驅動器容量越來越大——從密度和能耗方面看,目前3太字節的驅動器最具吸引力——將故障驅動器上的內容完整復制到新驅動器上所需要的時間正變得越來越長。
Shutterfly最終選擇了糾刪碼技術。通過該技術,每片數據能夠被分成小數據塊,并分散存儲在不同的磁盤驅動器或服務器內,而這些小塊本身并沒有意義。任何時候,即使由于驅動器故障導致多個小數據塊遺失,其余的部分小數據塊也可以完整復原數據。換句話說,你不再需要創建多份數據拷貝,單一實例能夠確保數據的完整性和可靠性。由于糾刪碼技術是一種基于軟件的技術,因此這種技術能夠與商業化硬件一起使用,甚至可以降低大規模部署的成本。
Cleversafe是最早的糾刪碼軟件廠商之一。該公司通過添加位置信息研發了一種被稱為分散編碼的技術,允許用戶在地理上相互獨立的地方,如多數據中心內存儲小數據塊或是數據切片。
超級大數據用戶
像Shutterfly這樣有著海量存儲需求的公司必須在提前考慮塊存儲。Nadkarni稱:“在談論拍字節級海量數據集時,你必須要開始關注對象存儲或分布式文件系統了。可以考慮EMC的Isilon集群存儲和戴爾Fluid文件系統等商業解決方案,或是開源方案。它們必須能夠以更低的成本存儲數據,并且能夠提供更優秀的性價比。此外,他們還要具備可擴展性。”
他補充稱,商業軟件的用戶常常會存儲一些用完即棄的一次性數據,并且幾乎沒有后處理需求。
幾乎不再需要管理人員
在正確部署后,存儲虛擬化、去重、存儲分層和糾刪碼技術可降低你對管理人員的需求,因為這些工具能夠讓你通過單一虛擬管理平臺管理數據。在Shutterfly的案例中,自動化存儲基礎設施允許公司降低維護人員的增長速度。隨著公司日常維護工作的減少,管理員可以將更多的時間花在一些具有前瞻性的項目上。
Nadkarni稱,在一些案例中,大數據項目由一些特殊團隊完成,而不是傳統的IT員工。“這些項目由公司的業務部門負責掌管與運營,因為IT基礎設施在靈活性上無法支持大數據環境,或是沒有掌握大數據所需要的相關技能。”
“在這些項目中可能沒有存儲管理員的身影,或是他們只扮演一個非常小的角色,所有的工作都將由系統人員完成。”
未來發展趨勢
Nadkarni認為將計算層轉移至數據層之中的概念將會流行起來。“你應當關注由Cleversafe提供的解決方案,以及其他存儲提供商提出的在存儲層中植入計算功能的解決方案。目前我們再也無法輕易地將數據轉移至計算層。可以說這實際上已經是不可能的了,尤其是當你處于在數據失去時效性之前只有幾分鐘時間分析它們的情況下。所以為什么不將計算層轉移至數據存儲層之中呢?”
Cleversafe針對Shutterfly等大數據重度用戶提供了一個高端的Hadoop解決方案,不過他們目前正在嘗試將其變成一個通用解決方案。Nadkarni稱:“Cleversafe打破了從一家廠商那里采購計算力再從其他廠商那里采購應用存儲的模式。”為了在主流企業中獲得成功,公司的業務部門必須要開拓思路。我認為它們最終將會受到廣泛認可,因為目前模式的效率并不適合大數據的需求。
他補充稱:“大數據是公司保持競爭優勢的工具。為了最大限度的利用手中的數據,公司必須要調整處理程序和使用方式,以更加迅速地從這些數據中挖掘出它們所蘊含的價值。”
Csaplar警告稱:“在投資新的大數據存儲基礎設施之前,公司必須要做好調查研究和前期準備工作。仔細研究它們,多與那些已經部署了大數據存儲基礎設施的公司進行溝通。大數據存儲基礎設施并不是什么尖端的東西,與已經部署了它們的人進行溝通可以讓你在部署過程中避免犯下相同的錯誤。”
Hadoop不再是唯一的選擇
目前“大數據”概念的范圍得到了很大程度的延伸。大數據這一術語以前指那些對科研人員和社交媒體網站等高級用戶頻繁查詢迅速做出響應的復雜數據。如今,大數據這一概念中包括了大多數公司必須存儲的海量結構化或非結構化數據。
盡管Hadoop和Cassandra開源系統是大數據存儲和分析的理想選擇,但是目前許多廠商已經開始在調整他們的存儲系統,以應對數以拍計的數據,以及提供更便捷的分析方法。
IBM 存儲產品營銷管理策略副總裁Ed Walsh 稱:“以往大數據是頂級大型公司才使用的工具,現在幾乎所有的公司都在利用大數據從數據中獲得洞察力。你最好有一個高效的存儲,否則成本將非常龐大。此外,相關的應用也要具有良好的性能,并且能夠動態調整。”
IBM花了數年時間研發了一套包括Hadoop在內的高性能存儲與分析產品,以及相關技術。IBM在去年六月份正式向市場推出了一套名為IBM智能存儲的存儲與分析產品。IBM還表示,這是他們首套整合了Platform Computing公司軟件的解決方案,旨在服務更多的企業客戶。IBM在2012年年初收購了技術和分布式計算管理軟件制造商Platform Computing公司。
Walsh 表示:“我們這么做的原因是因為我們擁有一套非常完整的產品組合。這套產品并不再像以往那樣復雜,它們可以幫助用戶更加全面的洞察發展趨勢,讓用戶知道他們應當嘗試利用手中的數據做哪些工作。”