年復一年,磁盤空間的單位成本正變得每況愈“低”。既然只要花區區50美元就能買個1TB的硬盤,通常來說在存儲方面談什么節流問題總是顯得比較雞肋。
但在云中,情況就完全不同了。如果我們保留太多沒啥價值的數據或者文件副本,那么龐大的支出會以兩種方式接踵而來。首先是每個月的存儲開銷,其次則是在涉及搜索、視圖、報告以及儀表板升級時由此帶來的性能低下。在云中,修整數據集的確能夠帶來切實的效益。
目前的首要議程是對問題做出評估:我們的存儲體系中主要是文檔,還是表格數據?二者通常會帶來不同類型的存儲限制,用于應對它們的策略及工具也頗有差異。
文檔通常作為記錄的附件存在(例如常常被附于相關業務之后的合同簽署PDF文件),因此用戶往往很難快速將其找出。這種特性使得同一份文檔可能經常會被三到四份不同的記錄同時調用。我們還需要找到那些短期進行過數次修改的多個文檔版本。首先要做的是將系統中的每份文檔歸納起來,形成一份輸出列表(包括文檔歸附的ID記錄以及最后一次更新日期等),并利用電子表格過濾器找出重復的文檔。有專門的重復文件檢測工具,能夠在這方面幫上大忙(通過檢測文件內容);但在云中我還沒聽說過哪種工具能實現同樣的功能。除非大家愿意把所有文件下載到自己的本地服務器上并深入加以分析;要用這樣的方式修整文件,我們將面對極為繁重的工作量。由于光存儲介質非常廉價,我們還不如直接把云中的數據歸檔,再把云存儲整體清空,免得將來有人抱怨。
表格數據則完全不同,因為不同類型的云在處理此類數據時會采用許多與系統有關的特定方式與技術。也就是說,常見處理流程如下:
•確定自己的哪一套云系統確實存在存儲問題。某些系統(例如財會系統)完全無法加以修整,因為相關工作人員需要經常審核并保存好長期以來的全部細節信息。其它系統(例如營銷自動化或者日志分析系統)如果在運行時經常在短時間內收集大量細節信息,它們就是導致系統拖慢的罪魁禍首。
•確定哪些表格消耗掉了我們總存儲量的20%以上。它們就是修整的重點。
•針對每個表格,了解各項單獨記錄的價值。有些表格(特別是賬戶或者合同)幾乎完全不能加以改動,因為它們的內容非常重要而且一旦被清除將造成很大影響(尤其是當這些表格與外部系統集成起來時)。其它表格,例如“匿名信息”,尤其是營銷自動化系統當中的那些則往往可以恣意處理。
•在采取進一步措施前,在磁盤或者光介質上先對云中的數據進行一次整體備份。我在這里以最鄭重的態度提醒各位:這一步驟絕對不能忽略。
•對于那些可以隨意修整的表格,先評估一下其“信噪比”(即有用信息與無用信息之間的比率)。有哪些信息由于年深日久而已經變得完全沒有價值了?舉例來說,在營銷自動化或者網頁監控云中,我們有誰會真的在意某位匿名訪客已經六個月沒有再次出現了?將所有分數為負的內容刪除有何不可?我相信大家一定希望先對受影響的用戶進行全面分析,不過請記住,以信噪比方式修整數據的最終目的是為了在短時間內迅速清理數以百萬計的記錄。
•有些表格的信噪比結果良好,但其中所存儲的諸多細節也沒啥存在的必要。舉例來說,許多營銷自動化以及電子郵件推送系統使用活躍表格來記錄重要的郵件及網頁交互行為。這些活躍表格可能會占用一半的系統存儲空間。但是某個人一年前的今天看了視頻A、前一天則看了視頻B,這種信息能有多大意義?大家不妨使用這樣一種評判標準:如果某種特定的細節不會改變任何人的決定或者行為,那么它就不算是“信息”。有鑒于此,我們建議采取一種壓縮的方式:保留該信息,但清除六個月及之前的各類細節。歷史記錄通常被存儲為自定義表格、描述標簽、代表性字符串甚至位圖這些對存儲空間要求較低的形式。要對其進行修整需要縝密的思維、用戶輸入以及自定義代碼開發,雖然過程不容易,但最終我們會獲得一套以信息價值為主導的連續修整機制。
•有些表格(尤其是信息與聯系人方面的)往往會迅速收集大量重復信息,特別是大家的公司已經具備了一套專門處理信息與聯系人事務的系統。如果大家的云系統支持重復數據刪除工具(一般來自主流服務供應商或者第三方),不妨買一套口碑好的并真正掌握它的用法。最理想的工具都擁有模糊邏輯算法,能幫我們在不移動云中數據的前提下找出并合并重復信息。整個合并過程會盡量保留數據,但如果各位的云中存在大量數據沖突(例如為同一位聯系人存儲了兩個完全不同的手機號碼),我們恐怕需要為此建立陰影區域并將不同的數據在合并之前填充進去。出于多少復雜的原因,數據合并工作必須分階段進行:它會占用大量的CPU處理時間,也會給我們的頭腦增添不少負擔,不過說到底,它也能清除以十萬計的重復信息。千萬別太過躁進,合并這種工作可是沒有撤銷功能可用的。
上文中提到的大部分屬于一次性修復,而不是將變化融入日常處理過程的長效機制。如果大家不打算投資以改善自己的數據管理流程,那么就準備好每個季度按上述步驟進行一次修整吧。而且請記住,如果不引入長效機制,這些步驟將永遠困擾著你。
英文原文鏈接:http://www.cio.com/article/693653/Strategies_for_Pruning_Data_in_the_Cloud
原文鏈接:http://cloud.51cto.com/art/201111/301660.htm