年復(fù)一年,磁盤空間的單位成本正變得每況愈“低”。既然只要花區(qū)區(qū)50美元就能買個1TB的硬盤,通常來說在存儲方面談什么節(jié)流問題總是顯得比較雞肋。
但在云中,情況就完全不同了。如果我們保留太多沒啥價值的數(shù)據(jù)或者文件副本,那么龐大的支出會以兩種方式接踵而來。首先是每個月的存儲開銷,其次則是在涉及搜索、視圖、報告以及儀表板升級時由此帶來的性能低下。在云中,修整數(shù)據(jù)集的確能夠帶來切實的效益。
目前的首要議程是對問題做出評估:我們的存儲體系中主要是文檔,還是表格數(shù)據(jù)?二者通常會帶來不同類型的存儲限制,用于應(yīng)對它們的策略及工具也頗有差異。
文檔通常作為記錄的附件存在(例如常常被附于相關(guān)業(yè)務(wù)之后的合同簽署PDF文件),因此用戶往往很難快速將其找出。這種特性使得同一份文檔可能經(jīng)常會被三到四份不同的記錄同時調(diào)用。我們還需要找到那些短期進行過數(shù)次修改的多個文檔版本。首先要做的是將系統(tǒng)中的每份文檔歸納起來,形成一份輸出列表(包括文檔歸附的ID記錄以及最后一次更新日期等),并利用電子表格過濾器找出重復(fù)的文檔。有專門的重復(fù)文件檢測工具,能夠在這方面幫上大忙(通過檢測文件內(nèi)容);但在云中我還沒聽說過哪種工具能實現(xiàn)同樣的功能。除非大家愿意把所有文件下載到自己的本地服務(wù)器上并深入加以分析;要用這樣的方式修整文件,我們將面對極為繁重的工作量。由于光存儲介質(zhì)非常廉價,我們還不如直接把云中的數(shù)據(jù)歸檔,再把云存儲整體清空,免得將來有人抱怨。
表格數(shù)據(jù)則完全不同,因為不同類型的云在處理此類數(shù)據(jù)時會采用許多與系統(tǒng)有關(guān)的特定方式與技術(shù)。也就是說,常見處理流程如下:
•確定自己的哪一套云系統(tǒng)確實存在存儲問題。某些系統(tǒng)(例如財會系統(tǒng))完全無法加以修整,因為相關(guān)工作人員需要經(jīng)常審核并保存好長期以來的全部細節(jié)信息。其它系統(tǒng)(例如營銷自動化或者日志分析系統(tǒng))如果在運行時經(jīng)常在短時間內(nèi)收集大量細節(jié)信息,它們就是導(dǎo)致系統(tǒng)拖慢的罪魁禍首。
•確定哪些表格消耗掉了我們總存儲量的20%以上。它們就是修整的重點。
•針對每個表格,了解各項單獨記錄的價值。有些表格(特別是賬戶或者合同)幾乎完全不能加以改動,因為它們的內(nèi)容非常重要而且一旦被清除將造成很大影響(尤其是當這些表格與外部系統(tǒng)集成起來時)。其它表格,例如“匿名信息”,尤其是營銷自動化系統(tǒng)當中的那些則往往可以恣意處理。
•在采取進一步措施前,在磁盤或者光介質(zhì)上先對云中的數(shù)據(jù)進行一次整體備份。我在這里以最鄭重的態(tài)度提醒各位:這一步驟絕對不能忽略。
•對于那些可以隨意修整的表格,先評估一下其“信噪比”(即有用信息與無用信息之間的比率)。有哪些信息由于年深日久而已經(jīng)變得完全沒有價值了?舉例來說,在營銷自動化或者網(wǎng)頁監(jiān)控云中,我們有誰會真的在意某位匿名訪客已經(jīng)六個月沒有再次出現(xiàn)了?將所有分數(shù)為負的內(nèi)容刪除有何不可?我相信大家一定希望先對受影響的用戶進行全面分析,不過請記住,以信噪比方式修整數(shù)據(jù)的最終目的是為了在短時間內(nèi)迅速清理數(shù)以百萬計的記錄。
•有些表格的信噪比結(jié)果良好,但其中所存儲的諸多細節(jié)也沒啥存在的必要。舉例來說,許多營銷自動化以及電子郵件推送系統(tǒng)使用活躍表格來記錄重要的郵件及網(wǎng)頁交互行為。這些活躍表格可能會占用一半的系統(tǒng)存儲空間。但是某個人一年前的今天看了視頻A、前一天則看了視頻B,這種信息能有多大意義?大家不妨使用這樣一種評判標準:如果某種特定的細節(jié)不會改變?nèi)魏稳说臎Q定或者行為,那么它就不算是“信息”。有鑒于此,我們建議采取一種壓縮的方式:保留該信息,但清除六個月及之前的各類細節(jié)。歷史記錄通常被存儲為自定義表格、描述標簽、代表性字符串甚至位圖這些對存儲空間要求較低的形式。要對其進行修整需要縝密的思維、用戶輸入以及自定義代碼開發(fā),雖然過程不容易,但最終我們會獲得一套以信息價值為主導(dǎo)的連續(xù)修整機制。
•有些表格(尤其是信息與聯(lián)系人方面的)往往會迅速收集大量重復(fù)信息,特別是大家的公司已經(jīng)具備了一套專門處理信息與聯(lián)系人事務(wù)的系統(tǒng)。如果大家的云系統(tǒng)支持重復(fù)數(shù)據(jù)刪除工具(一般來自主流服務(wù)供應(yīng)商或者第三方),不妨買一套口碑好的并真正掌握它的用法。最理想的工具都擁有模糊邏輯算法,能幫我們在不移動云中數(shù)據(jù)的前提下找出并合并重復(fù)信息。整個合并過程會盡量保留數(shù)據(jù),但如果各位的云中存在大量數(shù)據(jù)沖突(例如為同一位聯(lián)系人存儲了兩個完全不同的手機號碼),我們恐怕需要為此建立陰影區(qū)域并將不同的數(shù)據(jù)在合并之前填充進去。出于多少復(fù)雜的原因,數(shù)據(jù)合并工作必須分階段進行:它會占用大量的CPU處理時間,也會給我們的頭腦增添不少負擔,不過說到底,它也能清除以十萬計的重復(fù)信息。千萬別太過躁進,合并這種工作可是沒有撤銷功能可用的。
上文中提到的大部分屬于一次性修復(fù),而不是將變化融入日常處理過程的長效機制。如果大家不打算投資以改善自己的數(shù)據(jù)管理流程,那么就準備好每個季度按上述步驟進行一次修整吧。而且請記住,如果不引入長效機制,這些步驟將永遠困擾著你。
英文原文鏈接:http://www.cio.com/article/693653/Strategies_for_Pruning_Data_in_the_Cloud
原文鏈接:http://cloud.51cto.com/art/201111/301660.htm