在一系列針對大數據提出建議的文章中,IDG集團PCWorld記者Joab Jackson所寫的《大數據,CIO應該知道的五件事》我認為絕對是最好的一篇。他提出的五點建議在我們與客戶的交談中幾乎每次都會被提到:
1、大數據的入門成本相對較低。我們現在看到的大數據的入門成本,至少按照CapEx的觀點,這個成本是相當低的。諸如Hadoop、Cassandra、MongoDB、MapReduce和其他開源工具,再加上相對低廉的云計算成本,讓組織可以不必花費巨大的成本便可去收集、儲存和分析其數據集合了。
2、有用的數據可來自任何地方。一度曾經被“丟棄在地”的數據如今是給大數據分類的一種方法,Gazzang CEO Larry Warnock將大數據比作撒向數據海洋的巨大漁網。客戶們常常把客戶交易歷史、地理位置和某些個人識別信息如醫療記錄及銀行賬號等的總和視為大數據。如何使用這些看似孤立的數據碎片來提升業務,或者推進某個項目,正是大數據要做的事情。
3、需要有新的大數據專業人才。大數據會成為下一個增長性行業嗎?我們希望如此,而且確信如此。
4、大數據不需要組織事先積累。我們把大數據比喻為一個“垃圾丟棄場”。我們已將大數據比作被丟棄在地的無用資料、打撈數據碎片的漁網和垃圾丟棄場。如果說大數據還是個嬰兒,那他也是個正在治療中的孩子。
但無論如何有一點是對的。大數據既能讓我們攝取任何想要的東西,又會讓我們擔憂這么龐大的數據今后如何使用。
5、大數據不只是Hadoop。如今已有不少實際流行的開源工具可幫助你分析海量的數據。Joab提到的工具有Splunk、HPCC系統和MarkLogic。也有用戶在使用MongoDB、Infochimps的Ironfan,以及用于云基礎設施自動化的Chef等等。不久后,Gazzang還會給市場帶來一款新的大數據監控和診斷工具——zOps。
最后,我還想給Joab的五點建議再增加第六點。
6、開始之前必須考慮安全。我們常常聽說,在大數據環境中,企業會任由數據處于未受保護的狀態,例如用戶名和密碼、信用卡數據或醫療數據等都處于可能被暴露的風險中。幸運的是,到目前為止,這種風險尚未傷及到誰(就我們所知而言),但這可能只是個時間問題而已。
如何把安全納入現有的大數據集群將是一個挑戰。大數據集群可能包含數千個節點。理解數據是如何收集的,哪些數據值得保護等等,都需要花費時間。
數據加密及密鑰管理可以作為防范未授權訪問或攻擊的最后一道防線。其成本相對便宜,而且也不會顯著地影響到大數據的性能或可用性。所以我們對客戶提出的忠告是,如果你認為企業環境中有某些敏感數據,那么首先必須保障其安全。