關(guān)于大數(shù)據(jù)曾經(jīng)轟動(dòng)一時(shí)的案例大概是某超市通過(guò)分析一位女顧客的購(gòu)物數(shù)據(jù),根據(jù)分析結(jié)果給這名十七歲的女孩寄來(lái)了孕嬰童試用品,盡管這一舉動(dòng)讓該女顧客的父親非常生氣,但這確實(shí)是通過(guò)對(duì)其購(gòu)買記錄進(jìn)行分析而形成的真實(shí)案例。對(duì)此,我們不禁感嘆,大數(shù)據(jù)有時(shí)像是一個(gè)偵探家,能夠撥開(kāi)重重迷霧,獲得”別有洞天”的大價(jià)值。而這關(guān)鍵在于,你是否真正懂得如何去駕馭大數(shù)據(jù),讓它為我們服務(wù)。
面對(duì)如此浩瀚的數(shù)據(jù)海洋中,企業(yè)該怎樣駕馭?在Teradata天睿公司全球合作伙伴計(jì)劃首席分析官Bill Franks所撰寫的《Taming the Big Data Tidal Wave》中可以找到答案。
有效駕馭大數(shù)據(jù)
該書(shū)英文版于2012年4月出版,成為美國(guó)亞馬遜的大數(shù)據(jù)主題圖書(shū)中銷量最好的新書(shū),而它的中文版《駕馭大數(shù)據(jù)》也已由人民郵電出版社在今年年初出版發(fā)行,在國(guó)內(nèi)各大網(wǎng)絡(luò)書(shū)店和新華書(shū)店等熱銷。
目前,市面上有很多關(guān)于大數(shù)據(jù)的書(shū)籍都是側(cè)重于大數(shù)據(jù)管理,如何將大數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)或者數(shù)據(jù)倉(cāng)庫(kù)中,或如何將非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行結(jié)構(gòu)化和分類等,而《駕馭大數(shù)據(jù)》這本書(shū)的側(cè)重點(diǎn)卻有所不同,它主要是關(guān)于大數(shù)據(jù)的有效分析,而不是大數(shù)據(jù)管理本身,它從數(shù)據(jù)開(kāi)始,所有的內(nèi)容均圍繞如何做整體決策,如何構(gòu)建卓越的數(shù)據(jù)分析中心,以及如何構(gòu)建數(shù)據(jù)分析文化等主題。
大數(shù)據(jù)的價(jià)值不在數(shù)據(jù)本身,而是如何通過(guò)數(shù)據(jù)的整合、探索,從而轉(zhuǎn)化為行動(dòng),最終為業(yè)務(wù)服務(wù)帶來(lái)價(jià)值。在新書(shū)發(fā)布會(huì)上,Bill Franks表示,“我認(rèn)為有必要撰寫一本以業(yè)務(wù)為中心的大數(shù)據(jù)著作,將大數(shù)據(jù)相關(guān)的重要議題集納在一起,其形式應(yīng)該讓業(yè)務(wù)人員和分析專家都容易理解。我希望通過(guò)本書(shū)中提供相關(guān)的洞見(jiàn),同時(shí)輔以行之有效的建議和行動(dòng)步驟,讓大數(shù)據(jù)源和大數(shù)據(jù)分析為企業(yè)服務(wù)。”
加工增值大數(shù)據(jù)
大數(shù)據(jù)的意義不在于掌握龐大的數(shù)據(jù)信息,而在于對(duì)這些含有價(jià)值的數(shù)據(jù)進(jìn)行處理,通過(guò)數(shù)據(jù)的“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”。隨著大數(shù)據(jù)的到來(lái),Hadoop、MapReduce等技術(shù)也被廣泛被使用,曾有業(yè)界專家表示,任何一個(gè)單一的產(chǎn)品不能完整解決用戶所面臨的大數(shù)據(jù)問(wèn)題和挑戰(zhàn)。的確,大數(shù)據(jù)的復(fù)雜程度難以想象,Bill Franks介紹道,大數(shù)據(jù)之所以錯(cuò)綜復(fù)雜是由四個(gè)因素造成的,即大數(shù)據(jù)通常由機(jī)器自動(dòng)生成,而且通常是全新的數(shù)據(jù)源,假設(shè)會(huì)有格式設(shè)計(jì),這些格式根本也不友好,大數(shù)據(jù)中很大部分可能并沒(méi)有多大的價(jià)值。
由于大數(shù)據(jù)的復(fù)雜性,企業(yè)在做數(shù)據(jù)分析、數(shù)據(jù)挖掘時(shí)就要制定相應(yīng)的策略,在《駕馭大數(shù)據(jù)》整本書(shū)中,Bill Franks指出:許多大數(shù)據(jù)其實(shí)并沒(méi)有用,如何過(guò)濾掉無(wú)效的數(shù)據(jù)才是真正重要的。他在采訪時(shí)也表示,“在處理大數(shù)據(jù)時(shí),應(yīng)該有所取舍,拋棄大部分?jǐn)?shù)據(jù),將其減少到能夠駕馭的數(shù)據(jù)規(guī)模,以便能夠快速取得大數(shù)據(jù)分析成果,至于哪些數(shù)據(jù)需要拋棄取決于公司自身的需求。”
Bill Franks還建議,處理大數(shù)據(jù)需要改變流程和文化,能夠?qū)崿F(xiàn)文化的轉(zhuǎn)變,允許拿出少量的預(yù)算、人力資源、技術(shù)資源等做試點(diǎn),做一些存在一定風(fēng)險(xiǎn)和結(jié)果尚未確定的小實(shí)驗(yàn)。“駕馭大數(shù)據(jù)最困難的事情不是技術(shù)手段的盤點(diǎn),而是取決于采用什么樣的方法來(lái)更好的發(fā)揮大數(shù)據(jù)的價(jià)值,并且能夠改變它的流程。”