被新聞媒體和學(xué)術(shù)會議宣傳得近乎神化的大數(shù)據(jù),最近也頻頻被潑冷水。2013年年初,美國知名大數(shù)據(jù)分析公司Avasid聯(lián)合創(chuàng)始人兼CEO Gurieet Singht就暗示大家“大數(shù)據(jù)”可能并沒有那么靠譜。他指出,從查詢開始分析數(shù)據(jù)本身就是一個死胡同,目前,研究人員還只是從收集到的數(shù)據(jù)中提取1%進行分析,而這1%被分析的數(shù)據(jù)卻用來支配企業(yè)的革新和形成某種見解,這顯然是不科學(xué)的。2013年5月,阿里集團王堅的一篇“大數(shù)據(jù),你們都理解錯了”的講話,立刻抓牢人們的眼球,也值得讓我們反思,大數(shù)據(jù)到底是什么?一直以來真的都沒有抓住要點嗎?
我們沒有理解大數(shù)據(jù)的真正含義嗎?
Gurjeet Singht的觀點有很扎實的依據(jù)。面對數(shù)據(jù)宇宙規(guī)模爆炸式的增長,科技發(fā)展的速度并沒有與之相匹配。根據(jù)IDC最近的報告,當(dāng)前人們每天可以收集的數(shù)據(jù)約1qB,而數(shù)字宇宙的規(guī)模已經(jīng)達到了2.8ZB的數(shù)據(jù)量。IDC預(yù)計,到2020年數(shù)字宇宙的規(guī)模將高達40ZB。移動技術(shù)、傳感技術(shù)的發(fā)展,讓人們采集數(shù)據(jù)的能力不斷增強,但識別數(shù)據(jù)的技術(shù)發(fā)展速度卻沒那么樂觀。比如,在當(dāng)前數(shù)據(jù)宇宙中很多有價值的數(shù)據(jù),都是基于文檔的未被標(biāo)記的非結(jié)構(gòu)化數(shù)據(jù),人們對這類數(shù)據(jù)的識別、處理技術(shù)的研究剛剛起步。但市場中所謂成熟的大數(shù)據(jù)分析方法,卻普遍是基于有效數(shù)據(jù)標(biāo)識來采集用于分析的數(shù)據(jù)。根據(jù)這種方法,有些數(shù)據(jù)因為無法識別所以不能被標(biāo)記,因而不能被視為有效數(shù)據(jù),在用于分析前,它們就會被拋棄。這一問題導(dǎo)致大量有價值的數(shù)據(jù)就這樣丟失了,完全沒有被利用。
王堅的論述也有相當(dāng)豐富的例子作為佐證,大數(shù)據(jù)很早以前就有,然而,數(shù)據(jù)僅有“大”是完全不夠的,即便是擁有全世界最多數(shù)據(jù)的歐洲對撞實驗室,只要他的數(shù)據(jù)與互聯(lián)網(wǎng)不沾邊,那么他對大眾來說就變得沒有意義。所以,今天我們對數(shù)據(jù)本質(zhì)的研究不應(yīng)該是大,而應(yīng)該是“在線”。在線讓數(shù)據(jù)搜集變得容易,比如,以前美國要大選總統(tǒng)時,需要做蓋勒普民意調(diào)查,抽取2000人進行調(diào)查問卷的填寫,而現(xiàn)在,只需要在Twitter上分析每個人發(fā)布的狀態(tài),就可以推斷出總統(tǒng)是誰,并且能夠快速影響社會。但是,要讓產(chǎn)品和數(shù)據(jù)結(jié)合得很好,還需要一個漫長的過程。
磨刀不誤砍柴工——玩轉(zhuǎn)大數(shù)據(jù)
紐約創(chuàng)業(yè)公司Media6Degrees首席科學(xué)家克勞迪婭·珀利徹也給正走在被神化道路上的“大數(shù)據(jù)”重重的一擊,“你可以用數(shù)據(jù)來欺騙自己,但我擔(dān)心大數(shù)據(jù)出現(xiàn)泡沫。”
珀利徹?fù)?dān)心許多人將自己稱為“數(shù)據(jù)科學(xué)家”,但實際上卻并未做足功課,反而給該領(lǐng)域抹黑。 珀利徹認(rèn)為,大數(shù)據(jù)似乎將面臨勞動力瓶頸,因為現(xiàn)有大數(shù)據(jù)專家們技能提升的速度遠(yuǎn)遠(yuǎn)不夠數(shù)據(jù)的增長速度。麥肯錫全球?qū)W會在2012年發(fā)布的一份報告也顯示,美國需要14萬名至19萬名具有“深度分析”經(jīng)驗的工作者,以及150萬名更加精通數(shù)據(jù)的經(jīng)理人,無論是已退休人士還是已受聘人士。這個數(shù)字無疑是龐大的。
管理大數(shù)據(jù)要比搜集大數(shù)據(jù)意義重大的多,如何問問題,如何定義問題,從哪里提取數(shù)據(jù)?這都需要專業(yè)數(shù)據(jù)分析人士的技能,如果個人數(shù)字世界的算法過于簡單,就不會達到預(yù)期描繪的那般智能。試想,如果沒有挖掘出數(shù)據(jù)背后真正的價值,那么,再龐大的數(shù)據(jù)量也只是空彈,無法擊中要害。所以,大數(shù)據(jù)專家們都應(yīng)該意識到大數(shù)據(jù)技術(shù)的局限和不足,培養(yǎng)經(jīng)驗和敏銳的直覺,不能僅把聽取數(shù)據(jù)放在重要的位置。
也許現(xiàn)在大多數(shù)應(yīng)用大數(shù)據(jù)的企業(yè),還只邁步在1.0、2.0版本上,但真正意義上的大數(shù)據(jù)時代,也許要到3.0版才能實現(xiàn)。
——電子科技大學(xué)互聯(lián)網(wǎng)科學(xué)中心主任、教授、博士生導(dǎo)師周濤
善用數(shù)據(jù),讓版本升級
在新一次可能的第三次工業(yè)革命中,數(shù)據(jù)、計算將扮演材料、能源和先進工藝技術(shù)這樣的角色,如果把計算看成能源,能夠允許它像電力一樣進入大眾的生活并流動起來,以一種統(tǒng)一的收費方式,不在乎計算從何而來,就像我們不知道今天我們用的5度電是來自大亞灣還是三峽。可以想象,在未來云計算以及其他的計算能力將成為一個國家非常至關(guān)重要的核心戰(zhàn)略之一。數(shù)據(jù)就是其中一種戰(zhàn)略材料,每一個企業(yè)、科研團隊、都有責(zé)任通過一些計劃,有目的的搜集、處理、分析和索引數(shù)據(jù)。然而,未來的大數(shù)據(jù)如果想要成就偉大的企業(yè),真正先進的工藝技術(shù)來自于更深入的分析,需要更聰明的頭腦,不再等同以前工業(yè)革命時期的工業(yè)技術(shù),而在于擁有更聰明的頭腦。
當(dāng)然,大數(shù)據(jù)時代和以前的工業(yè)革命不同的是,它的特征是個性化的,并且?guī)砭薮蟮睦砟钌系母淖儯瑫r也帶來商業(yè)模式的變化。電子科技大學(xué)互聯(lián)網(wǎng)科學(xué)中心主任、教授、博士生導(dǎo)師周濤將大數(shù)據(jù)在商業(yè)中的應(yīng)用概括為1.0、2.0和3.0版本。“也許現(xiàn)在大多數(shù)應(yīng)用大數(shù)據(jù)的企業(yè),還只邁步在1.0、2.0版本上,但真正意義上的大數(shù)據(jù)時代,也許要到3.0版才能實現(xiàn)。”周濤說。
1.0版所表現(xiàn)的,是企業(yè)通過自身的業(yè)務(wù)需求產(chǎn)生大量的數(shù)據(jù),然后利用這些數(shù)據(jù),通過深入分析,來優(yōu)化相關(guān)的業(yè)務(wù)。在這個時候,數(shù)據(jù)起到了指導(dǎo)決策的作用。
大數(shù)據(jù)的2.0版和1.0版的理念發(fā)生了變化。2.0強調(diào)數(shù)據(jù)的外延,數(shù)據(jù)除了從自身的業(yè)務(wù)產(chǎn)生并解決自身問題外,數(shù)據(jù)本身還有能力解決其他的問題,更有能力把其他數(shù)據(jù)聚集在一起解決自身問題。這里要求企業(yè)搜集與目標(biāo)業(yè)務(wù)直接或間接關(guān)聯(lián)的大量異質(zhì)數(shù)據(jù),建立復(fù)雜的分析和預(yù)測模型,產(chǎn)生針對目標(biāo)業(yè)務(wù)的輸出,這時候數(shù)據(jù)本身就是決策。
3.0版也許會帶領(lǐng)大家進入真正的大數(shù)據(jù)時代。3.0版更加關(guān)心數(shù)據(jù)的質(zhì)量價值,數(shù)據(jù)好不好,有多大價值,交換如何付費等問題,尤其是數(shù)據(jù)的隱私安全。在這個時候,會有類似于電信運營商的數(shù)據(jù)運營商出現(xiàn),讓所有的學(xué)術(shù)團體、企業(yè)、政府,都能夠使用大數(shù)據(jù),這才是真正的大數(shù)據(jù)時代的來臨。