被新聞媒體和學(xué)術(shù)會(huì)議宣傳得近乎神化的大數(shù)據(jù),最近也頻頻被潑冷水。2013年年初,美國知名大數(shù)據(jù)分析公司Avasid聯(lián)合創(chuàng)始人兼CEO Gurieet Singht就暗示大家“大數(shù)據(jù)”可能并沒有那么靠譜。他指出,從查詢開始分析數(shù)據(jù)本身就是一個(gè)死胡同,目前,研究人員還只是從收集到的數(shù)據(jù)中提取1%進(jìn)行分析,而這1%被分析的數(shù)據(jù)卻用來支配企業(yè)的革新和形成某種見解,這顯然是不科學(xué)的。2013年5月,阿里集團(tuán)王堅(jiān)的一篇“大數(shù)據(jù),你們都理解錯(cuò)了”的講話,立刻抓牢人們的眼球,也值得讓我們反思,大數(shù)據(jù)到底是什么?一直以來真的都沒有抓住要點(diǎn)嗎?
我們沒有理解大數(shù)據(jù)的真正含義嗎?
Gurjeet Singht的觀點(diǎn)有很扎實(shí)的依據(jù)。面對(duì)數(shù)據(jù)宇宙規(guī)模爆炸式的增長,科技發(fā)展的速度并沒有與之相匹配。根據(jù)IDC最近的報(bào)告,當(dāng)前人們每天可以收集的數(shù)據(jù)約1qB,而數(shù)字宇宙的規(guī)模已經(jīng)達(dá)到了2.8ZB的數(shù)據(jù)量。IDC預(yù)計(jì),到2020年數(shù)字宇宙的規(guī)模將高達(dá)40ZB。移動(dòng)技術(shù)、傳感技術(shù)的發(fā)展,讓人們采集數(shù)據(jù)的能力不斷增強(qiáng),但識(shí)別數(shù)據(jù)的技術(shù)發(fā)展速度卻沒那么樂觀。比如,在當(dāng)前數(shù)據(jù)宇宙中很多有價(jià)值的數(shù)據(jù),都是基于文檔的未被標(biāo)記的非結(jié)構(gòu)化數(shù)據(jù),人們對(duì)這類數(shù)據(jù)的識(shí)別、處理技術(shù)的研究剛剛起步。但市場中所謂成熟的大數(shù)據(jù)分析方法,卻普遍是基于有效數(shù)據(jù)標(biāo)識(shí)來采集用于分析的數(shù)據(jù)。根據(jù)這種方法,有些數(shù)據(jù)因?yàn)闊o法識(shí)別所以不能被標(biāo)記,因而不能被視為有效數(shù)據(jù),在用于分析前,它們就會(huì)被拋棄。這一問題導(dǎo)致大量有價(jià)值的數(shù)據(jù)就這樣丟失了,完全沒有被利用。
王堅(jiān)的論述也有相當(dāng)豐富的例子作為佐證,大數(shù)據(jù)很早以前就有,然而,數(shù)據(jù)僅有“大”是完全不夠的,即便是擁有全世界最多數(shù)據(jù)的歐洲對(duì)撞實(shí)驗(yàn)室,只要他的數(shù)據(jù)與互聯(lián)網(wǎng)不沾邊,那么他對(duì)大眾來說就變得沒有意義。所以,今天我們對(duì)數(shù)據(jù)本質(zhì)的研究不應(yīng)該是大,而應(yīng)該是“在線”。在線讓數(shù)據(jù)搜集變得容易,比如,以前美國要大選總統(tǒng)時(shí),需要做蓋勒普民意調(diào)查,抽取2000人進(jìn)行調(diào)查問卷的填寫,而現(xiàn)在,只需要在Twitter上分析每個(gè)人發(fā)布的狀態(tài),就可以推斷出總統(tǒng)是誰,并且能夠快速影響社會(huì)。但是,要讓產(chǎn)品和數(shù)據(jù)結(jié)合得很好,還需要一個(gè)漫長的過程。
磨刀不誤砍柴工——玩轉(zhuǎn)大數(shù)據(jù)
紐約創(chuàng)業(yè)公司Media6Degrees首席科學(xué)家克勞迪婭·珀利徹也給正走在被神化道路上的“大數(shù)據(jù)”重重的一擊,“你可以用數(shù)據(jù)來欺騙自己,但我擔(dān)心大數(shù)據(jù)出現(xiàn)泡沫?!?/p>
珀利徹?fù)?dān)心許多人將自己稱為“數(shù)據(jù)科學(xué)家”,但實(shí)際上卻并未做足功課,反而給該領(lǐng)域抹黑。 珀利徹認(rèn)為,大數(shù)據(jù)似乎將面臨勞動(dòng)力瓶頸,因?yàn)楝F(xiàn)有大數(shù)據(jù)專家們技能提升的速度遠(yuǎn)遠(yuǎn)不夠數(shù)據(jù)的增長速度。麥肯錫全球?qū)W會(huì)在2012年發(fā)布的一份報(bào)告也顯示,美國需要14萬名至19萬名具有“深度分析”經(jīng)驗(yàn)的工作者,以及150萬名更加精通數(shù)據(jù)的經(jīng)理人,無論是已退休人士還是已受聘人士。這個(gè)數(shù)字無疑是龐大的。
管理大數(shù)據(jù)要比搜集大數(shù)據(jù)意義重大的多,如何問問題,如何定義問題,從哪里提取數(shù)據(jù)?這都需要專業(yè)數(shù)據(jù)分析人士的技能,如果個(gè)人數(shù)字世界的算法過于簡單,就不會(huì)達(dá)到預(yù)期描繪的那般智能。試想,如果沒有挖掘出數(shù)據(jù)背后真正的價(jià)值,那么,再龐大的數(shù)據(jù)量也只是空彈,無法擊中要害。所以,大數(shù)據(jù)專家們都應(yīng)該意識(shí)到大數(shù)據(jù)技術(shù)的局限和不足,培養(yǎng)經(jīng)驗(yàn)和敏銳的直覺,不能僅把聽取數(shù)據(jù)放在重要的位置。
也許現(xiàn)在大多數(shù)應(yīng)用大數(shù)據(jù)的企業(yè),還只邁步在1.0、2.0版本上,但真正意義上的大數(shù)據(jù)時(shí)代,也許要到3.0版才能實(shí)現(xiàn)。
——電子科技大學(xué)互聯(lián)網(wǎng)科學(xué)中心主任、教授、博士生導(dǎo)師周濤
善用數(shù)據(jù),讓版本升級(jí)
在新一次可能的第三次工業(yè)革命中,數(shù)據(jù)、計(jì)算將扮演材料、能源和先進(jìn)工藝技術(shù)這樣的角色,如果把計(jì)算看成能源,能夠允許它像電力一樣進(jìn)入大眾的生活并流動(dòng)起來,以一種統(tǒng)一的收費(fèi)方式,不在乎計(jì)算從何而來,就像我們不知道今天我們用的5度電是來自大亞灣還是三峽??梢韵胂螅谖磥碓朴?jì)算以及其他的計(jì)算能力將成為一個(gè)國家非常至關(guān)重要的核心戰(zhàn)略之一。數(shù)據(jù)就是其中一種戰(zhàn)略材料,每一個(gè)企業(yè)、科研團(tuán)隊(duì)、都有責(zé)任通過一些計(jì)劃,有目的的搜集、處理、分析和索引數(shù)據(jù)。然而,未來的大數(shù)據(jù)如果想要成就偉大的企業(yè),真正先進(jìn)的工藝技術(shù)來自于更深入的分析,需要更聰明的頭腦,不再等同以前工業(yè)革命時(shí)期的工業(yè)技術(shù),而在于擁有更聰明的頭腦。
當(dāng)然,大數(shù)據(jù)時(shí)代和以前的工業(yè)革命不同的是,它的特征是個(gè)性化的,并且?guī)砭薮蟮睦砟钌系母淖儯瑫r(shí)也帶來商業(yè)模式的變化。電子科技大學(xué)互聯(lián)網(wǎng)科學(xué)中心主任、教授、博士生導(dǎo)師周濤將大數(shù)據(jù)在商業(yè)中的應(yīng)用概括為1.0、2.0和3.0版本?!耙苍S現(xiàn)在大多數(shù)應(yīng)用大數(shù)據(jù)的企業(yè),還只邁步在1.0、2.0版本上,但真正意義上的大數(shù)據(jù)時(shí)代,也許要到3.0版才能實(shí)現(xiàn)?!敝軡f。
1.0版所表現(xiàn)的,是企業(yè)通過自身的業(yè)務(wù)需求產(chǎn)生大量的數(shù)據(jù),然后利用這些數(shù)據(jù),通過深入分析,來優(yōu)化相關(guān)的業(yè)務(wù)。在這個(gè)時(shí)候,數(shù)據(jù)起到了指導(dǎo)決策的作用。
大數(shù)據(jù)的2.0版和1.0版的理念發(fā)生了變化。2.0強(qiáng)調(diào)數(shù)據(jù)的外延,數(shù)據(jù)除了從自身的業(yè)務(wù)產(chǎn)生并解決自身問題外,數(shù)據(jù)本身還有能力解決其他的問題,更有能力把其他數(shù)據(jù)聚集在一起解決自身問題。這里要求企業(yè)搜集與目標(biāo)業(yè)務(wù)直接或間接關(guān)聯(lián)的大量異質(zhì)數(shù)據(jù),建立復(fù)雜的分析和預(yù)測模型,產(chǎn)生針對(duì)目標(biāo)業(yè)務(wù)的輸出,這時(shí)候數(shù)據(jù)本身就是決策。
3.0版也許會(huì)帶領(lǐng)大家進(jìn)入真正的大數(shù)據(jù)時(shí)代。3.0版更加關(guān)心數(shù)據(jù)的質(zhì)量價(jià)值,數(shù)據(jù)好不好,有多大價(jià)值,交換如何付費(fèi)等問題,尤其是數(shù)據(jù)的隱私安全。在這個(gè)時(shí)候,會(huì)有類似于電信運(yùn)營商的數(shù)據(jù)運(yùn)營商出現(xiàn),讓所有的學(xué)術(shù)團(tuán)體、企業(yè)、政府,都能夠使用大數(shù)據(jù),這才是真正的大數(shù)據(jù)時(shí)代的來臨。