由于移動互聯網和云計算的崛起,數據量的激增讓大數據概念在互聯網行業中炒的十分火熱。根據IDC 2011年發布的Digital Universe Study,全球信息總量每過兩年,就會增長一倍。僅在2011年,全球被創建和被復制的數據總量為1.8ZB(1.8萬億GB)。相較2010年同期上漲超過1ZB,到2020年這一數值將增長到35ZB,這就是大數據的創建和產生。
“大數據(Big Data)”并非新生事物,它在物理學、生物學、環境生態學、自動控制等科學領域,以及軍事、通訊、金融等行業業已存在多年。近年來,隨著互聯網行業的蓬勃發展,大數據愈來愈得到人們的關注,開始煥發出勃然生機。2012年初,《紐約時報》撰文,宣告“大數據時代”已然降臨。文章指出,“大數據”正在對各個領域都造成影響。舉例而言,在商業、經濟及其他領域中,越來越多的決策行為將日益依賴于對數據的收集和梳理分析而做出,基于經驗和直覺的判斷將被質疑;而在公共衛生、經濟發展和經濟預測等領域中,“大數據”的預見能力也已嶄露頭角。
Gartner對“大數據”做出定義:“大數據”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。這一定義指出大數據將成為企業和社會的重要資產。
從某種程度上說,大數據是數據分析的前沿技術。簡言之,從各種各樣的數據中,快速獲得有價值的信息的能力,就是大數據技術。明白這一點至關重要,也正是這一點促使該技術具備走向眾多企業的潛力。
大數據可分成大數據技術、大數據工程、大數據科學和大數據應用等領域。目前人們談論最多的是大數據技術和大數據應用。工程和科學問題尚未被重視。大數據工程是指大數據的規劃建設運營管理的系統工程;大數據科學則關注大數據網絡發展和運營過程中發現和驗證大數據的規律及其與自然和社會活動之間的關系。
大數據具備四個層面的特點,它們分別是:第一,數據體量巨大:從TB級別,躍升到PB級別,甚至EB級別;第二,數據類型繁多:數據多樣,網絡日志、視頻、圖片、地理位置信息等等,幾乎無所不包。第三,價值密度低:不相關信息數量龐大,需要深度挖掘分析。例如,在連續不斷的視頻監控過程中,可能有用的數據僅有一兩秒。第四,處理速度快:“1秒定律”,即實時分析而非批量式分析,立竿見影而非事后見效,而這與傳統的數據挖掘技術有著本質的不同。業界將其歸納為4個“V”——Volume、Variety、Value、Velocity。
隨著互聯網技術的不斷發展,“數據即資產”這一觀點在業界已達成共識。如果說云計算為數據資產提供了保管、訪問的場所和渠道,那么如何盤活數據資產,使其為國家治理、企業決策乃至個人生活服務,則是大數據的核心議題,也是云計算內在的靈魂和必然的升級方向。從技術發展的角度來看,大數據仍處于高速成長期。
大數據是具有國家戰略意義的新興產業,正受到政府的高度關注。《“十二五”國家戰略性新興產業發展規劃》提出支持海量數據存儲、處理技術的研發與產業化;《物聯網“十二五”發展規劃》中,也將信息處理技術列為四項關鍵技術創新工程之一,其中包括海量數據存儲、數據挖掘、圖像視頻智能分析,另外三項關鍵技術創新工程,包括信息感知技術、信息傳輸技術、信息安全技術,也都是大數據產業的重要組成部分,與大數據產業發展密切相關。