今年初,美國總統奧巴馬宣布以2 億美元投資大數據領域,美國政府將數據定義為“未來的新石油”。
從各種各樣類型的數據中,快速獲得有價值信息的能力,就是大數據技術。掌握這一技術已經成為一種新的競爭優勢,一類新的經濟資產。之于商業,它就如企業巨輪遠航的一片藍海,而它又不只是企業的“專利”;之于政府,應用好大數據,是構建高效服務型政府的關鍵。
“統計學在最近幾年發展非常快,今后也將更多地應用于社會的各個領域,大數據時代即將來臨。”胡善慶告訴《支點》記者。目前在美國喬治華盛頓大學擔任客座教授的胡善慶,曾于2004 年到2012 年間擔任美國統計局和商務部的高級顧問。
小時候跟隨父母移民美國的胡善慶,對于統計學有著天生愛好。在喬治華盛頓大學取得數理統計學博士學位后,他便進入美國政府部門工作。2000年,他被任命為能源部首任國家申訴專員,此前還曾擔任聯邦農業部民權司副司長,負責管理信息科技以及申訴等事務。如今,身為著名統計學家的胡善慶,同時也是美國“百人會”調研委員會主席。
作為一個快速成長的經濟大國,中國的統計數字也日益受到重視,并對世界具有重大影響力。“我是希望能有機會到中國多走走,增長見識。興趣所在是利用學歷經驗,為社團學術界提供扶助創新機會。”胡善慶說,中國有非常廣闊的大數據應用市場。
以下,是《支點》記者與胡善慶博士的對話。
傳統數據統計模式的終結
《支點》:如今在數據大爆炸時代,傳統的統計方法存在哪些局限性?
胡善慶:上個世紀,各國人口和經濟的測量與推論主要采用的是傳統的普查以及隨機抽樣調查的方式,這兩種數據統計方法對各國政策制定和信息傳遞都是非常重要的。
但就普查而言,雖然過去許多世紀都證明了它的重要性,不過它確實存在一些眾所周知的實際弱點。因為,人類活動是連續和動態的,但普查只能為一個指定的普查日子或短暫時期提供一個比較全面的速映,更多的時間被花費在數據處理、分析及報告結果上。通常普查結果在被宣布時,它們已經過時了。
在中國進行人口調查,其復雜程度難以想象。抽樣數據的獲得需要同31個省市區、4800個村莊、4420個鎮區和2133個城區中的150萬人面談才行。
同時,大部分國家,甚至發達國家,都面對嚴格的財政預算限制。現在的高費用、低回收的普查和調查辦法否定了它們新引進或擴張一貫做法的可能性。全球普查和調查反應率下降亦把問題搞得復雜。比如,在美國,盡管多方計劃和努力,其2010年的普查參與率僅僅達到2000 年的74%。到了個人面談的地步,普查平均費用升到每戶56 美元,超過最初的郵寄費用的100 倍。
在數據大爆炸時代,國家統計局面對的真實挑戰是令人畏懼的,20 世紀的統計系統不能滿足21世紀的需求。應用政府統計的網民正在快速地在數字和廣度方面增加。他們需要更廣泛、更動態、更及時的數據,并能容易地存取和了解,但現有方法必需的資源和時間都不可得或不能負擔。
《支點》:與之前相比,21世紀的統計系統發生了怎樣的變化?“大數據”對政府工作和企業生產帶來了哪些改變?
胡善慶:根據南加州大學的一項研究,世界電子儲藏數量在2002 年第一次超越了非電子儲藏數量。在2007 年,地球上至少94% 的所有資訊都以電子形式儲藏。于是,數據可以沒有抽取樣品的需要或考慮,可將其完整地電子化直接輸入機器處理和計算。
電子儲藏的快速發展也帶來了21 世紀統計系統和方法的改變,縱向數據的研究成為可能。所謂縱向數據,是對同一單位( 例如一個工人、一位學生、一個家庭、一門生意、一所學校或一座醫院) 在時間上重復觀察所得的數據。它能在個體水平提供獨特的底線和變化計量。
大數據是一個有關非常大量電子數據的新用詞,它很可能不是根據傳統統計系統的結構和概率原則而進行收集的。行政記錄、社會媒體、條碼和電波掃描儀、運輸感應器、能源和環境監視器、在線交易、流影像和人造衛星圖像,這些都是大數據來源和爆發生長的因素。
私營企業在生產大數據已領先起步,組合政府的統計,發展數據挖掘技術和方法來識別潛在的消費者、擴張市場、測試新產品、并抽取新訊息以作其他市場及客戶研究。有些情況下,他們甚至可向傳統的政府功能挑戰。例如,一些社會媒體搜索的言詞被用來做感冒的指標,它的表現不比公共衛生機關的指標差,在及時方面也更勝一籌。
盡管政府統計在大數據汪洋中的分量逐漸減少,但它仍然擁有其支持全球化的經濟體制及解決不斷擴張的社會需求的獨特重要。然而,當我們活在可以數秒鐘內上網搜索展示百萬計的結果和國際股票市場日夜即時報道成交數據的時代,要等多月甚至多年才可收集、處理、發放在地理、企業與人口都有限制的靜態結果將失去它的意義。