說到大數據,你先想到什么?
超過PB級的流量和存儲,電子商務網站的各種購買記錄、購物車記錄和頁面瀏覽記錄,上億用戶級別的社交網絡,抓取整個互聯網的搜索引擎,金融領域以秒作為時間間隔的、快速變更的交易信息,3D地圖,每天增長飛速的圖片、音頻和視頻流……
業界對大數據普遍進行了幾方面的特征定義,如數據量大、數據類型復雜、處理速度快。再說的直白點,大數據相比“傳統”上的數據處理,不過是各方面維度的量級增加而已,由于技術的進步,把以前需要用大型機計算一個月的數據,變成用一個普通的機器或廉價的集群用幾秒鐘就能處理完畢的工作。
從這個角度來看,大數據的趨勢其實針對各行各業都適用,而并非只是互聯網、金融、搞氣象或天文的科研機構這幾個行業的專屬趨勢。所以,當微軟的CIO也開始談論大數據的時候,各位也不必感到驚訝。
上周,微軟公司副總裁兼首席信息官Tony Scott(@kncukier)在北京微軟大廈與幾家媒體見面,一起聊了一些大數據方面的話題,51CTO記者也受邀參加。在談到大數據的整體趨勢時,Scott很高興的將自己兒子的一個案例故事分享給大家聽:
“我兒子最近在洛杉磯,自己創辦了一家小企業。我非常驚訝的發現,他免費的獲得了很多的洛杉磯本土的人文信息,他從事行業的業務信息以及流量信息。對大量的免費信息進行綜合分析之后,能夠準確地做一個業務決策:這個業務從哪兒開始做,如業務門店的選址等。如果是在十年之前,這樣的數據要么是無法獲得,要么就是要花高昂的成本購買。但是現在令人驚喜的一點是,所有的數據是免費的,而且為他提供很好的知情的業務決策。”
一個獨立創業者涉及到的數據量雖然還稱不上多“大”,但要知道這可僅僅是冰山一角。單單是“門店選址”這一塊需求,不用說面向整個城市,想想看單就海淀區有多少這方面的需求:就算不考慮那些街邊賣水果煎餅的路攤,要考慮到人流量、時間段、購買能力、購買欲望等等因素,這個數據量就已經相當可觀了。
大數據在微軟
根據Scott的介紹,目前微軟內部的IT部門負責對微軟在全球的9萬名直接員工提供服務,加上微軟服務供應商和外部咨詢員等第三方人員,總用戶數量大約在27萬左右。IT部門本身不擁有數據中心:他們自己也是微軟各種云計算業務的租戶之一,如Azure,Office 365,MSN,Bing搜索,Hotmail等等。
針對這27萬用戶的服務,微軟IT部門直接可管理的物理服務器有8000臺,如果考慮虛擬化的情況則是至少24000個虛機,整個集群上運行著代號為Isotope的微軟大數據平臺(Hadoop到Windows Server的端口),為微軟內部的營銷團隊、測試團隊等用戶提供支持。IT部門管理的終端聯網設備在30萬臺左右,其中有大量的PC機,還有因最近BYOD(自帶設備辦公)趨勢下所增長的個性化移動設備。
“關于我們的營銷團隊的一個例子,他們試圖對各種不同類型客戶的在線和離線行為進行建模。他們的數據集從數億到數十萬不等,由于當前模型預測的局限性,試圖對在線和離線進行建模是非常困難的。根據我們的大數據演示,未來我們應該能夠提供更強大的預測變量,更好的控制模型開發,更靈活的驗證模型,縮短結果呈現的周期,并降低開發和維護成本。”
Scott也提到這個平臺是如何支持上周剛剛發布RP版本的Windows 8產品開發的。眾所周知,Windows自身有一套bug反饋系統,在用戶系統崩潰了的時候,系統會將錯誤報告發送給微軟的研發團隊。比如在Windows 8的測試版本發布之后,就會收到來自上百萬臺PC反饋的信息。對這些bug信息進行分析建模,根據反饋的結果進行產品改良,才有最終Windows 8的完成。
大數據在各行各業
微軟的IT部門跟許多非企業級技術類公司的IT部門的職責還不完全一樣。由于微軟本身就是一個龐大的企業,而微軟的大部分業務是面向企業級用戶所研發的,因此微軟會先內部部署試用自己的產品(即業界常常提到的“吃狗糧”文化)。也正因為如此,雖然身為微軟面向內部的CIO,但Scott也會經常跟微軟的產品技術部門溝通,也會跟微軟的客戶們溝通,使微軟自身能夠以微軟產品“第一用戶”的身份進行經驗分享。而Scott還有另一個優勢,就是在加盟微軟之前,他曾先后在萬豪國際集團、通用汽車、迪斯尼等企業就職,對于這些傳統行業的狀態和需求都有一定的了解。
“對于制造行業來說,有的制造商屬于大的制造商,他們生產的產品數以百萬計,而且在全球進行分銷,這些產品可能是PC機、手機,或者其他的智能設備,或者是汽車。對于這些制造商來說,他們必須收集用戶使用這些產品的信息,幫助他們去開發、生產更高質量,而且對用戶來說更適用的產品……再比如說我們有一個規模非常大的工廠,可能每天要生產幾千臺大型的設備,整個制造流水線當中有不同的流程。那么就需要收集每個流程的信息,從而更好地進行質量的控制,提高最終成品的質量。這樣的技術應用已經在汽車制造行業,電子設備制造行業,還有一些醫療設備制造行業所廣泛的使用。”
Scott也曾經在醫藥公司工作過。“你也知道,醫藥公司早期的研發或者銷售時,通常都是搜集月度的信息,利用原來傳統的數據庫的工具,花幾個月才能分析出來。現在有了大數據的工具,我們以小時為單位來采集數據,在不到幾分之幾秒的時間里獲得以前一個星期甚至一個月才能得出的數據結果。而且這一切都是以實時方式實現的。”
共同的機遇與挑戰
現在,有云計算集群這樣價格相對低廉的、可出租的強大計算力,有Hadoop這樣開源的軟件框架來支持海量數據的快速分析,一些以前需要一個資金雄厚的組織花費大量人力物力完成的任務,現在很可能一個不到十人的小團隊,花費很少的成本就能夠完成。
“對于微軟的客戶來說,最關鍵的一點,一方面通過云的技術能夠讓用戶獲得無限計算的資源,來去分析大規模的數據,而且對客戶來說,成本是低到可以接受的程度。通過對大數據的分析,能夠讓客戶獲得獨一無二的洞察力,而且有的時候是非常專業性的學習能力。而且隨著時間的推移,每一年這樣的學習能力,這樣的洞察力都在變得更好。”Scott十分看好大數據應用在各個專業領域的發展前景。“我們看到在不同的領域,比如說醫藥領域,科學技術領域,基礎研究領域,制造,甚至是天氣預報的領域,都出現一些非常有意思的大數據類型的應用。而且逐漸的也能夠對這樣一些應用帶來的成果進行評估。正是因為通過私有云,或者公有云匯集計算的力量,我們才能夠獲得這樣一個獨一無二的機會,解決一些以前無法解決的非常有意義的問題。”
這也意味著整個市場會誕生很多新的機會。就企業而言,以前可能是一些在數據方面和統計學專業方面的商業分析員,使用著那些普通人看也看不懂的工具,每個月一次生成報表給業務人員和領導們看,由此輔助企業的戰略制定。而大數據應用成熟之后,很多業務部門的人自己也可以用一些通用的工具來處理很多很容易就拿到的數據,進行自己的業務決策。這種快速、低門檻的環境,將推動大量細分市場的發展。
而另一方面,對于任何數據分析而言,都存在一個最初的問題:我們要收集哪些數據?要以怎樣的頻率收集這些數據?我們又要保留哪些數據?需要保留多長的時間?很多時候,并不是數據越多越好。甚至對錯誤的數據進行分析,還會引導出錯誤的商業決策。Scott認為,目前我們還缺乏一個很好的框架來解決這些問題。不過,Scott建議大家可以從兩個方面來考慮:“第一個方面,你要了解,保留這些數據能帶來什么樣的商業價值?第二個方面,可以看看相關的IT治理政策條例是怎樣制定的。”
原文鏈接:http://os.51cto.com/art/201206/340631.htm