據市場研究公司IDC統計,未來10年里預計數字信息總量將在2009年到2020年期間增長44倍,全球數據使用量將達到大約35.2ZB(1ZB = 10億TB)。與此同時,單個數據集的文件尺寸也將增加,導致對更大處理能力的需求以便分析和理解這些數據集。
一項由Unisphere Research對531名獨立Oracle用戶進行的調查發現,百分之九十的企業的數據量在迅速上漲,其中16%的企業每年的增長率達到50%或更高。不少企業已經感受到失控數據增長對績效造成的沖擊,其中發現87%的受訪者將企業的應用程序性能問題歸咎于不斷增長的數據量。
為什么人們對大數據如此感興趣?大數據是一股突破性的經濟和技術力量,它為IT支持引入了新的基礎架構。大數據解決方案消除了傳統的計算和存儲的局限。借助于不斷增長的私密和公開數據,一種劃時代的新商業模式正在興起,它有望為大數據客戶帶來新的實質性的收入增長點以及富于競爭力的優勢。
大數據之華山論劍
盡管"Big Data"可以翻譯成大數據或者海量數據,但大數據和海量數據是有區別的。Informatica中國區首席產品顧問但彬認為:"大數據"包含了"海量數據"的含義,而且在內容上超越了海量數據,簡而言之,"大數據"是"海量數據"+復雜類型的數據。大數據包括交易和交互數據集在內的所有數據集,其規模或復雜程度超出了常用技術按照合理的成本和時限捕捉、管理及處理這些數據集的能力。大數據是由三項主要技術趨勢匯聚組成:海量交易數據、海量交互數據、海量數據處理。
EMC公司全球高級副總裁、大中華區總裁葉成輝在接受記者采訪時表示:大數據目前沒有統一的定義。通常認為,它是海量的非結構化數據,其特點是數據量很大,數據的形式多樣化。
NetApp 大中華區總經理陳文所理解的大數據包括A、B、C三個要素:大分析(Analytic),高帶寬(Bandwidth)和大內容(Content)。
IBM用三個"V"來作為大數據的判斷依據,只要滿足了其中的兩個即為大數據:多樣性(variety)、體量(volume)和速度(velocity)。其中,多樣性是指,數據應包含結構化的和非結構化的數據。體量是指聚合在一起供分析的數據量必須是非常龐大的。而速度則是指數據處理的速度必須很快。
對于大企業而言,大數據的興起部分是因為計算能力可用更低的成本獲得,且各類系統如今已能夠執行多任務處理。其次,內存的成本也在直線下降,企業可以在內存中處理比以往更多的數據。還有就是把計算機聚合成服務器集群越來越簡單。IDC的數據庫管理分析師Carl Olofson認為,這三大因素的結合便催生了大數據。
Olofson說,大數據"并非總是說有數百個TB才算得上。根據實際使用情況,有時候數百個GB的數據也可稱為大數據,這主要要看它的第三個維度,也就是速度或者時間維度。假如我能在1秒之內分析處理300GB的數據,而通常情況下卻需要花費1個小時的話,那么這種巨大變化所帶來的結果就會增加極大的價值。所謂大數據技術,就是至少實現這三個判據中的兩個的可承受得起的一種應用。"
大數據意味著通過更快獲取信息來使做事情的方式變得與眾不同,并因此實現突破。大數據被定義為大量數據(通常是非結構化的),它要求我們重新思考如何存儲、管理和恢復數據。那么,多大才算大呢?考慮這個問題的一種方式就是,它是如此之大,以至于我們今天所使用的任何工具都無法處理它,因此,如何消化數據并把它轉化成有價值的洞見和信息,這其中的關鍵就是轉變。
總之,大數據已經引起了各家IT廠商的關注,大數據備受關注的原因有兩個,一個數據結構復雜,數據挖掘過程困難;第二,數據量大,而且更新快,處理及時性要求特別高。
#p#副標題#e#
大數據引發新一輪的收購潮
Gartner曾經有報告指出,有85%的數據屬于廣泛存在于社交網絡、物聯網、電子商務等之中的非結構化數據。這些非結構化數據的產生往往伴隨著社交網絡、移動計算和傳感器等新的渠道和技術的不斷涌現和應用。
而IDC在一篇關于大數據的報告中指出,大數據的商業價值是領軍企業與其他企業之間最大的顯著差別。那些沒有引入新分析技術和新數據類型的企業,不太可能成為這個行業的領軍者。
所以,有專家認為,"大數據"的推動因素主要是來自一些特大型公司,如谷歌、Youtube等。這些公司需要以非常優化的方式分析數據和讓計算與存儲配合工作。另外,一些來自健康醫療、地理空間影像和數字媒體等行業的各種大數據,很顯然,這些數據到不一定有多大,但是處理這些數據集通常要分配到幾個系統耗費超過24個小時的時間才能完成。
一些分析師認為,互聯網上的視頻通訊的瘋狂增長將推動數據的持續增長。但是,據Ideas International存儲分析師Christian Ober稱,新型電表等智能設備傳輸數據的增長將在更大的范圍內推動這些龐大的數據集。這是在那里應用無數的傳感器,傳送實時數據以便進行分析。
伴隨著大數據時代的洶涌襲來,業界IT巨頭也開始行動起來了。IT巨頭紛紛通過收購大數據相關廠商來實現技術整合。其中,最大的收購要數Oracle收購Sun。EMC收購Isilon公司,其集群NAS產品就屬于橫向擴展(Scale-out)存儲,而該技術的優勢正是處理非結構性數據。隨后,EMC收購的Greenplum,則用來補充針對數據庫類的大數據的解決方案。
IBM收購的Netezza也是類似于Greenplum的技術,充分考慮到了現在的存儲需求。近期,Teradata也在積極地收購行動,先后收購了Aprimo和Aster Data兩家大數據技術處理公司,Teradata的用意非常明顯,搶占即將到來的大數據市場的先機。
ESG中國區總經理兼高級分析師王叢表示,大數據這一領域將會有一些新技術推出,在未來1-2年內,預計會不斷涌現能處理大型非結構化數據的技術。王叢認為,目前北美廠商仍走在全球的前列,而中國國內的廠商目前仍主要在考慮怎么樣生產存儲和硬件設備,而沒有考慮到全面的解決方案。EMC、IBM收購這些公司的目的是整合整個解決方案,讓它在IT上是透明的,進一步靠近存儲、靠近數據。
面對大數據來襲,很多IT巨頭IBM、EMC、Teradata等已經提前開始布局,通過收購實現產品的整合,以滿足新的市場需求。而一些開源技術和產品也適時地發展壯大起來,迎合著各行業用戶的需求,幾乎成為業界公認的標準技術了。
大數據也有“大智慧”
基于MapReduce的Hadoop引起業界的廣泛關注,而且也逐漸得到大批主流數據廠商的支持。在大數據領域中,包括Hadoop、MapReduce等一些新技術都得到了更廣泛的應用,Hadoop MapReduce為通用計算與分布式架構架起了一座橋梁,而傳統的企業數據倉庫技術則遭遇了前所未有的挑戰。通過使用Apache Hadoop,企業能夠避于支付大量的軟件許可費用,還可以根據變更的需求更改原代碼從而得到更高的靈活性。
據了解,Hadoop是一個分布式系統基礎架構,由Apache基金會開發。用戶可以在不了解分布式底層細節的情況下,開發分布式程序。充分利用集群的威力高速運算和存儲。簡單地說來,Hadoop是一個可以更容易開發和運行處理大規模數據的軟件平臺,是和各種Apache項目密切相關的混合實施環境。
Hadoop實現了一個分布式文件系統(Hadoop Distributed File System),簡稱HDFS。HDFS有著高容錯性(fault-tolerent)的特點,并且設計用來部署在低廉的(low-cost)硬件上。而且它提供高傳輸率(high throughput)來訪問應用程序的數據,適合那些有著超大數據集(large data set)的應用程序。HDFS放寬了(relax)POSIX的要求(requirements)這樣可以流的形式訪問(streaming access)文件系統中的數據。Hadoop具有以下主要特點:
1 擴容能力(Scalable):能可靠地(reliably)存儲和處理千兆字節(PB)數據。
2 成本低(Economical):可以通過普通機器組成的服務器群來分發以及處理數據。這些服務器群總計可達數千個節點。
3 高效率(Efficient):通過分發數據,hadoop可以在數據所在的節點上并行地(parallel)處理它們,這使得處理非常的快速。
4 可靠性(Reliable):hadoop能自動地維護數據的多份復制,并且在任務失敗后能自動地重新部署(redeploy)計算任務。
同時,不同的IT公司在面對大數據的時候處理方式也有不同。SAP中國區企業信息管理咨詢資深顧問杜韜在接受記者采訪時,分析了應該如何處理分析大數據。一方面,在數據中心使用標準的虛擬化以及分布式存儲;另一方面,推出內存計算技術應對數據應用和分析的挑戰。杜韜認為,傳統的架構存在很大的瓶頸,磁盤讀取是以毫秒為單位,而內存讀取則是納秒為單位的。因此,以前需要在應用層做的計算分析,比如預測分析或者大量運算,都應該放到內存里操作,從而實現性能提升,以充分利用數據。
Yahoo!北京全球軟件研發中心架構師韓軼平分析稱,Yahoo通過三步應對大數據:數據采集、數據存儲和數據處理等。在數據采集方面,Yahoo建立幾個數據中心、幾十萬臺機器的實時搜集數據系統是一個主干道負責把數據經過過濾、清理以后進行整合,在高可靠性的情況下,把它放到Hadoop平臺。雖然相對來說精度很高、效果很好,但速度會慢一些。為了滿足實時性的需求,還有一個旁路系統,旁路系統在秒級能夠把數據匯到主干道上,這是數據采集的部分。在數據存儲方面,基本上以HDFS為核心。而在數據處理方面,主要技術是Hadoop、MapReduce以及Yahoo自己開發的Pig。
但是,很多專家也提出來,開源技術一般是沒有商業支持的,所以這些東西還必須讓其進化一段時間,逐漸剔除各種缺陷,而這一般需要數年的時間。這就是說,羽毛未豐的大數據技術Hadoop目前還無法在普通市場上普及。
所以有專家提出EDW(企業數據倉庫)來解決大數據的問題。那么,如何在Hadoop和EDW之間做出選擇困擾著許多企業用戶。Teradata公司的首席客戶官周俊凌認為,技術以及平臺的選擇在大數據時代同之前相比并沒有太多的不同,企業首先考慮的仍然是自身業務需求。Hadoop架構的存在有它的理由,但是這并不意味著在成本方面會比EDW有更多優勢。同時,Teradata公司的首席客戶官周俊凌提醒用戶:"企業在進行技術的選擇時不應只看首次投入的成本,Hadoop不是一勞永逸的,你需要不斷對其進行維護,考慮持續的投入,無論是人力還是物力,它都可能會比傳統的EDW要大。因此企業不應該一味迷信于新技術,無論是購買平臺還是進行定制,用戶需要從自身需求出發。"
原文鏈接:http://server.zol.com.cn/256/2568373.html