據(jù)市場(chǎng)研究公司IDC統(tǒng)計(jì),未來(lái)10年里預(yù)計(jì)數(shù)字信息總量將在2009年到2020年期間增長(zhǎng)44倍,全球數(shù)據(jù)使用量將達(dá)到大約35.2ZB(1ZB = 10億TB)。與此同時(shí),單個(gè)數(shù)據(jù)集的文件尺寸也將增加,導(dǎo)致對(duì)更大處理能力的需求以便分析和理解這些數(shù)據(jù)集。
一項(xiàng)由Unisphere Research對(duì)531名獨(dú)立Oracle用戶進(jìn)行的調(diào)查發(fā)現(xiàn),百分之九十的企業(yè)的數(shù)據(jù)量在迅速上漲,其中16%的企業(yè)每年的增長(zhǎng)率達(dá)到50%或更高。不少企業(yè)已經(jīng)感受到失控?cái)?shù)據(jù)增長(zhǎng)對(duì)績(jī)效造成的沖擊,其中發(fā)現(xiàn)87%的受訪者將企業(yè)的應(yīng)用程序性能問題歸咎于不斷增長(zhǎng)的數(shù)據(jù)量。
為什么人們對(duì)大數(shù)據(jù)如此感興趣?大數(shù)據(jù)是一股突破性的經(jīng)濟(jì)和技術(shù)力量,它為IT支持引入了新的基礎(chǔ)架構(gòu)。大數(shù)據(jù)解決方案消除了傳統(tǒng)的計(jì)算和存儲(chǔ)的局限。借助于不斷增長(zhǎng)的私密和公開數(shù)據(jù),一種劃時(shí)代的新商業(yè)模式正在興起,它有望為大數(shù)據(jù)客戶帶來(lái)新的實(shí)質(zhì)性的收入增長(zhǎng)點(diǎn)以及富于競(jìng)爭(zhēng)力的優(yōu)勢(shì)。
大數(shù)據(jù)之華山論劍
盡管"Big Data"可以翻譯成大數(shù)據(jù)或者海量數(shù)據(jù),但大數(shù)據(jù)和海量數(shù)據(jù)是有區(qū)別的。Informatica中國(guó)區(qū)首席產(chǎn)品顧問但彬認(rèn)為:"大數(shù)據(jù)"包含了"海量數(shù)據(jù)"的含義,而且在內(nèi)容上超越了海量數(shù)據(jù),簡(jiǎn)而言之,"大數(shù)據(jù)"是"海量數(shù)據(jù)"+復(fù)雜類型的數(shù)據(jù)。大數(shù)據(jù)包括交易和交互數(shù)據(jù)集在內(nèi)的所有數(shù)據(jù)集,其規(guī)模或復(fù)雜程度超出了常用技術(shù)按照合理的成本和時(shí)限捕捉、管理及處理這些數(shù)據(jù)集的能力。大數(shù)據(jù)是由三項(xiàng)主要技術(shù)趨勢(shì)匯聚組成:海量交易數(shù)據(jù)、海量交互數(shù)據(jù)、海量數(shù)據(jù)處理。
EMC公司全球高級(jí)副總裁、大中華區(qū)總裁葉成輝在接受記者采訪時(shí)表示:大數(shù)據(jù)目前沒有統(tǒng)一的定義。通常認(rèn)為,它是海量的非結(jié)構(gòu)化數(shù)據(jù),其特點(diǎn)是數(shù)據(jù)量很大,數(shù)據(jù)的形式多樣化。
NetApp 大中華區(qū)總經(jīng)理陳文所理解的大數(shù)據(jù)包括A、B、C三個(gè)要素:大分析(Analytic),高帶寬(Bandwidth)和大內(nèi)容(Content)。
IBM用三個(gè)"V"來(lái)作為大數(shù)據(jù)的判斷依據(jù),只要滿足了其中的兩個(gè)即為大數(shù)據(jù):多樣性(variety)、體量(volume)和速度(velocity)。其中,多樣性是指,數(shù)據(jù)應(yīng)包含結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù)。體量是指聚合在一起供分析的數(shù)據(jù)量必須是非常龐大的。而速度則是指數(shù)據(jù)處理的速度必須很快。
對(duì)于大企業(yè)而言,大數(shù)據(jù)的興起部分是因?yàn)橛?jì)算能力可用更低的成本獲得,且各類系統(tǒng)如今已能夠執(zhí)行多任務(wù)處理。其次,內(nèi)存的成本也在直線下降,企業(yè)可以在內(nèi)存中處理比以往更多的數(shù)據(jù)。還有就是把計(jì)算機(jī)聚合成服務(wù)器集群越來(lái)越簡(jiǎn)單。IDC的數(shù)據(jù)庫(kù)管理分析師Carl Olofson認(rèn)為,這三大因素的結(jié)合便催生了大數(shù)據(jù)。
Olofson說(shuō),大數(shù)據(jù)"并非總是說(shuō)有數(shù)百個(gè)TB才算得上。根據(jù)實(shí)際使用情況,有時(shí)候數(shù)百個(gè)GB的數(shù)據(jù)也可稱為大數(shù)據(jù),這主要要看它的第三個(gè)維度,也就是速度或者時(shí)間維度。假如我能在1秒之內(nèi)分析處理300GB的數(shù)據(jù),而通常情況下卻需要花費(fèi)1個(gè)小時(shí)的話,那么這種巨大變化所帶來(lái)的結(jié)果就會(huì)增加極大的價(jià)值。所謂大數(shù)據(jù)技術(shù),就是至少實(shí)現(xiàn)這三個(gè)判據(jù)中的兩個(gè)的可承受得起的一種應(yīng)用。"
大數(shù)據(jù)意味著通過(guò)更快獲取信息來(lái)使做事情的方式變得與眾不同,并因此實(shí)現(xiàn)突破。大數(shù)據(jù)被定義為大量數(shù)據(jù)(通常是非結(jié)構(gòu)化的),它要求我們重新思考如何存儲(chǔ)、管理和恢復(fù)數(shù)據(jù)。那么,多大才算大呢?考慮這個(gè)問題的一種方式就是,它是如此之大,以至于我們今天所使用的任何工具都無(wú)法處理它,因此,如何消化數(shù)據(jù)并把它轉(zhuǎn)化成有價(jià)值的洞見和信息,這其中的關(guān)鍵就是轉(zhuǎn)變。
總之,大數(shù)據(jù)已經(jīng)引起了各家IT廠商的關(guān)注,大數(shù)據(jù)備受關(guān)注的原因有兩個(gè),一個(gè)數(shù)據(jù)結(jié)構(gòu)復(fù)雜,數(shù)據(jù)挖掘過(guò)程困難;第二,數(shù)據(jù)量大,而且更新快,處理及時(shí)性要求特別高。
#p#副標(biāo)題#e#
大數(shù)據(jù)引發(fā)新一輪的收購(gòu)潮
Gartner曾經(jīng)有報(bào)告指出,有85%的數(shù)據(jù)屬于廣泛存在于社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)、電子商務(wù)等之中的非結(jié)構(gòu)化數(shù)據(jù)。這些非結(jié)構(gòu)化數(shù)據(jù)的產(chǎn)生往往伴隨著社交網(wǎng)絡(luò)、移動(dòng)計(jì)算和傳感器等新的渠道和技術(shù)的不斷涌現(xiàn)和應(yīng)用。
而IDC在一篇關(guān)于大數(shù)據(jù)的報(bào)告中指出,大數(shù)據(jù)的商業(yè)價(jià)值是領(lǐng)軍企業(yè)與其他企業(yè)之間最大的顯著差別。那些沒有引入新分析技術(shù)和新數(shù)據(jù)類型的企業(yè),不太可能成為這個(gè)行業(yè)的領(lǐng)軍者。
所以,有專家認(rèn)為,"大數(shù)據(jù)"的推動(dòng)因素主要是來(lái)自一些特大型公司,如谷歌、Youtube等。這些公司需要以非常優(yōu)化的方式分析數(shù)據(jù)和讓計(jì)算與存儲(chǔ)配合工作。另外,一些來(lái)自健康醫(yī)療、地理空間影像和數(shù)字媒體等行業(yè)的各種大數(shù)據(jù),很顯然,這些數(shù)據(jù)到不一定有多大,但是處理這些數(shù)據(jù)集通常要分配到幾個(gè)系統(tǒng)耗費(fèi)超過(guò)24個(gè)小時(shí)的時(shí)間才能完成。
一些分析師認(rèn)為,互聯(lián)網(wǎng)上的視頻通訊的瘋狂增長(zhǎng)將推動(dòng)數(shù)據(jù)的持續(xù)增長(zhǎng)。但是,據(jù)Ideas International存儲(chǔ)分析師Christian Ober稱,新型電表等智能設(shè)備傳輸數(shù)據(jù)的增長(zhǎng)將在更大的范圍內(nèi)推動(dòng)這些龐大的數(shù)據(jù)集。這是在那里應(yīng)用無(wú)數(shù)的傳感器,傳送實(shí)時(shí)數(shù)據(jù)以便進(jìn)行分析。
伴隨著大數(shù)據(jù)時(shí)代的洶涌襲來(lái),業(yè)界IT巨頭也開始行動(dòng)起來(lái)了。IT巨頭紛紛通過(guò)收購(gòu)大數(shù)據(jù)相關(guān)廠商來(lái)實(shí)現(xiàn)技術(shù)整合。其中,最大的收購(gòu)要數(shù)Oracle收購(gòu)Sun。EMC收購(gòu)Isilon公司,其集群NAS產(chǎn)品就屬于橫向擴(kuò)展(Scale-out)存儲(chǔ),而該技術(shù)的優(yōu)勢(shì)正是處理非結(jié)構(gòu)性數(shù)據(jù)。隨后,EMC收購(gòu)的Greenplum,則用來(lái)補(bǔ)充針對(duì)數(shù)據(jù)庫(kù)類的大數(shù)據(jù)的解決方案。
IBM收購(gòu)的Netezza也是類似于Greenplum的技術(shù),充分考慮到了現(xiàn)在的存儲(chǔ)需求。近期,Teradata也在積極地收購(gòu)行動(dòng),先后收購(gòu)了Aprimo和Aster Data兩家大數(shù)據(jù)技術(shù)處理公司,Teradata的用意非常明顯,搶占即將到來(lái)的大數(shù)據(jù)市場(chǎng)的先機(jī)。
ESG中國(guó)區(qū)總經(jīng)理兼高級(jí)分析師王叢表示,大數(shù)據(jù)這一領(lǐng)域?qū)?huì)有一些新技術(shù)推出,在未來(lái)1-2年內(nèi),預(yù)計(jì)會(huì)不斷涌現(xiàn)能處理大型非結(jié)構(gòu)化數(shù)據(jù)的技術(shù)。王叢認(rèn)為,目前北美廠商仍走在全球的前列,而中國(guó)國(guó)內(nèi)的廠商目前仍主要在考慮怎么樣生產(chǎn)存儲(chǔ)和硬件設(shè)備,而沒有考慮到全面的解決方案。EMC、IBM收購(gòu)這些公司的目的是整合整個(gè)解決方案,讓它在IT上是透明的,進(jìn)一步靠近存儲(chǔ)、靠近數(shù)據(jù)。
面對(duì)大數(shù)據(jù)來(lái)襲,很多IT巨頭IBM、EMC、Teradata等已經(jīng)提前開始布局,通過(guò)收購(gòu)實(shí)現(xiàn)產(chǎn)品的整合,以滿足新的市場(chǎng)需求。而一些開源技術(shù)和產(chǎn)品也適時(shí)地發(fā)展壯大起來(lái),迎合著各行業(yè)用戶的需求,幾乎成為業(yè)界公認(rèn)的標(biāo)準(zhǔn)技術(shù)了。
大數(shù)據(jù)也有“大智慧”
基于MapReduce的Hadoop引起業(yè)界的廣泛關(guān)注,而且也逐漸得到大批主流數(shù)據(jù)廠商的支持。在大數(shù)據(jù)領(lǐng)域中,包括Hadoop、MapReduce等一些新技術(shù)都得到了更廣泛的應(yīng)用,Hadoop MapReduce為通用計(jì)算與分布式架構(gòu)架起了一座橋梁,而傳統(tǒng)的企業(yè)數(shù)據(jù)倉(cāng)庫(kù)技術(shù)則遭遇了前所未有的挑戰(zhàn)。通過(guò)使用Apache Hadoop,企業(yè)能夠避于支付大量的軟件許可費(fèi)用,還可以根據(jù)變更的需求更改原代碼從而得到更高的靈活性。
據(jù)了解,Hadoop是一個(gè)分布式系統(tǒng)基礎(chǔ)架構(gòu),由Apache基金會(huì)開發(fā)。用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序。充分利用集群的威力高速運(yùn)算和存儲(chǔ)。簡(jiǎn)單地說(shuō)來(lái),Hadoop是一個(gè)可以更容易開發(fā)和運(yùn)行處理大規(guī)模數(shù)據(jù)的軟件平臺(tái),是和各種Apache項(xiàng)目密切相關(guān)的混合實(shí)施環(huán)境。
Hadoop實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)(Hadoop Distributed File System),簡(jiǎn)稱HDFS。HDFS有著高容錯(cuò)性(fault-tolerent)的特點(diǎn),并且設(shè)計(jì)用來(lái)部署在低廉的(low-cost)硬件上。而且它提供高傳輸率(high throughput)來(lái)訪問應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集(large data set)的應(yīng)用程序。HDFS放寬了(relax)POSIX的要求(requirements)這樣可以流的形式訪問(streaming access)文件系統(tǒng)中的數(shù)據(jù)。Hadoop具有以下主要特點(diǎn):
1 擴(kuò)容能力(Scalable):能可靠地(reliably)存儲(chǔ)和處理千兆字節(jié)(PB)數(shù)據(jù)。
2 成本低(Economical):可以通過(guò)普通機(jī)器組成的服務(wù)器群來(lái)分發(fā)以及處理數(shù)據(jù)。這些服務(wù)器群總計(jì)可達(dá)數(shù)千個(gè)節(jié)點(diǎn)。
3 高效率(Efficient):通過(guò)分發(fā)數(shù)據(jù),hadoop可以在數(shù)據(jù)所在的節(jié)點(diǎn)上并行地(parallel)處理它們,這使得處理非常的快速。
4 可靠性(Reliable):hadoop能自動(dòng)地維護(hù)數(shù)據(jù)的多份復(fù)制,并且在任務(wù)失敗后能自動(dòng)地重新部署(redeploy)計(jì)算任務(wù)。
同時(shí),不同的IT公司在面對(duì)大數(shù)據(jù)的時(shí)候處理方式也有不同。SAP中國(guó)區(qū)企業(yè)信息管理咨詢資深顧問杜韜在接受記者采訪時(shí),分析了應(yīng)該如何處理分析大數(shù)據(jù)。一方面,在數(shù)據(jù)中心使用標(biāo)準(zhǔn)的虛擬化以及分布式存儲(chǔ);另一方面,推出內(nèi)存計(jì)算技術(shù)應(yīng)對(duì)數(shù)據(jù)應(yīng)用和分析的挑戰(zhàn)。杜韜認(rèn)為,傳統(tǒng)的架構(gòu)存在很大的瓶頸,磁盤讀取是以毫秒為單位,而內(nèi)存讀取則是納秒為單位的。因此,以前需要在應(yīng)用層做的計(jì)算分析,比如預(yù)測(cè)分析或者大量運(yùn)算,都應(yīng)該放到內(nèi)存里操作,從而實(shí)現(xiàn)性能提升,以充分利用數(shù)據(jù)。
Yahoo!北京全球軟件研發(fā)中心架構(gòu)師韓軼平分析稱,Yahoo通過(guò)三步應(yīng)對(duì)大數(shù)據(jù):數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)處理等。在數(shù)據(jù)采集方面,Yahoo建立幾個(gè)數(shù)據(jù)中心、幾十萬(wàn)臺(tái)機(jī)器的實(shí)時(shí)搜集數(shù)據(jù)系統(tǒng)是一個(gè)主干道負(fù)責(zé)把數(shù)據(jù)經(jīng)過(guò)過(guò)濾、清理以后進(jìn)行整合,在高可靠性的情況下,把它放到Hadoop平臺(tái)。雖然相對(duì)來(lái)說(shuō)精度很高、效果很好,但速度會(huì)慢一些。為了滿足實(shí)時(shí)性的需求,還有一個(gè)旁路系統(tǒng),旁路系統(tǒng)在秒級(jí)能夠把數(shù)據(jù)匯到主干道上,這是數(shù)據(jù)采集的部分。在數(shù)據(jù)存儲(chǔ)方面,基本上以HDFS為核心。而在數(shù)據(jù)處理方面,主要技術(shù)是Hadoop、MapReduce以及Yahoo自己開發(fā)的Pig。
但是,很多專家也提出來(lái),開源技術(shù)一般是沒有商業(yè)支持的,所以這些東西還必須讓其進(jìn)化一段時(shí)間,逐漸剔除各種缺陷,而這一般需要數(shù)年的時(shí)間。這就是說(shuō),羽毛未豐的大數(shù)據(jù)技術(shù)Hadoop目前還無(wú)法在普通市場(chǎng)上普及。
所以有專家提出EDW(企業(yè)數(shù)據(jù)倉(cāng)庫(kù))來(lái)解決大數(shù)據(jù)的問題。那么,如何在Hadoop和EDW之間做出選擇困擾著許多企業(yè)用戶。Teradata公司的首席客戶官周俊凌認(rèn)為,技術(shù)以及平臺(tái)的選擇在大數(shù)據(jù)時(shí)代同之前相比并沒有太多的不同,企業(yè)首先考慮的仍然是自身業(yè)務(wù)需求。Hadoop架構(gòu)的存在有它的理由,但是這并不意味著在成本方面會(huì)比EDW有更多優(yōu)勢(shì)。同時(shí),Teradata公司的首席客戶官周俊凌提醒用戶:"企業(yè)在進(jìn)行技術(shù)的選擇時(shí)不應(yīng)只看首次投入的成本,Hadoop不是一勞永逸的,你需要不斷對(duì)其進(jìn)行維護(hù),考慮持續(xù)的投入,無(wú)論是人力還是物力,它都可能會(huì)比傳統(tǒng)的EDW要大。因此企業(yè)不應(yīng)該一味迷信于新技術(shù),無(wú)論是購(gòu)買平臺(tái)還是進(jìn)行定制,用戶需要從自身需求出發(fā)。"
原文鏈接:http://server.zol.com.cn/256/2568373.html