這是一個數(shù)據(jù)爆炸的時代!IDC在最近的一次調(diào)研中,對數(shù)據(jù)的增長做了一個粗略的估計:到今年年末將有1.8萬億字節(jié)的數(shù)據(jù)存放于50億個文件中,IDC據(jù)此估計,到2015年將產(chǎn)生7.9千萬億兆字節(jié)的數(shù)據(jù)。
數(shù)據(jù)量太龐大了,即使是最快的IT系統(tǒng)也跟不上收集數(shù)據(jù)的速度。而所有的這些信息需要篩選、處理并集成,最后進(jìn)行分析,才能為企業(yè)帶來價值。因此,如何把這些數(shù)據(jù)轉(zhuǎn)變成有用信息成為企業(yè)亟待解決的問題。
“大數(shù)據(jù)”問題的由來
一直以來,IT人員都是通過面向批處理的數(shù)據(jù)倉庫架構(gòu)來提供及時的數(shù)據(jù)分析,但在今天,隨著數(shù)據(jù)量的激增和新數(shù)據(jù)類型及其所需的數(shù)據(jù)處理方法,這種架構(gòu)已經(jīng)不堪重負(fù)了,這是因?yàn)椋F(xiàn)有的數(shù)據(jù)倉庫是為結(jié)構(gòu)化數(shù)據(jù)構(gòu)建的,非結(jié)構(gòu)化數(shù)據(jù)并不適合這種架構(gòu)模式,但實(shí)現(xiàn)的情況是:80%的數(shù)據(jù)是非結(jié)構(gòu)化的。移動和修改海量的非結(jié)構(gòu)化數(shù)據(jù)將耗費(fèi)大量的人力物力,因而無法將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換成必要的結(jié)構(gòu)以方便抽取。
除此之外,為了滿足新興的業(yè)務(wù)需求,IT部門還需要采用新的方法來訪問、處理和分析多種類型的非結(jié)構(gòu)化數(shù)據(jù)及相關(guān)架構(gòu),并且應(yīng)當(dāng)以企業(yè)級的高標(biāo)準(zhǔn)來完成。如果沒有一種靈活的企業(yè)級方法來訪問、處理和分析非結(jié)構(gòu)化數(shù)據(jù)并據(jù)此作出明智的業(yè)務(wù)決策,那么沒有內(nèi)在價值的數(shù)據(jù)會讓IT部門不堪重負(fù)——這就是我們今天面臨的“大數(shù)據(jù)”問題。
企業(yè)級“大數(shù)據(jù)”解決方案
根據(jù)2011 TDWI的一份調(diào)查,34%的企業(yè)開始使用大數(shù)據(jù)分析來幫助制定決策。MapReduce無疑是解決“大數(shù)據(jù)”問題最受關(guān)注的新一代技術(shù)。MapReduce提供了在計算集群下分布處理大數(shù)據(jù)的軟件框架,利用MapReduce解決方案,開發(fā)人員可以開發(fā)出運(yùn)行在分布式集群上,能夠并行處理海量非結(jié)構(gòu)化數(shù)據(jù)的程序。
一個企業(yè)級的MapReduce應(yīng)該提供以下功能:
- 能夠在整個企業(yè)范圍內(nèi)部署和運(yùn)行數(shù)據(jù)抽取和分析程序。
- 管理和監(jiān)控大規(guī)模環(huán)境。
- 包括一個負(fù)載管理系統(tǒng)以確保服務(wù)質(zhì)量,并根據(jù)業(yè)務(wù)目標(biāo),確定應(yīng)用的優(yōu)先級。
- 可為多個MapReduce用戶和業(yè)務(wù)部門提供服務(wù),可能還需為其他分布式處理提供服務(wù)。
- 具備一定的靈活性,可根據(jù)特定的應(yīng)用需求來選擇合適的存儲和文件系統(tǒng)。
由于在性能和擴(kuò)展性方面存在不足,現(xiàn)有的MapReduce解決方案還難以滿足企業(yè)通過MapReduce對龐大的異構(gòu)數(shù)據(jù)集執(zhí)行分布式計算需求。
為了滿足將MapReduce應(yīng)用遷移至生產(chǎn)環(huán)境的需求,全球領(lǐng)先的集群、網(wǎng)格、云中間件和云管理平臺提供商——Platform公司已經(jīng)將其企業(yè)級的工作負(fù)載管理功能引入到“大數(shù)據(jù)”領(lǐng)域。
Platform MapReduce是Platform公司最新交付的業(yè)界首款針對MapReduce應(yīng)用程序的企業(yè)級分布式運(yùn)行引擎,基于該公司近二十年來在分布式架構(gòu)管理領(lǐng)域積累的豐富經(jīng)驗(yàn)以及Platform Symphony核心技術(shù)而構(gòu)建,能夠幫助企業(yè)克服將應(yīng)用程序轉(zhuǎn)移至生產(chǎn)環(huán)境的一切障礙,非常適用于跨分布式文件系統(tǒng)的企業(yè)級運(yùn)行服務(wù)。
作為一種分布式計算平臺,Platform MapReduce支持開放應(yīng)用架構(gòu),該架構(gòu)支持企業(yè)采用的多種分布式文件系統(tǒng)。它的企業(yè)級功能包括:每個MapReduce應(yīng)用能夠擴(kuò)展至數(shù)千個處理器、能以非常高的速度運(yùn)行、能夠在為多個業(yè)務(wù)部門用戶控制負(fù)載策略的同時為IT提供可管理性和監(jiān)控能力,它還有內(nèi)置的高可用性服務(wù),以確保必要的服務(wù)質(zhì)量。
與市場上開源和商用MapReduce分布式工作負(fù)載引擎不同,Platform MapReduce提供了企業(yè)級的MapReduce應(yīng)用程序分布式運(yùn)行引擎,可以實(shí)現(xiàn)對跨整個分布式文件系統(tǒng)的集群中的MapReduce應(yīng)用程序進(jìn)行調(diào)度和管理。它提供了企業(yè)級的可管理性和可伸縮性、高資源利用率和可用性、操作便利性、多應(yīng)用支持以及一個開放分布式系統(tǒng)架構(gòu),其中還包括了對于Hadoop分布式文件系統(tǒng)(HDFS)和Appistry Cloud IQ的支持,這將確保企業(yè)可以放心地將MapReduce應(yīng)用程序轉(zhuǎn)移至生產(chǎn)環(huán)境中。Platform MapReduce提供的關(guān)鍵價值包括企業(yè)級可管理性和伸縮性、高資源利用率和共享功能、高可靠性、易管理性、多應(yīng)用支持、開放分布式文件系統(tǒng)架構(gòu)等。
目前,Platform公司提供的MapReduce企業(yè)級解決方案目前已經(jīng)在多個關(guān)鍵的市場廣泛采用,用戶涉及金融服務(wù)、電信、政府機(jī)構(gòu)、生命科學(xué)和零售等領(lǐng)域。Platform MapReduce已經(jīng)成為企業(yè)面對“大數(shù)據(jù)”挑戰(zhàn)最值得信賴的基石。