在日趨激烈的市場(chǎng)競(jìng)爭環(huán)境中,企業(yè)越來越依賴于從對(duì)數(shù)據(jù)的分析中揭示未來發(fā)展的方向。在傳統(tǒng)的企業(yè)應(yīng)用中,結(jié)構(gòu)化數(shù)據(jù)是最為普遍的數(shù)據(jù)類型。然而,隨著社交媒體、移動(dòng)計(jì)算等新技術(shù)的演進(jìn),企業(yè)不得不面對(duì)文本、圖像、電子郵件、音視頻、網(wǎng)上交易數(shù)據(jù)等海量新型數(shù)據(jù)。與傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)不同,這些數(shù)據(jù)都是非結(jié)構(gòu)化的。
如今,非結(jié)構(gòu)化數(shù)據(jù)的爆炸性增長,正在深刻影響著整個(gè)數(shù)據(jù)存儲(chǔ)和分析領(lǐng)域。為了滿足新興的業(yè)務(wù)需求,企業(yè)開始逐漸摒棄傳統(tǒng)的數(shù)據(jù)處理方式,轉(zhuǎn)而嘗試新的模式對(duì)包括非結(jié)構(gòu)化數(shù)據(jù)在內(nèi)的各種類型數(shù)據(jù)進(jìn)行訪問、處理和分析——這便是“大數(shù)據(jù)”問題。
MapReduce:下一代數(shù)據(jù)處理編程模式
“大數(shù)據(jù)”的問題,正促使企業(yè)中傳統(tǒng)的存儲(chǔ)和計(jì)算解決方案開始邁向變革之路。從現(xiàn)狀來看,當(dāng)前存儲(chǔ)模型大多數(shù)能夠支持企業(yè)級(jí)需求。因此,“大數(shù)據(jù)”的焦點(diǎn)問題開始轉(zhuǎn)向新型編程框架領(lǐng)域。而在這一領(lǐng)域,MapReduce無疑是最受關(guān)注的新一代技術(shù)。它提供了在計(jì)算集群下分布處理大數(shù)據(jù)的軟件框架,利用MapReduce編程框架,開發(fā)人員可以開發(fā)出跨處理器分布式集群或獨(dú)立計(jì)算機(jī)的、能夠并行處理海量非結(jié)構(gòu)化數(shù)據(jù)的程序。從目前來看,市場(chǎng)上主要有三種方式能夠?qū)崿F(xiàn)對(duì)海量數(shù)據(jù)的MapReduce操作。
1.開源Apache Hadoop項(xiàng)目。當(dāng)前,新型編程框架領(lǐng)域被寄予厚望的一項(xiàng)技術(shù)是開源Apache Hadoop軟件及其相關(guān)的MapReduce編程模型。Apache Hadoop是支持?jǐn)?shù)據(jù)密集型分布式應(yīng)用的軟件框架,采用免費(fèi)許可證方式,能夠讓應(yīng)用能夠使用Hadoop分布式文件系統(tǒng)內(nèi)的數(shù)千個(gè)節(jié)點(diǎn)和數(shù)PB數(shù)據(jù)。然而,開源Hadoop MapReduce解決方案并非盡善盡美,由于其計(jì)算部分(即數(shù)據(jù)的抽取、處理和分析歸納)最初只是為了滿足基本的功能需求而非企業(yè)級(jí)的實(shí)施進(jìn)行設(shè)計(jì)的,因此發(fā)展到現(xiàn)在已經(jīng)無法更好地滿足企業(yè)級(jí)的需求。面對(duì)日益苛刻的業(yè)務(wù)需求,Hadoop MapReduce目前面臨五大挑戰(zhàn)。
第一,缺乏高性能和擴(kuò)展性。現(xiàn)有的Hadoop MapReduce編程模型實(shí)現(xiàn)并不提供快速、可擴(kuò)展的分布式資源基礎(chǔ)架構(gòu)解決方案;第二,缺乏靈活的資源管理。現(xiàn)有的Hadoop MapReduce編程模型實(shí)現(xiàn)無法迅速響應(yīng)來自應(yīng)用程序及/或用戶的需求變化;第三;缺少應(yīng)用部署支持。現(xiàn)有的Hadoop MapReduce編程模型實(shí)現(xiàn)并沒有使用自動(dòng)化應(yīng)用服務(wù)部署功能,因此無法簡化管理生產(chǎn)型分布式系統(tǒng)上的多應(yīng)用集成;第四,無法保證服務(wù)質(zhì)量。現(xiàn)有的Hadoop MapReduce編程模型實(shí)現(xiàn)并沒有經(jīng)過優(yōu)化,無法充分利用這個(gè)優(yōu)點(diǎn):通過提高多核服務(wù)器的利用率,加快運(yùn)行速度、降低成本;第五,缺少多數(shù)據(jù)源支持。現(xiàn)有的Hadoop MapReduce編程模型實(shí)現(xiàn)只支持一種分布式文件系統(tǒng),通常是HDFS。而一個(gè)完整的MapReduce編程模型實(shí)現(xiàn)應(yīng)該足夠靈活,能同時(shí)支持多種分布式文件系統(tǒng)的數(shù)據(jù)存取。
2.商用開源解決方案。Cloudera是一家新興公司,提供自己的Hadoop軟件發(fā)行版,采用與其他開源軟件公司(如紅帽)同樣的商業(yè)模式。它既提供軟件服務(wù),又對(duì)整個(gè)開源軟件做貢獻(xiàn)——從終端用戶應(yīng)用程序、MapReduce處理到Hadoop文件系統(tǒng)。然而,其解決方案需要處理流程與文件系統(tǒng)緊密集成,這迫使客戶被其數(shù)據(jù)存儲(chǔ)方法牢牢鎖定。此外,它仍是一款未經(jīng)驗(yàn)證的大規(guī)模企業(yè)軟件解決方案——包括負(fù)載管理功能、高度依賴開源社區(qū)、服務(wù)質(zhì)量和性能無法得到保障。
3.?dāng)?shù)據(jù)倉庫分析。一些數(shù)據(jù)倉庫廠商在自己的數(shù)據(jù)倉庫上實(shí)施了MapReduce編程模型,包括EMC/Greenplum和Aster Data等公司。雖然MapReduce與數(shù)據(jù)倉庫緊密集成對(duì)客戶來說是個(gè)誘人、可靠的解決方案,但是該解決方案只與各廠商自己的數(shù)據(jù)倉庫協(xié)同運(yùn)行,而且不支持其他非結(jié)構(gòu)化的數(shù)據(jù)系統(tǒng),如HDFS、Appistry以及其他許多數(shù)據(jù)系統(tǒng)。
企業(yè)級(jí)MapReduce分布式運(yùn)行引擎
由于普遍缺乏擴(kuò)展或管理大型分布式環(huán)境和工作負(fù)載并且保持服務(wù)水平或避免廠商鎖定的能力,眾多開源MapReduce解決方案難以滿足企業(yè)的需求。因此,很多企業(yè)機(jī)構(gòu)并不愿意為企業(yè)應(yīng)用程序部署開源的分布式運(yùn)行引擎。然而,面對(duì)不斷激增的數(shù)據(jù),如果企業(yè)希望通過MapReduce編程框架對(duì)那些龐大的異構(gòu)數(shù)據(jù)集執(zhí)行分布式計(jì)算的話,就勢(shì)必需要一種具有高擴(kuò)展性、高可用性又易于管理的企業(yè)級(jí)解決方案。
為了滿足將MapReduce應(yīng)用遷移至生產(chǎn)環(huán)境的挑戰(zhàn),全球領(lǐng)先的集群、網(wǎng)格、云中間件和云管理平臺(tái)提供商——Platform公司已經(jīng)將其企業(yè)級(jí)的工作負(fù)載管理功能引入到“大數(shù)據(jù)”領(lǐng)域。Platform公司在工作負(fù)載管理和分布式計(jì)算環(huán)境領(lǐng)域的專長,如同專為MapReduce編程模式和擴(kuò)展支持大型數(shù)據(jù)而量身定制。
Platform公司最新交付的業(yè)界首款針對(duì)MapReduce應(yīng)用程序的企業(yè)級(jí)分布式運(yùn)行引擎——Platform MapReduce,是基于該公司近二十年來在分布式架構(gòu)管理領(lǐng)域積累的豐富經(jīng)驗(yàn)以及Platform Symphony核心技術(shù)而構(gòu)建的,能夠幫助組織機(jī)構(gòu)克服將應(yīng)用程序轉(zhuǎn)移至生產(chǎn)環(huán)境的一切障礙,非常適用于跨分布式文件系統(tǒng)的企業(yè)級(jí)運(yùn)行服務(wù)。
與市場(chǎng)上開源和商用MapReduce分布式工作負(fù)載引擎不同,Platform MapReduce提供了企業(yè)級(jí)的MapReduce應(yīng)用程序分布式運(yùn)行引擎,可以實(shí)現(xiàn)對(duì)跨整個(gè)分布式文件系統(tǒng)的集群中的MapReduce應(yīng)用程序進(jìn)行調(diào)度和管理。它提供了企業(yè)級(jí)的可管理性和可伸縮性、高資源利用率和可用性、操作便利性、多應(yīng)用支持以及一個(gè)開放分布式系統(tǒng)架構(gòu),其中還包括了對(duì)于Hadoop分布式文件系統(tǒng)(HDFS)和Appistry Cloud IQ的支持,這將確保企業(yè)更加關(guān)注將MapReduce應(yīng)用程序轉(zhuǎn)移至生產(chǎn)環(huán)境中。Platform MapReduce提供的關(guān)鍵價(jià)值包括:
• 企業(yè)級(jí)可管理性和伸縮性——包括策略驅(qū)動(dòng)的工作負(fù)載調(diào)度、調(diào)整、監(jiān)測(cè)和自動(dòng)管理功能;擴(kuò)展多達(dá)20000臺(tái)服務(wù)器、40000個(gè)處理器,支持10000個(gè)并發(fā)作業(yè)和30000個(gè)并發(fā)任務(wù),這超過了其他所有MapReduce分布式運(yùn)行引擎。
• 高資源利用率和共享功能——包括策略驅(qū)動(dòng)的工作負(fù)載調(diào)度,使組織機(jī)構(gòu)能夠少付出、多受益。它還提供了多達(dá)10000個(gè)優(yōu)先級(jí)別以確保高資源利用,使更多應(yīng)用程序能夠訪問共享數(shù)據(jù)。
• 高可靠性——保證分布式運(yùn)行引擎內(nèi)部的正常運(yùn)行時(shí)間。通過為Map任務(wù)、Reduce任務(wù)和節(jié)點(diǎn)名稱(Name node)提供自動(dòng)的故障轉(zhuǎn)移功能,有效避免了單點(diǎn)故障的出現(xiàn),而這些功能是其他替代解決方案無法具備的。
• 易管理性——支持不同版本的應(yīng)用在同一個(gè)集群運(yùn)行,IT部門無需針對(duì)各種版本重新配置或升級(jí)資源。
• 多應(yīng)用支持——在一個(gè)共享集群上運(yùn)行多個(gè)MapReduce應(yīng)用,支持不同版本的應(yīng)用在同一個(gè)集群運(yùn)行。
• 開放分布式文件系統(tǒng)架構(gòu)——支持包括Hadoop分布式文件系統(tǒng)(HDFS)和Appistry Cloud IQ等多個(gè)文件系統(tǒng),稍后還將支持更多的文件系統(tǒng)和平臺(tái)。
目前,Platform公司提供的MapReduce企業(yè)級(jí)解決方案目前已經(jīng)在多個(gè)關(guān)鍵的市場(chǎng)廣泛采用,用戶廣泛涉及金融服務(wù)、電信、政府機(jī)構(gòu)、生命科學(xué)和零售等領(lǐng)域。Platform MapReduce已經(jīng)成為企業(yè)面對(duì)“大數(shù)據(jù)”挑戰(zhàn)最值得信賴的基石。