三種平臺(tái)部署方式 讓CIO大數(shù)據(jù)實(shí)踐事半功倍
2013-01-29 至頂網(wǎng)
1.套裝軟件搭配自組硬件
目前包括Hadoop、Greenplum以及Aster Data都有純軟件產(chǎn)品以及軟硬件整合的一體機(jī)產(chǎn)品,如果企業(yè)選擇以純軟件產(chǎn)品,雖然具有可以自由搭配硬件的優(yōu)勢(shì),但卻也相對(duì)挑戰(zhàn)企業(yè)的技術(shù)能力,因?yàn)檐浖臄?shù)據(jù)處理效能是否可以充分發(fā)揮,往往與所搭配的硬件規(guī)格、平臺(tái)架構(gòu)以及系統(tǒng)調(diào)校有關(guān)。
一般來(lái)說(shuō),企業(yè)在評(píng)估數(shù)據(jù)處理平臺(tái)時(shí),如果選擇采用軟件型態(tài)的解決方案,通常都具有強(qiáng)大的系統(tǒng)架構(gòu)規(guī)畫能力與維護(hù)能力。不過(guò),臺(tái)灣有家晶圓公司為了解決大數(shù)據(jù)問(wèn)題,1年多前開(kāi)始尋找各種軟硬件的大數(shù)據(jù)解決方案,最后則決定以Hadoop搭配x86架構(gòu),作為發(fā)展大數(shù)據(jù)處理平臺(tái)的主軸。然而,在第一階段的概念驗(yàn)證結(jié)束后,這家晶圓廠商公司小規(guī)模試行,并且部署了10~20臺(tái)服務(wù)器,卻發(fā)現(xiàn)數(shù)據(jù)處理效能不如預(yù)期,理論上,以Hadoop架構(gòu)可以幾分鐘完成的數(shù)據(jù)量,最后卻花費(fèi)了1小時(shí),其中的關(guān)鍵在于企業(yè)IT人員對(duì)Hadoop技術(shù)的掌握能力不足,以致于造成MapReduce程式與HDFS、Linux相互爭(zhēng)奪硬件資源,最后導(dǎo)致當(dāng)機(jī)。
2.軟硬件整合的一體機(jī)
相較于軟件解決方案的技術(shù)門檻,以硬件形式推出的一體機(jī),不僅同時(shí)具有軟硬件整合的優(yōu)勢(shì),更重要是,系統(tǒng)效能調(diào)校也已經(jīng)做到最佳化,對(duì)于企業(yè)來(lái)說(shuō),采用一體機(jī)可以大幅節(jié)省部署大數(shù)據(jù)處理平臺(tái)的時(shí)間,后續(xù)的維護(hù)也比較輕松,不過(guò),一體機(jī)通常會(huì)配置比較貴的硬件,因此,成本效益的考量仍舊是企業(yè)必須斟酌的地方。
目前IBM、Teradata、惠普、甲骨文、精誠(chéng)資訊Etu以及EMC都推出了大數(shù)據(jù)一體機(jī)產(chǎn)品。不過(guò),各家廠商所采用的數(shù)據(jù)處理技術(shù)是否具有開(kāi)放性,將是企業(yè)未來(lái)面臨擴(kuò)充時(shí)能否無(wú)痛轉(zhuǎn)移的關(guān)鍵。以EMC的產(chǎn)品來(lái)說(shuō),雖然是采用MapReducer的理論來(lái)做分散運(yùn)算,但儲(chǔ)存技術(shù)是來(lái)自EMC的MapR File System,而非Hadoop的HDFS,因此,雖然可以橫向擴(kuò)充,但儲(chǔ)存技術(shù)就必須依循EMC的發(fā)展。
各大數(shù)據(jù)廠商為了因應(yīng)大數(shù)據(jù)需求,不可能沿用10年前就開(kāi)始發(fā)展的數(shù)據(jù)處理架構(gòu),因此過(guò)去2年并購(gòu)動(dòng)作頻頻,IBM收購(gòu)數(shù)據(jù)分析公司Netezza、惠普買下了即時(shí)分析平臺(tái)Vertica、數(shù)據(jù)倉(cāng)儲(chǔ)廠商Teradata并購(gòu)Aster Data、儲(chǔ)存大廠EMC更接連收購(gòu)數(shù)據(jù)倉(cāng)儲(chǔ)廠商Greenplum以及磁碟陣列廠商Isilon,這些數(shù)據(jù)大廠通過(guò)并購(gòu)所取得的技術(shù),目前都已經(jīng)與既有產(chǎn)品線完成整合,同時(shí)并相繼推出了一體機(jī)產(chǎn)品,例如:Teradata的Aster Data Appliance,預(yù)計(jì)未來(lái)還可看到更多有關(guān)一體機(jī)的產(chǎn)品。
3.采用云端巨量分析服務(wù)
然而,從企業(yè)的角度來(lái)看,大數(shù)據(jù)處理平臺(tái)并非一定得要通過(guò)軟硬件廠商取得,在美國(guó),有不少企業(yè)的大數(shù)據(jù)處理,是部署在云端架構(gòu)系統(tǒng)環(huán)境上,目前這個(gè)領(lǐng)域主要的服務(wù)供應(yīng)商有Amazon,Amazon的云端服務(wù)AWS,總共有20多種服務(wù),其中的EMR(Elastic MapReduce)服務(wù),可以讓企業(yè)省去部署Hadoop叢集的工程,企業(yè)只需要把MapReduce程式,載入到EC2(Elastic Compute Cloud)虛擬機(jī)器執(zhí)行EMR來(lái)運(yùn)算即可。
除此之外,由于Amazon在臺(tái)灣并沒(méi)有機(jī)房,而大數(shù)據(jù)所處理往往是TB級(jí)以上的數(shù)據(jù)量,以這樣的數(shù)據(jù)量與目前的網(wǎng)路頻寬傳輸速度,絕對(duì)無(wú)法因應(yīng)企業(yè)營(yíng)運(yùn)的大數(shù)據(jù)處理需求。業(yè)內(nèi)人士指出,如果大數(shù)據(jù)處理的需求,只是一次性或者是短期的數(shù)據(jù)處理需求,可以通過(guò)Amazon這樣的云端服務(wù)模式處理數(shù)據(jù),但若是長(zhǎng)期需求,則不建議。
總之,究竟大數(shù)據(jù)要用哪一種平臺(tái)來(lái)處理,除了對(duì)各種技術(shù)平臺(tái)的掌握能力之外,還要看企業(yè)對(duì)大數(shù)據(jù)分析速度的期待,需要多快就要產(chǎn)生分析結(jié)果,幾秒鐘內(nèi)就要做決策判斷,又或大數(shù)據(jù)的應(yīng)用是要做長(zhǎng)時(shí)間的大量數(shù)據(jù)分析。
熱詞搜索:
上一篇:企業(yè)實(shí)現(xiàn)ERP軟件的過(guò)程自動(dòng)化是戰(zhàn)略目標(biāo)需要
下一篇:甲骨文鮑勃•埃文:2013年CIO的十大優(yōu)先戰(zhàn)略