Hadoop的未來
為了了解過去幾年發(fā)生了什么,我們走訪了Chuck Lam,《Hadoop在行動(dòng)(Hadoop in Action)》一書的作者。Chuck說Hadoop還沒有停下來休息。“整個(gè)生態(tài)系確實(shí)是進(jìn)化,而且改變了許多。現(xiàn)在甚至出現(xiàn)了官方1.0版本。更重要的是,MapReduce的基礎(chǔ)編程模型已經(jīng)重新修訂,且做了不少的改變。”一般來說,這些改變都向著有利的方面發(fā)展的。開發(fā)方向已經(jīng)使得這個(gè)框架易于部署在企業(yè)中,并解決一系列的問題,如對(duì)于風(fēng)險(xiǎn)規(guī)避公司是問題之首的安全問題。
好處越來越多,包括高水平的可擴(kuò)展性。此框架中的分布式計(jì)算意味著添加越來越多的數(shù)據(jù),而不必改變添加它的方式。沒有必要去改變格式,或打亂工作編輯的方式或決定哪一個(gè)應(yīng)用完成的此工作。你只是隨著工作的進(jìn)行添加更的節(jié)點(diǎn)即可。你不必挑剔你存儲(chǔ)的數(shù)據(jù)類型或它來源。無模式是此游戲的名稱。該框架的并行計(jì)算能力還使商品服務(wù)器存儲(chǔ)究竟的利用率更高。這意味著企業(yè)可以保存,使用更多的數(shù)據(jù)。無論哪個(gè)節(jié)點(diǎn)出現(xiàn)故障,它都沒事。即使系統(tǒng)出現(xiàn)故障,也不會(huì)丟失數(shù)據(jù),降低性能。
助力Hadoop技術(shù)
Hadoop現(xiàn)在也更加的靈活,允許業(yè)務(wù)做更的事情,處理更多的數(shù)據(jù)類型。如此強(qiáng)大的功能源于Hadoop的許多同伴項(xiàng)目,包括像Pig這樣的語言,以及如下的可擴(kuò)展解決方案:
1. Hive (數(shù)據(jù)倉庫)
2.Mahout (機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘)
3.HBase (大型表格的結(jié)構(gòu)化存儲(chǔ))
4.Cassandra (多主機(jī)數(shù)據(jù)庫)
當(dāng)然,此類型的解決方案并不一直都是美好好。Lam說主要的陷阱就是處理做出的假設(shè)。換言之,錯(cuò)不在我們的系統(tǒng)而在我們自己。“新技術(shù)并不是所有問題的靈丹妙藥。正如NoSQL這類的一樣簡(jiǎn)單,但你必須要更深一層地弄清楚你要解決的問題。”這可能意味著慎重地查看你的算法,而不是只是把你的員工扔給MapReduce,然后期望Hadoop自動(dòng)擴(kuò)展。使用模式的數(shù)據(jù)會(huì)影響你的擴(kuò)展模式——尤其是當(dāng)使用不平均是。然后線性擴(kuò)展可能就不起作用了。再一次,這個(gè)并不是Hadoop本身的問題。Lam相信有工具在手的企業(yè)已經(jīng)足夠成熟了。這只是確保IT管理員熟悉這些工具,確保使用Hadoop的軟件架構(gòu)師知道怎樣更有效地使用用這項(xiàng)技術(shù)。