SMAQ技術(shù)：不斷發(fā)揮大數(shù)據(jù)的最大價值 - 業(yè)界

大數(shù)據(jù)這一概念的存在已有些時日，不過其濫用程度快超過了“云”

　　有趣的是，一些大型的傳統(tǒng)存儲供應(yīng)商正接受這一概念，似乎這個名詞已經(jīng)成了大型數(shù)據(jù)集及其產(chǎn)品的代名詞。大數(shù)據(jù)實際上與傳統(tǒng)存儲供應(yīng)商的技術(shù)和商業(yè)模式都成對立關(guān)系。

　　一個正在形成的共識是：大數(shù)據(jù)不僅僅是指大量數(shù)據(jù)，而是特指無法用傳統(tǒng)方法處理的大型數(shù)據(jù)集。那么這里所說的傳統(tǒng)方法是指哪些呢?要回答這個問題，就要看一看這些方法本來是為了解決什么問題。

　　在企業(yè)IT歷史中，最大的問題是確保傳輸系統(tǒng)順暢，快捷且準(zhǔn)確地運行。這一需求為IT打開了一條通道，即專屬整體服務(wù)器上部署專屬關(guān)系型數(shù)據(jù)庫。

　　當(dāng)規(guī)模較小，具有較高價值且結(jié)構(gòu)化的數(shù)據(jù)遭遇威脅要崩潰時比較適合選用傳統(tǒng)IT堆棧。例如，Web規(guī)模應(yīng)用就推動了LAMP堆棧等需求，它可以滿足運算分布并在大量商業(yè)服務(wù)器上提供服務(wù)。同樣，非結(jié)構(gòu)化數(shù)據(jù)的爆發(fā)式增長導(dǎo)致存儲硬件相同的商品化需求。

　　某種程度上，大數(shù)據(jù)意味著整個傳統(tǒng)IT堆棧的挑戰(zhàn)——即數(shù)據(jù)庫，運算和存儲。這就是為什么需要新堆棧(存儲，MapReduce和Query)的原因。正如LAMP堆棧對IT的轉(zhuǎn)變，筆者相信大數(shù)據(jù)SMAQ堆棧也會改變IT。

　　想象一下，假如你不僅能夠保存和服務(wù)十多億份文檔，還能夠?qū)@些文件執(zhí)行復(fù)雜的分析，例如分析文件之間的關(guān)聯(lián)模式。許多現(xiàn)有與大數(shù)據(jù)相關(guān)的技術(shù)來自于大型網(wǎng)絡(luò)公司處理這些問題的項目。

　　假設(shè)，你不僅僅需要保存上百萬份與天氣數(shù)據(jù)相關(guān)的文件，還需要分析與氣候改變模式相關(guān)的數(shù)據(jù)。那么問題不僅僅涉及大量數(shù)據(jù)的保存，還需要利用那些對模式和趨勢有研究意義的數(shù)據(jù)。

　　傳統(tǒng)數(shù)據(jù)庫遠(yuǎn)不止上述任務(wù)。各種設(shè)計的局限性使得關(guān)系型數(shù)據(jù)庫處理問題的能力很出色，如保留傳輸記錄限制了數(shù)據(jù)庫的擴展能力。幸好，上述分析通常不需要絕對的精確度。

　　同樣，傳統(tǒng)存儲和運算也不止這個任務(wù)。上述分析和存儲最好是通過將數(shù)據(jù)和存儲分配到大量商業(yè)存儲設(shè)備上執(zhí)行，再將運算分配給大量運算設(shè)備完成。你或許可以想象得到，輸入數(shù)據(jù)按順序在所有分布式設(shè)備上進行處理，然后傳送到中間數(shù)據(jù)集。這些中間結(jié)果會精簡到一個數(shù)據(jù)集中，而這個概括性的數(shù)據(jù)集就是所需的最終結(jié)果。這兩個過程分別叫做Map和Reduce，在SMAQ的首字母縮略語中標(biāo)記M。

SMAQ技術(shù)：不斷發(fā)揮大數(shù)據(jù)的最大價值

　　最近我們看到了首字母為M，A和Q的技術(shù)涌現(xiàn)出來。對于開源愛好者而言，最令他們激動的事情就是關(guān)注Hadoop生態(tài)系統(tǒng)。

　　如我們常常看到的，存儲需要匹配剩余的IT堆棧。數(shù)據(jù)集本身需要高度分布。數(shù)據(jù)和大數(shù)據(jù)的運算出現(xiàn)在種類繁多的分布式設(shè)備上。

　　而且，由于將運算導(dǎo)入數(shù)據(jù)比將數(shù)據(jù)導(dǎo)入運算要容易，所以SMAQ堆棧的存儲部分需要確保所有未結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)的安全而有效地分布到所有運算節(jié)點，且既可以被擴展也可以滿足高性能的要求。這意味著大數(shù)據(jù)必須：

　　a) 在廣布于互聯(lián)網(wǎng)的各種商業(yè)設(shè)備上運行

　　b) 為與分析相關(guān)的密集式數(shù)據(jù)處理提供性能幫助

　　c) 避免設(shè)計失誤，如集中式元數(shù)據(jù)存儲以及大量遺留系統(tǒng)將存儲大小限制在16TB

　　d) 允許在相同硬件上出現(xiàn)運算和存儲功能。綜上所述，將運算遷移到存儲的成本更低。不過如果存儲被鎖定那就會有些麻煩。

　　e) 擴展至PB級別甚至是EB級別。

　　結(jié)論：專屬與整體的存儲方法不適合大數(shù)據(jù)。不過，隨著大數(shù)據(jù)SMAQ技術(shù)的不斷發(fā)展，相信大數(shù)據(jù)存儲和存儲效益方面的價值會被充分地釋放出來。

原文鏈接：http://storage.it168.com/a2011/0828/1238/000001238679.shtml

亚洲成精品动漫久久精久,九九在线精品视频播放,黄色成人免费观看,三级成人影院,久碰久,四虎成人欧美精品在永久在线

SMAQ技術(shù)：不斷發(fā)揮大數(shù)據(jù)的最大價值
2011-08-29 IT168.com

延伸閱讀

熱文

亚洲成精品动漫久久精久,九九在线精品视频播放,黄色成人免费观看,三级成人影院,久碰久,四虎成人欧美精品在永久在线

SMAQ技術(shù)：不斷發(fā)揮大數(shù)據(jù)的最大價值 2011-08-29 IT168.com

延伸閱讀

熱文

SMAQ技術(shù)：不斷發(fā)揮大數(shù)據(jù)的最大價值
2011-08-29 IT168.com