亚洲成精品动漫久久精久,九九在线精品视频播放,黄色成人免费观看,三级成人影院,久碰久,四虎成人欧美精品在永久在线

掃一掃
關注微信公眾號

解讀大數據和CDO:概念大過實際意義?
2012-10-17   網絡

就在去年刮過云計算之風,其中部分“泡沫”已經破裂,人們的關注度有些下降之后。大數據這個概念又被一些廠商“利用”為宣傳利器,EMC作為其中的代表從去年EMC World 2011大會就開始發動了攻勢。

  可能是由于工作經歷的緣故,筆者對云計算、大數據,包括由后者而提出的CDO(首席數據官)這些新的熱點話題,其中偏概念而非具體技術的部分,在一段時間內持謹慎旁觀的態度。從用戶的需求來看,真的是“老同志遇到新問題”了嗎?當然IT技術、應用模式的發展,對業務不斷提出了新的要求。海量增長的非結構化、半結構化數據中確實有值得挖掘的價值,但這并不等于人們就要一下子更換全新的方法、工具來處理它們。就像需求是漸進式的增長一樣,業務的變革也是漸進式的。

  在《紀錄中國——企業存儲的自主之路》一文中,筆者曾經談到了一些國內存儲品牌自主的研發理想和OEM轉銷的現實。而本文我想以部分廠商為代表,“批判”或者說“揭露”對大數據宣傳背后的實質內容。其中可能不完全是肯定的,總之希望讀者能夠更全面、客觀的看待大數據這個概念。當然,我的評論中也可能會有不當之處,歡迎大家提出不同意見,批評指正。

解讀大數據和CDO:概念大過實際意義?

  大數據世界論壇:2011和2012的不同

  首先,我想提一下去年和今年在北京舉行的大數據世界論壇(BIG DATA World Forum)。個人感覺今年參與(贊助)的廠商沒有去年多,也相對缺乏有新意的話題。

  退出的幾家廠商大致包括:比如說Teradata(天睿),去年他們談的數據倉庫;IBM Netezza的資深專家去年發表了精彩的演講,他們的產品也屬于一種新型的數據倉庫,與Teradata的通用x86硬件相比增添了FPGA(現場可編程門陣列)芯片來加快數據從存儲中調出的篩選速度;SAP去年還不否認他們的HANA內存計算方案屬于“大數據”,而今年就開始宣稱“大數據是個謊言”——傳統列式數據庫就能很好地處理大數據。

  還有EMC。這里倒不是說EMC不再重視大數據,而是就Greenplum核心產品線本身而言并沒有太多的變化——仍然分為Greenplum Database(數據倉庫)、Greenplum HD(Hadoop分析)和Greenplum DCA(數據計算設備),后者還是基于高性價比的工業標準x86服務器MPP(大規模并行處理)分布式可擴展架構。站在廠商的角度,如果沒有更多的新鮮東西,過多的投入資源來重復宣傳顯然不劃算。因此EMC將其Atmos云存儲(對象存儲)、Isilon集群NAS都囊括在大數據的概念下,當然也有技術方面的努力,比如Isilon對HDFS(Hadoop文件系統)的支持,但其實用價值有多大就是個見仁見智的問題了。

解讀大數據和CDO:概念大過實際意義?

EMC Greenplum在與數據打交道的各種用戶之間又加入了一個“Chorus-分析生產力層”。也就是說Chorus是處于Greenplum結構化/非結構化數據平臺和用戶分析應用之間的銜接部分。

  至于SAP的策略轉變,估計和他們的產品有一定的獨特性有關,適合的應用場景也與眾多基于Hadoop開源方案的產品有著較大的不同。因此SAP可能覺得與“那些人”站在同一條起跑線上有些吃虧?索性就干脆劃清界限——“我有成熟的Sybase數據庫,而且它能夠滿足當今用戶的需求。”

  前面提到的都不是什么新聞了,而且這幾家廠商(或者被收購的業務部門)都是做數據庫或者數據倉庫出身的,相對而言與大數據的關系還比較緊密一些。接下來筆者想就最近發生的一些事件,幾家看似與大數據不相關的IT廠商推出的策略,發表些簡單的觀點。

 VMware:讓Hadoop運行在虛擬機上?

  應該說這種應用方式不是最近才提出的,而上周三(8月8日)在北京舉行的“VMware & EMC大數據云高峰論壇”讓我們重新思考一個問題。隨著EMC和VMware高層一系列變動日期的臨近,Cloud Foundry將要與Greenplum等業務重新組合在一起,也就是云(PaaS)和大數據(數據倉庫+分析)的聯合?

  “讓Hadoop運行在虛擬機上,VMware號稱性能下降在10%以內,在某些情況下,用虛擬機運行Hadoop的性能甚至能夠超過物理機?”

  談到性能,這就像EMC表示其存儲虛擬化環境下運行一些關鍵應用的效率高于物理機一樣。這其實只代表EMC存儲對VMware的支持好,因為對應的那幾種應用性能瓶頸都是在存儲而不是計算上。單純就x86服務器而言,虛擬化Hypervisor做得再好也不可能提供超出物理資源的性能啊。

解讀大數據和CDO:概念大過實際意義?

  我們再來看看EMC官方的說法。

  虛擬化對Hadoop的四大促進作用:第一、讓Hadoop適用于多租戶環境,因為不同部門可能都需要各自的Hadoop集群。第二、提高Hadoop的安全性,VMware虛擬化在不同集群之間產生強隔離。第三、提高Hadoop的可伸縮性,使得它很容易進行伸縮加減節點。最后一點當然是增加CPU的利用率

  而有業內人士發表了不同的觀點:

  “除了部署靈活性之外,在性能、安全性、資源利用率方面均不具備優勢,在部署方面有人說虛擬機多么好,但是我并不覺得如此,Hadoop的部署很簡單,如果部署HA,則可以考慮采用大云的自動化HA方案

  但是如果你的數據已經在(Amazon)S3上面,則不得不使用虛擬機了,無論是EMR,還是自己搭建。”

  也就是說,虛擬化是Hadoop與云計算結合的一個點。虛擬化的隔離做得再好也是在一臺物理機內部的隔離,而Hadoop常規的集群部署則是物理上的隔離;像服務器虛擬化那樣提高CPU利用率是個好想法,評價Hadoop應用的資源過剩還是瓶頸不一定是由CPU決定的,有可能是各節點的存儲(HDFS)。EMC的想法是將數據放在Isilon或者VNX集中存儲上?但這樣做沒有成本優勢。

  另有一位業內朋友表示:

  “本來HDFS都是架設在datanode(數據節點)的本地硬盤上的,現在又要通過網絡再輸出到共享硬盤上,網絡的壓力更大了,虛擬機環境的瓶頸本來就在存儲和網絡上,而且這樣其實違背了Google的讓計算離數據更近的初衷,個人不是很看好Hadoop架設在虛機上的效率。”

  Intel為什么也要玩Hadoop?

  今年,Intel也把企業數據中心的市場宣傳重點轉移到大數據,其中也包括他們自己搞的Hadoop發行版。有些人不禁要問:Intel的核心業務不是在CPU上面嗎?(筆者在“大數據時代:Intel Xeon、LSI SAS術業有專攻”一文中有過相關討論)

  確實,Intel給人的感覺不是一家軟件公司。包括Xeon(至強)處理器在內的服務器平臺產品線,于x86陣營中已經處于絕對的優勢AMD的份額已經基本沒有威脅),即使面對RISC陣營也在不斷蠶食后者(包括Itanium)的市場空間。那么Intel需要尋找新的增長點,在整個行業幾乎都在喊云計算和大數據的情況下,能夠免俗的人不多。

解讀大數據和CDO:概念大過實際意義?

上圖(點擊放大)資料來自Intel,僅供參考

  不知道有多少人了解,Intel的軟件部門還有著上萬名員工。曾經有同行表示:AMD相對Intel的一大軟肋就是他們的軟件優化能力不足。從C++、Fortran編譯器,到如今充分發揮多核/多線程能力的Parallel Studio,Intel在處理器相關軟件生態環境上的努力和收獲都是看得見的。

  一位在國內某大型互聯網行業用戶工作的朋友曾對筆者說,他們采用過AMD和Intel CPU的服務器,但后來用AMD就少了。因為他們體會到,購買相應平臺的硬件,Intel還會幫助進行軟件上的調優等支持工作。當然這個的前提應該是用戶達到一定的采購規模。

  所以說,盡管Intel在Hadoop方面的起步不一定很早,相關技術也不見得比本文前面提到的幾個廠商搞得更好?但以Intel在行業內的影響力,還是會有人響應并且不能小看,就像他們面向企業存儲市場的SSD(固態硬盤)910、710那樣。

CommVault:大數據就是保留和歸檔?

  CommVault這家在前幾年發展迅速的存儲軟件公司,稱自己的Simpana產品為數據管理一體化軟件。為了便于大家的理解,我還是習慣于將其歸類為數據保護軟件,或者說有備份、CDP、歸檔等功能模塊。如今我們看到CommVault也在談大數據,并提到未來的Simpana 10新版本,以及分析功能。那么,此“大數據”等于彼“大數據”嗎?CommVault也要搞像Hadoop那樣的數據挖掘、分析嗎?

  盡管對此沒有做較多的調研,但以筆者對這家存儲軟件廠商的了解,CommVault應該還是專注于自己擅長的細分領域,其功能還是圍繞著數據管理和保護概念下的備份、歸檔等。所謂的“分析”功能有可能是類似于筆者曾經介紹過的惠普Data Protector 7軟件,采用收購自Autonomy的IDOL(智能數據操作層)技術“基于語義的保護”,實現在備份的索引中,根據關鍵字或者其它參數來搜索想要恢復數據的功能。

解讀大數據和CDO:概念大過實際意義?

  既然人們可以將Autonomy視為大數據廠商,那么CommVault如果有類似IDOL那樣便于數據查找、恢復的技術,說他們與超出傳統備份軟件廠商面對范圍的大數據“沾邊”也不為過?

  CDO(首席數據官)之我見

  CDO概念最初由國外提出,并且目前阿里巴巴已經任命了“首席數據官”這一職位。那么CDO會像CTOCIO等那樣普及開來嗎?哪些企業需要設立CDO呢?

  退回到2009年,筆者剛開始了解到CIO(首席信息官)這個稱號。沒錯?我以前真的不知道,經常與廠商市場營銷部門和媒體打交道的人應該都不會陌生。但仔細想一下,我們能記住IntelIBM微軟等知名廠商的CIO是誰嗎?他們會像CIO、CTO那樣公開發表言論嗎?基本不會吧。信息化這個詞感覺更好理解些,許多企業都需要不同程度地倚重這個IT管理部門,但我們除了在與那些CIO相關的供應商組織的會議之外,他們在日常工作中也會被稱為CIO嗎?

  “首席信息官”中的信息,從字面意義上理解與IT建設似乎并不能畫等號?在今天的大數據時代,已經有人提出“將數據變為有價值的信息”這個口號,那么對于負責實現企業中數據價值的leader而言,如果不是因為已經有了其它用途,“CIO”一詞是否比CDO更為合適呢?如果只是單純地負責存儲設備上的數據,那與存儲管理員又有多大區別?在大數據這個詞流行之前,也有人從事數據挖掘、分析工作,將他們的職位歸為某個業務部門,與現在部分人稱之為CDO又有什么本質上的不同呢?

  可能有人覺得筆者在這里給大數據和CDO這些概念“潑涼水”,其實我的初衷只是希望大家能夠更加客觀、冷靜地看待大數據、相關技術和業務方式的變化,以及每個廠商口中的大數據有什么不同。

  最后,讓我們來換一個角度。如果說大數據、CDO這些新名詞對用戶的實際意義不大?或者說只是換了一個新的說法(概念)的話,但不等于它們對廠商的宣傳和媒體而言也沒有意義。畢竟市場需要造勢,吸引關注需要“噱頭”,產品技術也需要各種包裝,才能被人們更好地理解認識,而不是冷冰冰地放在那里。

熱詞搜索:

上一篇:曹濟將出席中國項目管理培訓大會
下一篇:移動管理 管理改變未來

分享到: 收藏