亚洲成精品动漫久久精久,九九在线精品视频播放,黄色成人免费观看,三级成人影院,久碰久,四虎成人欧美精品在永久在线

掃一掃
關(guān)注微信公眾號(hào)

大數(shù)據(jù)開拓者 帶給人的10大啟示【組圖】
2011-11-23   中關(guān)村電腦

毋庸置疑,大數(shù)據(jù)時(shí)代已經(jīng)來了。那么,我們?nèi)绾稳?yīng)對(duì)這種局面呢?下面,我們聽聽擁有此方面經(jīng)驗(yàn)的專家是如何說的吧。

  首先我們要知道,在成百上千TB的信息中,我們?cè)撊绾纬浞掷么髷?shù)據(jù)。這完全取決于個(gè)人的需求和偏好。Interclick廣告服務(wù)公司找到了一種在提供接近實(shí)時(shí)數(shù)據(jù)分析的同時(shí),能提供更高效的解決方案。哈佛醫(yī)學(xué)院也了解到,在對(duì)病人數(shù)量和多年保持不變的數(shù)據(jù)研究的情況下,數(shù)據(jù)也會(huì)明顯增長(zhǎng)。互聯(lián)網(wǎng)流量監(jiān)測(cè)機(jī)構(gòu)comSCore,擁有12年的利用列存儲(chǔ)數(shù)據(jù)庫(kù)壓縮數(shù)據(jù)的豐富經(jīng)驗(yàn),事實(shí)上,它采用了排序技術(shù)來優(yōu)化壓縮、減少處理需求。

  目前,包括雅虎、Facebook、Twitter、NetFlix和eHarmony(美國(guó)在線約會(huì)網(wǎng)站)都認(rèn)為,Hadoop是一個(gè)理想化的低成本處理 非結(jié)構(gòu)化數(shù)據(jù)平臺(tái)。它不僅能滿足互聯(lián)網(wǎng)巨頭需要,也能滿足包括摩根大通銀行和其他主流的傳統(tǒng)企業(yè)的需求。數(shù)據(jù)供應(yīng)商InfoChimps同時(shí)發(fā)現(xiàn),隨著越來越多的附加和輔助應(yīng)用的提供,Hadoop將是提供部署支持的快速成熟方案。


大數(shù)據(jù)開拓者 帶給人的10大啟示[組圖]
大數(shù)據(jù)時(shí)代下的應(yīng)用

  當(dāng)然,并非所有的大數(shù)據(jù)部署都是根據(jù)總規(guī)模來衡量。比如Linkshare只保留了幾個(gè)月但每天都需要加載和快速分析多達(dá)數(shù)十GB的數(shù)據(jù),因此對(duì)于每天的這些數(shù)據(jù)規(guī)模來說它是一個(gè)比較大規(guī)模的部署。除此之外,我們還需要注意數(shù)據(jù)倉(cāng)庫(kù)擴(kuò)展性的六個(gè)維度。只有這樣,我們才可以制定一個(gè)較為準(zhǔn)確的方案,從而滿足最為苛刻的測(cè)試需求,并獲得技術(shù)投資滿足未來需要。

  一、快速查詢確保高效和及時(shí)

  大規(guī)模并行處理平臺(tái)、列存儲(chǔ)數(shù)據(jù)庫(kù)、數(shù)據(jù)庫(kù)內(nèi)處理技術(shù)和內(nèi)存計(jì)算技術(shù),都可以大幅降低數(shù)據(jù)查詢時(shí)間,從數(shù)天、數(shù)小時(shí)縮減到幾分鐘甚至幾秒。但這并不夠。紐約廣告公司Interclick發(fā)現(xiàn),快速分析帶來的最主要好處是高效。快速響應(yīng)能爭(zhēng)取到更多時(shí)間進(jìn)行更多、更深入的查詢工作。第二個(gè)好處則是,可以獲得幾近實(shí)時(shí)分析的結(jié)果,據(jù)此分析有助于提高決策反應(yīng)水平和準(zhǔn)確率。

大數(shù)據(jù)開拓者 帶給人的10大啟示[組圖]
Interclick所采用的大數(shù)據(jù)分析技術(shù)

  通過快速響應(yīng),Interclick能夠在幾個(gè)小時(shí)甚至數(shù)分鐘內(nèi)對(duì)網(wǎng)上沖浪者的行為進(jìn)行細(xì)分。它能夠?qū)υL問旅游站點(diǎn)、預(yù)訂酒店站點(diǎn)等的網(wǎng)名行為信息,發(fā)送給相應(yīng)的航空公司、連鎖酒店、汽車租賃公司等。Interclick采用的是ParAccel列存儲(chǔ)數(shù)據(jù)庫(kù)部署,內(nèi)存集群可以容納3.2TB容量的數(shù)據(jù)。

#p#副標(biāo)題#e#

二、衡量數(shù)據(jù)增長(zhǎng)時(shí)深知何為貴

  通過對(duì)長(zhǎng)達(dá)20年的醫(yī)療記錄、研究各種藥物的療效和風(fēng)險(xiǎn),哈佛醫(yī)學(xué)院吸取到了這樣一種教訓(xùn)--在規(guī)劃數(shù)據(jù)倉(cāng)儲(chǔ)投資時(shí),不僅僅需要解諸如客戶、記錄和交易數(shù)量等簡(jiǎn)單問題。雖然病人數(shù)量和時(shí)限仍然較為穩(wěn)定,但各種醫(yī)療記錄卻不斷豐富起來,因?yàn)橛楷F(xiàn)出了很多新的健康監(jiān)測(cè)技術(shù)指標(biāo)。因此,事先了解所有的動(dòng)態(tài)需求至關(guān)重要。


大數(shù)據(jù)開拓者 帶給人的10大啟示[組圖]
哈佛醫(yī)學(xué)院

  三、數(shù)據(jù)壓縮和削減存儲(chǔ)成本

  更好的數(shù)據(jù)壓縮可以節(jié)省每TB硬件成本。列存儲(chǔ)數(shù)據(jù)庫(kù),比惠普的Vertica、Infobright、ParAccel和Sybase IQ,可以實(shí)現(xiàn)30:1或者40:1的壓縮比。而行存儲(chǔ)數(shù)據(jù)庫(kù),比如EMC Greenplum、IBM Netezza和Teradata,平均4:1的壓縮比。這是因?yàn)橹鶢顢?shù)據(jù)可以保持一致,包含郵編、采購(gòu)訂單號(hào)碼等多種數(shù)據(jù)。而行狀數(shù)據(jù),比如與客戶相關(guān)的屬性組合--名稱、地址、郵編、采購(gòu)訂單號(hào)等等,則不具有這種優(yōu)勢(shì)。Aster Data和甲骨文數(shù)據(jù)庫(kù)可以提供混合行/列存儲(chǔ)功能。甲骨文的Hybrid Columnar Compression可以提供10:1的壓縮比。

大數(shù)據(jù)開拓者 帶給人的10大啟示[組圖]
數(shù)據(jù)壓縮

  壓縮比率不同很大程度上取決于數(shù)據(jù)本身,而且列存儲(chǔ)并不總是最好的選擇。如果在數(shù)據(jù)查詢的時(shí)候需要調(diào)用很大屬性,行存儲(chǔ)方案可能會(huì)表現(xiàn)出更好的性能。事實(shí)上,行存儲(chǔ)數(shù)據(jù)庫(kù)經(jīng)常被企業(yè)應(yīng)用在處理混合查詢的數(shù)據(jù)倉(cāng)庫(kù)中,而列存儲(chǔ)數(shù)據(jù)庫(kù)更多的是集中在海量數(shù)據(jù)查詢中。

  四、分類壓縮、減少處理時(shí)間

  類似連續(xù)性的列數(shù)據(jù)有利于壓縮一樣,我們也可以通過數(shù)據(jù)加載之前進(jìn)行分類從而提高壓縮比。在將數(shù)據(jù)裝載進(jìn)Sybase IQ至 強(qiáng),comSCore使用Syncsort DMExpress軟件對(duì)數(shù)據(jù)進(jìn)行分類。該公司的CTO Michael Brown(圖示)表示,它可以將10字節(jié)的 數(shù)據(jù)壓縮成3、4個(gè)字節(jié),而通過分類后的10個(gè)字節(jié)數(shù)據(jù)可被壓縮成1個(gè)字節(jié)。“這將給我們存儲(chǔ)海量數(shù)據(jù)提供了另外一種方式 。”

大數(shù)據(jù)開拓者 帶給人的10大啟示[組圖]
Michael Brown

  此外,分類也可以提高數(shù)據(jù)處理效率。comScore對(duì)URL數(shù)據(jù)進(jìn)行分類,從而將Web站點(diǎn)分類查詢工作量降到最低。無需加載40個(gè)網(wǎng)站頁面的URL地址從而在單個(gè)會(huì)話中進(jìn)行訪問,而只需對(duì)它們進(jìn)行分類就可以在Facebook上露出其中20個(gè)頁面,GMail上露出12個(gè),其他的則可能會(huì)出現(xiàn)在NYTimes.com上面。

  分類數(shù)據(jù)會(huì)觸發(fā)僅僅3個(gè)站點(diǎn)查詢,而未分類的數(shù)據(jù)則會(huì)引起多個(gè)毫不相關(guān)的數(shù)據(jù)查詢。“它有助于節(jié)約CPU大部分資源和時(shí)間,”Brown說到。完全可以借助SQL語句和自編腳本對(duì)數(shù)據(jù)進(jìn)行分類。不過,在IBM、甲骨文、SAP、SAS等數(shù)據(jù)集成軟件中,數(shù)據(jù)分類也是一個(gè)常見功能。事實(shí)上,Hadoop是一個(gè)真正意義上的大規(guī)模數(shù)據(jù)分類和處理的良好選擇。#p#副標(biāo)題#e#

 五、Hadoop的低成本非結(jié)構(gòu)化數(shù)據(jù)處理

  Apache Hadoop是成長(zhǎng)速度最快的開源項(xiàng)目之一,它是用于處理分布式數(shù)據(jù)尤其是大量非結(jié)構(gòu)化數(shù)據(jù)的組件集合。而MapReduce是基于Hadoop的快速處理大量信息的編程模型。傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù),比如IBM Netezz、甲骨文、Teradata和MySQL不能處理這種數(shù)據(jù),因?yàn)樗鼈儾荒苓m應(yīng)整行或者整列數(shù)據(jù)的情形,即使它們能夠提供支持,其帶來的許可成本會(huì)令人望而卻步。因?yàn)閿?shù)據(jù)規(guī)模通常都是成百上千TB甚至PB級(jí)。Hadoop是一款免費(fèi)軟件,可以運(yùn)行在低成本的硬件平臺(tái)上(Hadoop部署需要日常維護(hù),并不是免費(fèi)的)。


大數(shù)據(jù)開拓者 帶給人的10大啟示[組圖]
Hadoop的特點(diǎn)

  采用Hadoop的急先鋒包括有雅虎、eHarmony、Facebook、NetFlix和Twitter,而且也有越來越多的商業(yè)機(jī)構(gòu)對(duì)Hadoop開始感興趣。

  六、Hadoop減輕數(shù)據(jù)加載和處理煩惱

  據(jù)預(yù)測(cè),Hadoop市場(chǎng)規(guī)模將增長(zhǎng)到數(shù)十億美元,而且相應(yīng)配套和集成的產(chǎn)品也正在迅速成長(zhǎng)。比如著名的數(shù)據(jù)集成廠商Informatica、Pervasive Software、SnapLogic和Syncsort,都宣布了旨在幫助更快更容易的與新一代處理平臺(tái)協(xié)同的產(chǎn)品或者集成方案。

  Pervasive Software公司Data Rush工具可以提供與Hadoop協(xié)同、并行處理的優(yōu)化,數(shù)據(jù)服務(wù)商InfoChimps采用該工具與Hadoop實(shí)例運(yùn)行在亞馬遜的EC2云平臺(tái)上。該公司首席技術(shù)官Philip Kromer(圖示)表示,經(jīng)過Data Rush對(duì)數(shù)百GB數(shù)據(jù)的測(cè) 試發(fā)現(xiàn),其性能提升了2-4倍,由以往的16個(gè)小時(shí)降低到8小時(shí),從而幫助InfoChimps降低計(jì)算成本,能夠從Twitter和其他非關(guān)系數(shù)據(jù)源獲取更多數(shù)據(jù)。

大數(shù)據(jù)開拓者 帶給人的10大啟示[組圖]
Philip Kromer

  Informatica、SnapLogic、Syncsort和其他廠商,在跨傳統(tǒng)數(shù)據(jù)庫(kù)和Hadoop部署上使用單個(gè)工具,正使得數(shù)據(jù)加載、分類和匯總變成可能。某個(gè)單一和熟悉的方式和工具集,會(huì)讓管理數(shù)據(jù)的專業(yè)人員工作變得更加輕松。

  七、速度勝于規(guī)模

  在很多情況下,大數(shù)據(jù)中的“大”并不是每天加載和分析的信息數(shù)據(jù)庫(kù)規(guī)模,比如市場(chǎng)營(yíng)銷人員,通常加載和分析大量數(shù)據(jù)以盡快洞察市場(chǎng)行情,從而做出快速反應(yīng),并重新細(xì)分市場(chǎng),而不會(huì)浪費(fèi)精力和金錢到無用的事情上去。

大數(shù)據(jù)開拓者 帶給人的10大啟示[組圖]
LinkShare數(shù)據(jù)分析服務(wù)

  為出版商、廣告商提供搜索、聯(lián)合營(yíng)銷服務(wù),廣告網(wǎng)絡(luò)公司Linkshare每天需要裝載和分析數(shù)百GB網(wǎng)絡(luò)點(diǎn)擊數(shù)據(jù),但總的數(shù)據(jù)庫(kù)容量卻僅為6TB。低延遲正越來越成為該公司獲取競(jìng)爭(zhēng)力的法寶之一,該公司首席運(yùn)營(yíng)官Jonathan Levine表示,“五年以前將昨天的數(shù)據(jù)信息提交給用戶還能滿足需要,但現(xiàn)在不能再拖延了。”

#p#副標(biāo)題#e#

八、充分利用所熟知的領(lǐng)域

  傳統(tǒng)甲骨文、IBM DB2和微軟SQL Server部署之外,Netezza和Greenplum在2000年中期也進(jìn)入了數(shù)據(jù)倉(cāng)庫(kù)市場(chǎng)。轉(zhuǎn)眼間,甲骨文在2008年推出了Exadata,IBM于去年收購(gòu)Netezza,而今年的早些時(shí)候微軟推出SQL Server 2008 PDW。IBM、微軟和甲骨文已經(jīng)成為當(dāng)下主流的幾大供應(yīng)商。比如DirectEdge證券交易所,一直以來都是使用微軟解決方案的客戶。該公司首席技術(shù)官Richard Hochron(圖示)表示,PDW成為了“一個(gè)顯而易見的選擇”。


大數(shù)據(jù)開拓者 帶給人的10大啟示[組圖]
Richard Hochron

  汽車數(shù)據(jù)提供商Polk公司是甲骨文的客戶,其數(shù)據(jù)庫(kù)開發(fā)和運(yùn)營(yíng)總監(jiān)Doug Miller說,公司選擇Exadata的很大一部分原因,是工作人員對(duì)管理這一類型數(shù)據(jù)庫(kù)比較熟悉,他們正在等待著第二版的產(chǎn)品更新。

  九、基于兼容性的應(yīng)用

  某些數(shù)據(jù)庫(kù)平臺(tái)提供有對(duì)上一代產(chǎn)品的兼容,而其他產(chǎn)品則要求用戶對(duì)數(shù)據(jù)進(jìn)行遷移和產(chǎn)品更新。Teradata就是這種提供保持對(duì)以往產(chǎn)品兼容性的代表產(chǎn)品之一,用戶可以在新舊硬件的混合環(huán)境下提升整體規(guī)模。

  除此之外,用戶仍需要注意數(shù)據(jù)庫(kù)版本和硬件廠商的特殊要求。在方案實(shí)施以前,需要仔細(xì)了解各供應(yīng)商產(chǎn)品的兼容性,同時(shí)也需要著眼于未來的長(zhǎng)久擴(kuò)展。

大數(shù)據(jù)開拓者 帶給人的10大啟示[組圖]
沃爾瑪網(wǎng)上超市

  零售業(yè)巨頭沃爾瑪應(yīng)用Teradata已經(jīng)超過了20年。作為新協(xié)議的一部分,沃爾瑪?shù)腡eradata應(yīng)用部署將繼續(xù)擴(kuò)大和更新。一般來說,“服役期”滿的硬件通常都會(huì)為升級(jí)提供很好的理由。相比上一代產(chǎn)品,最新的Teradata產(chǎn)品能夠減少50%的占地面積,降低40%的能源消耗。

  十、考慮擴(kuò)展性的方方面面

  數(shù)據(jù)庫(kù)專家Richard Winter建議,在進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)投資時(shí),要考慮六個(gè)方面的擴(kuò)展性,它們分別是:數(shù)據(jù)的大小、數(shù)據(jù)的復(fù)雜性、用戶數(shù)、查詢量、查詢的復(fù)雜性以及數(shù)據(jù)延遲要求。大量的并發(fā)用戶(1000名、10000名或者更多),混合查詢以及復(fù)雜的分析,會(huì)受限于大規(guī)模數(shù)據(jù)。如果無法滿足以上這六個(gè)方面,那么系統(tǒng)不堪重負(fù)的速度可能要比預(yù)期更快。

大數(shù)據(jù)開拓者 帶給人的10大啟示[組圖]
Richard Winter

  最后,用最復(fù)雜的數(shù)據(jù),以及最難的查詢需求去測(cè)試那些數(shù)據(jù)倉(cāng)庫(kù)平臺(tái),這是非常有必要的。同時(shí),將并發(fā)用戶的工作量進(jìn)行復(fù)制和混合查詢,從而進(jìn)一步測(cè)試數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)。

原文鏈接:http://server.zol.com.cn/258/2582337.html

熱詞搜索:

上一篇:虛擬服務(wù)器備份:傳統(tǒng)應(yīng)用程序和新工具
下一篇:漢柏PWA-1000i系列室內(nèi)無線接入點(diǎn)產(chǎn)品

分享到: 收藏