亚洲成精品动漫久久精久,九九在线精品视频播放,黄色成人免费观看,三级成人影院,久碰久,四虎成人欧美精品在永久在线

掃一掃
關注微信公眾號

大數據前景展望
2012-05-03   網界網

大數據技術能夠幫助企業用戶在茫茫的數據海洋里快速找到所需要的東西。大數據分析相關的人才之爭即將展開。

對于推特(Twitter)來說,處理海量的用戶數據是一個非常令人頭疼的問題,為此他們專門收購了一家公司幫助他們做這項工作。推特的成功完全取決于其對用戶所產生數據的充分利用。他們需要處理大量的數據:推特擁有2億多個托管賬戶,而這些賬戶每天會產生2.3億條推文。

2011年7月份,社交網站巨子推特收購了BackType公司及該公司的Storm軟件,后者能夠從語法上實時分析數據流,例如數百萬條的推文。收購之后,推特公布了Storm的源代碼,無意使該軟件商品化。Storm對于推特的價值在于其特殊的工作方式,因為這有助于識別新出現話題。比方說,推特使用該軟件能夠實時計算出Web地址在多個推特用戶間的共享程度。

推特的Storm 軟件首席工程師Nathan Marz解釋說:“這一工作實際上是一種高強度的計算,涉及數千個數據調用和數百萬份的用戶記錄。”在使用一臺機器的情況下,計算Web地址的范圍需要花上10分鐘的時間。但是如果使用10臺機器,那么計算只需要幾秒鐘。對于靠新興趨勢銷售廣告掙錢的公司而言,更快的運作非常關鍵。

推特等公司發現,他們手中掌握著大量的數據,而這些數據可幫助實現利潤的最大化,并提高效率。而實現這些目標的前提是,他們能夠快速組織和分析這些數據。目前大量新技術的出現使得這一目標成為可能,這些新技術大多數是開源技術。

團購網站LivingSocial 的CTO Aaron Batalion說:“如果我們能夠更好地理解用戶關注什么,利用這些數據提供更好的服務體驗,那么我們無疑將獲得競爭優勢。”目前LivingSocial使用的是Apache Hadoop數據處理平臺,以收集更多的用戶關注信息。

Batalion說:“開發出一款產品,然后讓它們工作起來就萬事大吉的日子已經結束了。為了獲得成功,你必須要想主意、測試它們、進行迭代、使用數據和分析法去搞清楚哪些在工作,哪些沒有。這是我們使用大數據基礎設施的方式。”

大數據越來越大

2011年5月,咨詢公司McKinsey and Company公布了一份報告。該報告預測了企業在未來幾年將會如何被數據洪流所淹沒。他們還預測了包括醫療、公共部門和制造業等行業將從對快速增長的數據的分析中獲益。

收集和分析交易數據可以讓企業洞察到客戶的選擇,讓他們能夠及時通知產品設計與服務部門,同時讓他們對新出現的問題進行快速補救。報告總結稱:“對大數據的使用將成為單個企業的競爭力與增長的重要基礎。大數據的使用將支撐下一波生產力增長與消費者盈余浪潮。”

當然,Teradata、IBM和甲骨文等公司推出太字節級(TB)的數據倉庫已有十多年時間。在這段時期內,數據更多的是以各種各樣的格式被收集與存儲,數據能夠在多個服務器間被平行處理,而這是大量信息被分析的必要基礎。除了維護來自數據庫的交易型數據,認真挑選數據倉庫中的數據外,企業還獲得了服務器產生的大量日志數據、由機器生成的數據表格、來自內部與外部社交網絡的用戶評論,以及其他松散的非結構型數據源。

Hortonworks公司的CTO Eric Baldeschwieler說:“傳統的數據系統無法很好地處理大數據,它們無法處理各種各樣的數據,同時這些系統無法以相應的速度進行擴展。這是因為數據增長速度很快,當今的數據很少是結構化的數據。”

研究機構Monash Research的Curt Monash稱,數據增長的速度正在以指數級的速度增長。摩爾定律指出,集成電路上可容納的晶體管數目,約每隔18個月便會增加一倍,性能也將提升一倍。 因此并不奇怪,新服務器的性能每18個月就會增長一倍,這也意味著它們的活動將相應地產生更多的數據集。

MapR公司的營銷副總裁Jack Norris認為,大數據解決方案代表了數據處理方式出現了重大轉變。此前,被認真挑選出來的數據通過被輸入到數據倉庫中,在那里它們將被進一步檢測。隨著數據量的增長,網絡將成為瓶頸。而Hadoop等分布式系統能夠在數據所在地就對數據進行分析。

大數據軟件僅僅是收集企業產生的所有數據,讓管理員和分析師以后再考慮如何使用這些數據,而不是在數據倉庫中創建干凈的用戶數據子集放置數據,然后再以有限的預設方式應付查詢。在這一層面上,與傳統的數據庫和數據倉庫相比,它們要更具備可擴展性。

互聯網推動大數據增長

在許多方面,谷歌、亞馬遜、雅虎、Facebook和推特等在線服務巨頭處于如何充分利用這些龐大數據集的最前沿。谷歌和雅虎等公司大力支持發展Hadoop。Facebook的工程師們則大力發展同樣是開源的Apache Cassandra分布式數據庫。

2004年的谷歌白皮書為Hadoop的發展拉開了帷幕。這份白皮書詳細地闡述了谷歌將通過一個名為BigTable的索引系統,創建能夠在眾多不同服務器中分析數據的基礎設施。谷歌一直在內部使用BigTable,但是曾經創建過Lucene/Solr開源搜索引擎的開發者Doug Cutting為其創建了一個開源版本,并以兒子的玩具象命名了該項技術。

雅虎是Hadoop技術的早期部署者。該公司在2006年雇用了Cutting并開始將大量的工程工作,以改良這種技術。目前已跳槽為Hadoop軟件和服務提供商Cloudera工作的Cutting說:“雅虎有著大量以不同形式相互關聯的重要數據,但是它們存在于相互獨立的系統之中。”

雅虎目前是Hadoop最大的用戶之一,其在40000多臺服務器中部署了該技術。同時雅虎正在以多種方式使用該技術。Hadoop的集群掌握了大量事件的日志文件和用戶點擊區域的日志文件,廣告活動也被存儲在Hadoop集群中。Monash說:“在將數據存入關系型數據庫前,Hadoop是一個組織和壓縮海量數據的重要工具。該技術非常適合跨大量文本集的搜索。”
另一款被互聯網服務商使用的大數據技術是Cassandra數據庫。Cassandra在單一行上能夠存儲200萬個列,這便于在現有用戶賬戶上附加更多的數據,而無需提前獲知數據被格式化的方式。使用Cassandra數據庫的另一個好處在于,它能夠在多個服務器中擴展,幫助企業更為容易地在單一服務器或小型服務器集群中擴展其數據庫。

Apache Cassandra項目主席、DataStax公司聯合創始人Jonathan Ellis稱,Cassandra由社交網絡巨頭Facebook開發,因為該公司需要一個大型分布式數據庫,以支持收件箱內搜索。

雅虎、Facebook等公司希望使用谷歌的BigTable架構,因為它能夠提供一個定向于行與列的數據庫結構,并且能夠在大量節點中擴展。BigTable的局限性在于其為定向于主節點的設計。整體運作依賴于單一節點協調其他所有節點中的讀寫活動。換句話說,如果主要節點故障,那么整個系統將癱瘓。 Ellis說:“這不是一個最佳設計。我們希望一臺機器故障后,其他的機器依然能夠正常運行。”

因此,Ellis和他的同行使用由亞馬遜開發的分布式架構Dynamo創建了Cassandra。關于Dynamo,亞馬遜工程師曾經在2007年的報告中進行了詳細的闡述。亞馬遜最初開發Dynamo是為了追蹤在線用戶將哪些東西放在了他們的網絡購物車中。Dynamo的設計并不依賴于任何一個主節點。任何節點都能夠為整個系統接收數據和查詢。數據將在多個主機中被復制。

致企業用戶

對于企業用戶而言,好的消息是越來越多最初由互聯網服務提供商開發的工具已經開始作為開源軟件提供給企業使用。目前,除了大型互聯網服務提供商外,大量企業也在對大數據工具進行測試。Baldeschwieler指出,金融機構、電信公司、政府部門、公共事業公司、零售商和能源公司也都在測試大數據系統。他說:“Hadoop和大數據部署是不可避免的。它們非常適合不同要求的客戶。”

那么,企業應該如何利用由機器和社交網絡產生的大量數據呢?事實上,對于企業的CIO來說,部署基礎設施并不是他們面臨的最大挑戰。Cloudera、Hortonworks、MapR等廠商正在致力于大數據技術的商品化,這將讓大數據技術的部署與管理變得更加容易。

研究機構Forrester的分析師James Kobielus說:“相比之下,找到在數據分析方面具有天賦的人才才是最大的困難。企業必須要關注數據科學。他們必須要雇用統計建模專家、文本挖掘專家,以及專門從事情緒分析的人才。大數據依賴于穩定的數據模型。統計預測模式和測試分析模式是處理大數據的核心應用。”

許多業內人士預測,大數據將會帶來一個全新的專業人員——數據科學家。他們對數學和統計學方面有著精深的造詣,并且熟悉如何利用大數據技術開展工作。這類人才可能非常稀缺。McKinsey and Company預測,到2018年,僅美國就短缺14萬至19萬名擁有深度分析技能的人才,短缺150萬名能夠熟練使用大數據分析做出有效決策的經理人和分析師。

MapR的Norris表示,盡管存在著許多局限性,但是企業需要不斷開拓進取,以保持競爭力和效率。他以進入互聯網搜索領域已有多年時間的谷歌舉例稱,該公司通過競爭在兩年時間內就控制了整個市場。“在這很大程度上要歸功于谷歌后臺架構所具有的先進性。大數據是一個重大轉變,它可能會導致眾多行業發生變革。”Norris說。

熱詞搜索:

上一篇:五大商業分析技術趨勢與使用方式
下一篇:防患于未然:數據中心驗證服務必不可少

分享到: 收藏