那么,到底什么是大的數據呢?最近,IT出版物eWeek提出了如下的看法,部分是基于Gartner公司的術語進行定義的:“大數據涉及到結構化和非結構化數據的數量、種類和速度,通過網絡在處理器和存儲設備之間傳輸,并為企業的相關業務提供相關數據業務咨詢。”
這一描述切中了數據管理和分析的部分,但卻忽略了圍繞著大數據的業務挑戰這一基本面:復雜性。例如,大數據的安裝往往涉及信息——包括社交媒體網絡、電子郵件、傳感器、網絡活動日志和其他數據源,這些都不能簡單的融入到傳統的數據倉庫系統。
而在許多情況下,需要把所有這些不同的數據放在一起,以在更廣泛的層面上使得它們具有意義??赡軙o業務規則以及大數據分析系統的其他組成部分帶來很大的影響。當涉及到數據存儲和查詢管理,大數據的復雜性使得其與傳統數據更加顯得不同,這便是分析數據庫和數據分析軟件廠商都不得不以加強了他們的產品,以幫助企業應對大數據的主要原因。
對大數據的理解是評估你的技術需求和制定大數據分析計劃的第一步。其次是了解市場和當前的趨勢,以及您的企業希望從越來越大的和多樣化的數據集中獲得的商業價值和競爭優勢。
大數據分析項目的大議程
許多企業一直都有龐大的數據集。但現在,越來越多的企業存儲的數據已經是TB級的,而不再是PB級的了。此外,他們正在尋找每日多次分析關鍵數據,甚至是實時的分析,改變傳統的每周或每月進行BI歷史數據審查的過程。他們要處理更多和更復雜的查詢,這涉及各種不同的數據集。這可能包括企業資源規劃和客戶關系管理系統,再加上社會媒體和地理空間數據,內部文件和其他形式的數據交易信息。越來越多的企業也希望被賦予企業用戶的BI自助服務功能,使他們更容易了解分析結果。
所有這一切都可以發揮到一個大數據分析策略中,技術供應商解決這些需要以不同的方式。許多數據庫和數據倉庫供應商關注的重點是能夠及時處理大量復雜數據。有些使用柱狀數據存儲,努力實現更快的查詢性能,或提供內置查詢優化器,或加入支持如Hadoop和MapReduce等開源技術支持等。
內存中的分析工具可以幫助加速分析過程,通過減少從磁盤驅動器傳輸數據的需要。而數據虛擬化軟件和其他實時數據集成技術可以用來組裝來自不同數據源的信息?,F成的分析應用程序適合經常要處理大數據的垂直市場,比如,電信、金融服務和在線游戲產業。數據可視化工具,可以簡化大數據分析的查詢結果呈現的過程,更好的服務于企業管理人員和業務經理。
在創建實施計劃和完成大數據基礎設施的選擇之前,適合上述有關數據和分析需求類別的企業首先應該考慮以下的事項和問題:
•所需數據的及時性,因為不是所有的數據庫都支持實時數據的可用性。
•相互關聯的數據和復雜的業務規則,將需要連接各種數據源。從而對企業績效、銷售機遇、客戶行為、風險因素和其他業務指標有一個廣泛的認識。
•需要進行分析的歷史數據量。如果一個數據源只包含兩年的數據信息,但實際需要的是五年的數據,這將如何處理?
•在你的行業,哪些技術供應商具備了大數據分析經驗,他們是否具有相關的跟蹤記錄?
•在企業內,誰負責各種數據,以及這些負責人將如何參與主動的大數據分析?
這些因素并不構成深入的需求計劃,但他們可以幫助企業在部署一個很大的數據分析系統和識別技術方面帶來一定的支持。