自從Hadoop在2008年作為Apache開源項目發布以來,它就一直讓人備感興奮,原因在于它結合了成本低、可擴展性佳以及無需構建預定義模式(predefined schema)就能靈活地處理任何數據等優點。在大數據時代,許多人寄希望于Hadoop廠商們能夠開發出成熟可靠的工具、功能和技術創新,以更經濟的方式、更好的性能實現數據處理和分析。擁有近20年數據集成創新經驗和領導才能的Informatica,擴展了其數據集成平臺以支持Hadoop,最新發布的Informatica 9.5提供了全新及擴展功能,極好的釋放了Hadoop潛能,幫助客戶實現大數據最大投資回報。
Hadoop 可幫助您實現什么?
Hadoop的最大價值是什么?主要包括兩方面:一是Hadoop可以幫助降低大數據的成本;二是Hadoop能夠真正提高大數據的價值。精益原則在大數據時代比以往任何時候都有效,并且是使大數據不成為大債務的關鍵。Hadoop使企業能夠使用精益數據管理,以降低數據成本,這包括:業務成本、硬件成本、人工成本、軟件成本、存儲成本。此外,通過易訪問性、可操作性、權威性、整體性、相關性、安全性、及時性、可信性等特性,Hadoop還能幫助客戶增加數據的價值。
一些開路先鋒已經投入很大精力來開發Hadoop,Hadoop取得的成功同時也促使主流市場對其穩定性、成熟的管理等更高的需求。這個群體中有影響力的主要廠商包括Cloudera、亞馬遜、MapR、Hortonworks、DataStax、EMC、IBM、Informatica、微軟和甲骨文等。
采用成熟、先進的數據集成平臺釋放Hadoop的潛能
在IT環境中,Hadoop不可能作為一個孤島存在。為了讓Hadoop可以跨越不同平臺并成為一種主流技術,用戶需要將Hadoop作為他們IT大環境中的一部分來管理,通過Hadoop重復使用他們的開發技巧、資產及數據,并統籌管理全部數據。Informatica 9.5 為企業帶來了他們所需的交互性、生產力以及可管理性,以便快速采用Hadoop并最大化他們的大數據投資回報。
我們從數據處理的六大步驟說明Informatica怎樣來釋放Hadoop的能力。第一步,是將數據攝入到Hadoop;第二步,發現Hadoop數據的異常、關系和域類型;第三步,在 Hadoop中解析和準備數據,這對于Informatica來講是非常獨特和重要的,現在數據類型非常多,要對其進行分析,首先要解析,將其變成可以工作的結構型數據;第四步,在Hadoop中轉換和清洗/標準化數據,數據一旦格式化后就可以進行轉換、過濾、集成、分類等等;第五步,在Hadoop上調用自定義業務分析;第六步,從Hadoop上讀取數據,目前一些大的報告工具,還不能夠直接在很多平臺上運行,因此需要把計算結果提取出來放到傳統數據庫中。當然,在一到六步的實現過程中,企業還需要管理整個過程,需要監督、監視系統發生情況。
Informatica 9.5已經實現了上述提到的一、三、六步的功能,而二、四、五步功能則將在年底推出的Informatica 9.5.1中實現。下面主要介紹Informatica 9.5中已實現的功能。
Hadoop 的數據輸入和輸出
在大數據時代,每小時要移動數十TB的交易數據、交互數據和流數據,我們希望能夠提供不同的方法來提取和裝載數據。Informatica PowerExchange for Hadoop可提供與HDFS和Hive適配器高性能連接,企業能夠向Hadoop輸送所有數據以便集成和處理大數據,通過與包括大型機、數據庫及應用程序在內的所有數據(無論企業內部還是云中)的統一連接,可以輕松地以批量或實時方式在Hadoop系統中取送數據。
PowerExchange for Hadoop具備了易于使用和管理的開發環境,其元數據驅動方法為快速設計和開發提供了便利。該軟件與Informatica PowerCenter全面集成,能夠輕松地部署、排除故障和升級,圖形化設計環境則使之易于在預加載和后處理階段解析、轉換及清洗數據。此外,它還能對HDFS連接以及加載時間等操作統計數據進行管理和監控。
在 Hadoop 上解析和準備數據
Informatica HParser是第一款Hadoop環境下的數據編譯轉換解決方案,能把任何非結構和半結構數據--諸如網絡記錄、社交媒體數據、通話詳細記錄以及其他數據格式--轉換為更具結構性的格式,可以得到更快速的使用和生效,從而驅動業務發展、提高運營效率。利用Informatica HParser這一覆蓋了大范圍數據格式、基于引擎的解決方案,用戶能大大簡化并加快數據分析過程,有效避免處理過程中的風險并削減定制編譯腳本的成本。
用于創建和維護轉換的HParser可視化集成開發環境(IDE)可以加速開發過程,并提高開發者生產力。HParser還將開發中的多層次及關系轉化為更為扁平、易于使用的格式,并允許業務規則進行確認。HParser支持靈活高效地處理Hadoop里面的任何文件格式,為Hadoop開發人員提供了即開即用的解析功能,以便處理復雜而多樣的數據源,包括日志、文檔、二進制數據或層次式數據,以及眾多行業標準格式(如銀行業的NACHA、支付業的SWIFT、金融數據業的FIX和保險業的ACORD)。利用HParser,開發者可以創建MapReduce中的應用邏輯及數據源之間的抽象層,該特性允許應用邏輯一經創建便可實施在多種不同數據源中,這樣可以允許項目便捷地延展。利用相同的集成開發環境,設計組件可以拓展到企業的其他部分,而不僅僅限于Hadoop項目。
作為全球領先的企業數據集成軟件提供商,Informatica一直以來都是各大廠商進軍大數據領域爭搶的對象,不只是因為全球近5000家企業依賴Informatica方案管理其在本地的、云中和社交網絡上的信息資產,還因為它在數據方面強大的技術能力。Informatica旨在提供一款單一平臺,借助統一的環境和方法,全面滿足數據管理和數據集成方面的要求。