最近,由Platform Computing和SAS研究所共同贊助的一項華爾街科技調查顯示,各種規模和類型的企業,無論其是買方還是賣方,都認為不斷增加的數據量是進行業務分析時面臨的最大挑戰,因此,在未來的一年里,它們將優先投資于能敏捷分析和強有力的處理技術。對內部和外部數據進行預測分析將使得金融服務企業可以更好、更主動地管理和解決各種可能遇到的信貸和經營風險、欺詐和聲譽風險、客戶忠誠度和盈利能力等問題。
數據的增長,尤其是諸如電子郵件這樣的非結構化數據的增長為企業帶來了特殊的挑戰,數據類型的多樣化和數據量的急劇增長使得傳統的關系型數據庫難以應對,因此,金融服務企業正在針對數據分析研究下一代數據處理技術。
對于處理“大數據”來說,最有發展前景的技術之一是Apache Hadoop軟件和MapReduce框架。然而,現有的Hadoop軟件還缺少金融服務企業大規模部署MapReduce應用時所需的企業級魯棒性。
在現有的MapReduce解決方案中,Platform公司的Platform Symphony MapReduce是最適合于投入生產環境中的產品,也是同類產品中的佼佼者。Platform Symphony MapReduce是一種面向MapReduce應用的企業級分布式運行時引擎,旨在為MapReduce應用提供可隨時應用到生產環境中的各種功能,諸如很高的資源可用性和可預測性、支持多種應用和文件系統、操作成熟度、SLA策略控制以及極高的資源利用率。Platform Symphony MapReduce以Platform Computing公司多年來在分布式工作負載調度和管理領域的豐富經驗為基礎,其成熟的技術支持著《財富》500強中眾多公司要求極為苛刻的關鍵型任務的運行,為企業級的MapReduce應用提供了前所未有的分布式工作負載運行時服務。
Platform Symphony MapReduce是一款擁有增強版MapReduce框架的企業級產品,其功能與Apache Hadoop的功能完全兼容,解決了組織機構在目前可用的Apache Hadoop環境里部署MapReduce應用所面臨的主要運行風險。
Platform Symphony MapReduce包括以下主要模塊(見圖1):
Platform Symphony MapReduce為企業級MapReduce應用提供了以下主要功能:
● 策略驅動型工作負載調度器
Platform Symphony MapReduce策略驅動型工作負載調度器提供了10,000個優先級,支持多個MapReduce作業并行運行。這種策略驅動型調度器的功能包括為搶先式作業提供資源優先級,并對Map作業和Reducer作業進行公平調度,這一切都在作業層進行,以提供更好的細粒度和控制度。
● 極高的資源可用性
Platform Symphony MapReduce在分布式運行時引擎中確保了正常運行時間——因為沒有單一故障點。它提供了作業跟蹤器/任務跟蹤器自動實現故障切換和作業恢復,無需重新啟動作業。Platform Symphony MapReduce為Hadoop文件系統提供了在Hadoop分布式文件系統里自動實現故障切換的功能,并提供了文件系統恢復和相關作業恢復功能。
● 為應用開發和文件系統的選擇提供了開放式架構
Platform Symphony MapReduce采用開放式架構,支持多種MapReduce應用,確保Hadoop應用與基于Java的MapReduce作業之間百分之百的兼容性。內置在產品中的應用適配器(Application Adapter)技術提供了與Platform MapReduce無縫的應用集成,如此一來,采用Hadoop MapReduce技術(Java、Pig、Hive及其他技術)構建的作業無需改動編程邏輯,即可在Platform Symphony MapReduce上執行。這種開放式架構還提供了一種方法,可充分利用多種類型的文件系統和數據庫架構。Platform Symphony MapReduce全面支持HDFS、GPFS及其他分布式文件系統類型和數據類型。此外,就MapReduce進程而言,輸入數據源文件系統的類型可以不同于輸出數據源文件系統。這便于支持許多應用,包括抽取、轉換和加載(ETL)工作流邏輯。
● 支持同一集群上運行的多種MapReduce應用和混合類型的工作負載
Platform Symphony MapReduce為MapReduce工作負載支持多達300種不同的應用(作業跟蹤器),以及其他類型的分布式應用。這讓客戶可以充分利用現有資源和新資源,最大限度地利用IT基礎架構,同時只需使用單一管理界面。
● 支持滾動升級
Platform Symphony MapReduce支持在同一集群上運行的多個版本的MapReduce應用,無需停止運行整個集群,就可以升級軟件。運行升級后應用的服務器可與其他節點上前一個版本的軟件產品共存,因而可以在一組服務器上逐步進行升級,無需讓整個集群停止運行。
● 更出色的監控和故障排除功能
Platform Symphony MapReduce可監控處理器和內存的使用量,并相應分配資源。它提供了從單臺服務器獲取日志數據,并從單一界面來管理這些數據的功能。
● 極強的數據親和力
Platform Symphony MapReduce擁有強大的數據親和力(data affinity)功能,通過在調度管理MapReduce工作負載時充分考慮數據位置,大幅提升應用性能和資源利用率。其數據親和力功能節省了MapReduce應用訪問大量數據所需的時間。通過加快文件訪問速度,它可以將總的應用性能提升400%。
Platform Symphony MapReduce目前已經在多個關鍵的市場廣泛采用,其中包括金融服務、政府機構、零售業和生命科學等行業,為遍及各大行業的全球財富500強企業中要求最為苛刻、關鍵任務的分布式計算工作負載提供支持。