數據分析解決方案如今不斷涌現。數據團隊處于風暴的中心,因為他們必須平衡對訪問、數據完整性、安全性和適當治理的所有需求,這需要遵守相關政策和法規。他們所服務的企業需要盡快獲得信息,并且需要應對不平衡的行為,數據團隊必須快速而明智地采取行動。
他們還必須進行分析和預測,因為他們不僅需要為現在構建系統,還需要為未來構建平臺。數據團隊首先必須考慮的一個關鍵問題是:開放或封閉的數據架構。
開放與封閉的數據架構
先從術語“數據架構”開始。如果要展示多年來任何一個企業的架構圖,很可能他們的數據標簽實際上是代表數據庫的標簽——并不是數據本身,而是對數據起作用的引擎。人們可能對這些名稱很熟悉,例如Oracle、DB2、SQLServer、Teradata、Exadata、Snowflake等。這些都是為了加載數據集用于操作或分析目的的數據庫,它們是“數據架構”的基礎。
根據定義,這些數據庫就是所說的“封閉數據架構”。這意味著數據本身與其他應用程序隔離,必須通過數據庫引擎訪問。即使使用ETL作業移動數據也是如此,因為在某些時候,要進行導出或導入,需要遍歷數據庫,無論這是否是實現企業想要做的事情的最佳方式。在這個重要的意義上,數據與架構的其余部分是“封閉”的。
總之,封閉的數據架構將數據帶到數據庫引擎,而開放的數據架構將數據庫引擎帶到數據。
測試企業是否正在處理開放式架構的一種簡單方法是考慮未來采用新引擎的難度。能否將新引擎與現有引擎(在相同數據上)并行運行,還是需要進行大規模(并且可能不切實際)的遷移?
需要注意的是,在這一點上,已經觸及了與開源無關的“開放”的一個關鍵方面。第一步是決定希望其數據開放并可供任何希望利用它的服務,這將在云計算世界中開放。
開放的、面向服務的數據架構
當應用程序從客戶端-服務器遷移到Web時,基本架構發生了變化。從在一個進程中運行的單一應用程序轉變為面向服務的應用程序,這些應用程序被分解為更小、更專業的軟件服務。這些最終被稱為“微服務”,并且它們仍然是Web和移動應用程序的主導設計。由于云計算基礎設施的性質,微服務方法具有許多優勢。在具有按需資源模型和眾多團隊致力于功能塊的橫向擴展系統中,應用程序只不過是數十或數百個微服務的外觀。
很多人都認為這種方法在構建模塊化和可擴展的應用程序方面具有許多優勢。出于某種原因,應該相信這種范式對數據并沒有那么有效。專家指出,以與應用程序相同的開放、面向服務的方式查看數據的邏輯是顯而易見并且可取的。在實踐和戰略層面,開放的、面向服務的數據架構才有意義。
這就是為什么說開源軟件的問題是次要的原因。最重要的“開放”是決定開放數據架構比封閉數據架構更可取的第一步。一旦發生這種情況,就會出現一個分水嶺。開放文件和表格格式(ApacheParquet、ApacheIceberg等)非常重要,因為它們允許全行業創新。其創新以服務于獨立開發者的形式交付。雜亂、昂貴、脆弱和破壞合規性的數據被顯著減少甚至消除。數據團隊可以從同類最佳的服務中進行選擇來處理該數據,并將它們放入架構中,就像人們十多年來對應用程序服務所做的一樣。是時候讓數據架構迎頭趕上了。
那些對開放數據架構的價值提出異議的人表示它們太復雜了。任何重大的技術轉變都會帶來復雜性。中型機最初比已建立的大型機更難以管理。然后,基于Intel架構的服務器最初比已建立的中端系統更難以管理。管理個人電腦最初比管理已建立的啞終端更復雜。而每次發生技術轉變時,它都會通過正常的采用曲線進入應用主流。從管理的角度來看,早期總是更加復雜,但隨著時間的推移,新的工具和方法會降低這種復雜性,從而產生遠遠超過初始復雜性成本的收益。這就是為什么進行技術創新的原因。
Dremio是一款DaaS平臺,其創建是為了使開放的、面向服務的數據架構變得更加容易和強大。使用Dremio,由于可以將所有部分放在一起,因此對Lakehouse運行SQL很容易。在這一過程中,創建了改變行業的開源項目,例如Nessie、ApacheArrow和ArrowFlight。這些是開源項目,因為開源技術鼓勵采用和互操作性,這對于企業數據架構中的服務集成層至關重要。客戶之所以受益,是因為他們可以采用創新的關鍵技術,以更好地為他們服務。開源愛好者之所以受益,是因為他們可以訪問代碼以更好地理解它,甚至改進它。行業廠商之所以受益,是因為可以使用這些創新來快速輕松地在Lakehouses上創建SQL。
對這個討論提出一個很好的觀點,現實上,無論供應商聲稱多么“開放”,無論他們如何談論支持開放格式和開放標準,即使該供應商的核心是開源的,如果數據架構是封閉的,那么它就是封閉的。
Snowflake公司在最近發表的一篇文章中提出的關鍵一點是,需要在數據格式和存儲所有權等方面進行封閉以滿足業務需求。雖然這在多年前可能需要這么做,但云存儲和事務表格式等最近的進步現在使開放式架構能夠滿足這些要求。如果企業可以通過開放式架構和隨之而來的所有好處來滿足其要求,那么為什么要選擇封閉式架構呢?
數據成為一等公民
行業專家倡導數據本身成為架構中一等公民的世界。對于想要從開放架構中愛益的企業,行業廠商正在使這一點變得越來越容易實現,例如:(1)靈活地使用最適合不同工作的同類最佳引擎;(2)避免被鎖定通過專有引擎來訪問他們的數據;(3)做好準備以利用未來的創新;(4)消除無休止地將數據復制和移出數據倉庫所造成的復雜性。
行業廠商不僅致力于開放標準和開源,盡管它們可能很重要,但首先致力于開放數據架構。因為隨著它們變得越來越容易實現和使用,與封閉的數據架構相比,其優勢是壓倒性的。