一文讀懂選擇數據湖還是數據倉庫 - 大數據

　　今天，每秒都在生成TB和PB的數據，為這些海量數據集尋找存儲解決方案至關重要。復雜的機器和技術現在收集了令人難以置信的廣泛數據——每天超過2.5萬億字節！—來自設備傳感器、日志、用戶、消費者和其他地方。數據存儲并不像以前看起來那么簡單。在管理和存儲數據時，數據管理者需要考慮使用數據湖或數據倉庫作為存儲庫。

　　隨著數據量、速度和種類的增加，選擇合適的數據平臺來管理數據從未像現在這樣重要。它應該是迄今為止滿足我們需求的古老數據倉庫，還是應該是承諾支持任何類型工作負載的任何類型數據的數據湖？

　　在這里，我們深入探討了這兩個平臺。

　　數據湖

　　數據湖是一個中央存儲庫，可以大量存儲所有數據（結構化和非結構化數據）。數據通常以原始格式存儲，無需首先進行處理或結構化。在這種情況下，它可以針對手頭的目的進行優化和處理，無論是交互式分析、下游機器學習或分析應用程序的儀表板。

　　可以這樣想，數據湖就像一個大水體，比如說一個處于自然狀態的湖。數據湖是使用來自各種來源的數據流創建的，然后，多個用戶可以來到湖中對其進行檢查并取樣。數據湖的美妙之處在于每個人都在查看和操作相同的數據。消除多個數據源并在數據湖中擁有一個可引用的“黃金”數據集來保障組織內的一致性，因為用于訪問組織中智能的任何其他下游存儲庫或技術都將同步。這很關鍵。使用這種集中的數據源，就不會從不同的孤島中提取數據；組織中的每個人都有一個單一的事實來源。

　　該模式為公司的分析生命周期提供了近乎無限的能力：

　　攝取：數據以任何原始格式到達并存儲以供將來分析或災難恢復。公司通常會根據隱私、生產訪問以及將利用傳入信息的團隊來劃分多個數據湖。

　　存儲：數據湖允許企業管理和組織幾乎無限量的信息。云對象存儲以較低的成本為大數據計算提供高可用性訪問。

　　流程：借助云計算，基礎設施現在只需一個API調用即可。這是從數據湖中的原始狀態獲取數據并格式化以與其他信息一起使用的時候。這些數據也經常使用高級算法進行聚合、合并或分析。然后將數據推回數據湖以供商業智能或其他應用程序存儲和進一步使用。

　　消費：當我們談論自助服務數據湖時，消費通常是生命周期中的階段。此時，數據可供業務和客戶根據需要進行分析。根據復雜用例的類型，最終用戶還可以間接或直接以預測（預測天氣、財務、運動表現等）或感知分析（推薦引擎、欺詐檢測、基因組測序、ETC）。

　　數據湖支持原生流，數據流在其中被處理并在到達時可用于分析。數據管道在從數據流接收數據時轉換數據，并觸發分析所需的計算。數據湖的原生流式傳輸特性使其非常適合流式分析。

　　數據倉庫

　　數據倉庫發明于1980年底，專為業務應用程序生成的高度結構化數據而設計。它將組織的所有數據集中在一起并以結構化方式存儲。它通常用于連接和分析來自異構來源的數據。

　　數據倉庫架構依賴于數據結構來支持高性能的SQL（結構化查詢語言）操作。數據倉庫是專門為基于SQL的訪問而構建和優化的，以支持商業智能，但為流分析和機器學習提供有限的功能。它們受到ETL要求的限制，需要在存儲數據之前對其進行預處理。

　　數據倉庫在數據用于分析之前需要順序ETL攝取和轉換數據，因此它們對于流式分析效率低下。一些數據倉庫支持“微批處理”以經常以小增量收集數據。它支持順序ETL操作，其中數據以瀑布模型從原始數據格式流向完全轉換的集合，并針對快速性能進行了優化。

　　數據倉庫以專有格式存儲數據。一旦數據存儲在數據倉庫中，對該數據的訪問僅限于SQL和數據倉庫提供的自定義驅動程序。一些較新的數據倉庫支持半結構化數據，例如JSON、Parquet和XML文件；與結構化數據集相比，它們對此類數據集的支持有限且性能下降。數據倉庫不能完全支持存儲非結構化數據。

　　數據湖和數據倉庫之間的區別

　　數據倉庫和商業智能工具支持歷史數據的報告和分析，而數據湖支持利用數據進行機器學習、預測和實時分析的新用例。

　　雖然一些數據倉庫擴展了基于SQL的訪問以提供機器學習功能，但它們不提供原生支持來運行廣泛可用的程序化數據處理框架，例如ApacheSpark、Tensorflow等。

　　相比之下，數據湖是機器學習用例的理想選擇。它們不僅提供基于SQL的數據訪問，還通過Python、Scala、Java等語言為ApacheSpark和Tensorflow等編程分布式數據處理框架提供原生支持。

　　數據倉庫需要在數據用于分析之前順序ETL攝取和轉換數據，因此它們對于流式分析效率低下。一些數據倉庫支持“微批處理”以經常以小增量收集數據。這種流到批處理的轉換增加了數據到達與用于分析之間的時間，使得數據倉庫不適用于多種形式的流分析。

　　數據湖支持本地流式傳輸，其中數據流在到達時被處理并可供分析。數據管道在從數據流接收數據時轉換數據，并觸發分析所需的計算。數據湖的原生流式傳輸特性使其非常適合流式分析。

　　數據倉庫支持順序ETL操作，其中數據以瀑布模型從原始數據格式流向完全轉換的集合，并針對快速性能進行了優化。

　　相比之下，對于需要持續數據工程的用例，數據湖異常強大。在數據湖中，ETL的瀑布方法被迭代和連續的數據工程所取代。可以通過SQL和編程接口迭代地訪問和轉換數據湖中的原始數據，以滿足用例不斷變化的需求。這種對持續數據工程的支持對于交互式分析和機器學習至關重要。

　　揭穿關于數據湖和數據倉庫的三大神話

　　讓我們解決一些關于兩種流行的數據存儲類型的常見誤解：

　　誤區一：只需要數據湖或數據倉庫中的一個

　　如今，經常聽到人們談論數據湖和數據倉庫，好像企業必須選擇其中一個。但現實情況是，數據湖和數據倉庫服務于不同的目的。雖然兩者都提供數據存儲，但它們使用不同的結構，支持不同的格式，并針對不同的用途進行了優化。通常，公司可能會從使用數據倉庫和數據湖中受益。

　　數據倉庫最適合希望為商業智能分析操作系統數據的企業。數據倉庫在這方面工作得很好，因為存儲的數據是結構化、清理和準備分析的。同時，數據湖允許企業以任何格式存儲數據以用于幾乎任何用途，包括機器學習(ML)模型和大數據分析。

　　誤區2：數據湖是流行趨勢，數據倉庫不是

　　人工智能(AI)和ML代表了一些增長最快的云工作負載，組織越來越多地轉向數據湖來幫助確保這些項目的成功。由于數據湖允許存儲幾乎任何類型的數據（結構化和非結構化）而無需事先準備或清理，因此組織能夠保留盡可能多的潛在價值以供將來使用，未指定使用。此設置非常適合更復雜的工作負載，例如尚未確定具體數據類型和用途的機器學習模型。

　　數據倉庫可能是這兩種選擇中更為人所知的一種，但數據湖和類似類型的存儲基礎設施可能會隨著數據工作負載的趨勢而繼續流行。數據倉庫適用于某些類型的工作負載和用例，而數據湖代表了服務于其他類型工作負載的另一種選擇。

　　誤區三：數據倉庫易于使用，而數據湖很復雜

　　數據湖需要數據工程師和數據科學家的特定技能來分類和利用其中存儲的數據。數據的非結構化性質使得那些不了解數據湖如何工作的人更不容易訪問它。

　　但是，一旦數據科學家和數據工程師構建了數據模型或管道，業務用戶通常可以利用與流行業務工具的集成（自定義或預構建）來探索數據。同樣，大多數業務用戶通過連接的商業智能(BI)工具訪問存儲在數據倉庫中的數據。在第三方BI工具的幫助下，業務用戶應該能夠訪問和分析數據，無論該數據存儲在數據倉庫還是數據湖中。

　　構建現代數據平臺的原則

　　盡量減少數據平臺中人員、網絡和磁盤操作的影響。雖然人類永遠無法像計算機一樣快，但網絡和磁盤操作是客觀問題。為了減少這些問題的影響，避免在各處復制數據，加強平臺讀取和處理來自不同位置的數據的能力，包括事務性、發布/子系統和數據倉庫系統，而無需當天移動。構建現代數據平臺的原則是：

　　把事情簡單化，不要過度架構或過度設計；

　　為正確的工作使用正確的工具；

　　讓用例決定你應該使用什么；

　　使用云進行擴展；

　　將數據與上下文分開，這將使數據能夠用于多個用例。

　　數據湖和數據倉庫：用例

　　DataLake已經成為一個強大的平臺，企業可以使用它來管理、挖掘大量非結構化數據并將其貨幣化，以獲得競爭優勢。因此，公司對數據湖平臺的采用率急劇增加。

　　在這種利用大數據的熱潮中，一直存在一種誤解，即DataLake旨在取代數據倉庫，而實際上，DataLake旨在補充傳統的關系數據庫管理系統(RDBMS)。

　　數據倉庫適用于某些類型的工作負載和用例，而數據湖代表了服務于其他類型工作負載的另一種選擇。

　　用例應該驅動數據平臺架構。如果您的用例需要速度、具有已知的數據模型、完全結構化或非常接近它，那么SQL數據倉庫就足夠了。但是，如果您需要及時靈活地對數據進行建模并將其用于多種工作負載，您應該使用數據湖。

　　組織將依靠多種技術的最佳解決方案，包括數據倉庫和數據湖。最終，組織的選擇需要平衡管理多種技術的復雜性和TCO與以高性能和經濟高效的方式運行更多種類的工作負載的能力。

　　未來該如何選擇

　　我們現在處于這樣一個階段，我們不僅可以使用數據來回顧過去，還可以了解現在，甚至可以預測未來。數據和工具將不斷發展，以幫助我們幾乎實時地到達那里。

　　將數據與上下文分開。進來的數據不一定有你想用它的上下文。所以，在弄清楚你想用它做什么之前，把將數據獲取到一個位置的想法分開。因為實際上，您將對該數據進行多種用途。因此，您永遠不知道您可以將這些數據用于什么用途。因此，如果您首先獲取數據，然后弄清楚您想用它做什么，通常會導致使用這些數據產生更積極的結果。

　　數據倉庫供應商正在逐漸從他們現有的模型轉向數據倉庫和數據湖模型的融合。同樣，數據湖的供應商現在正在擴展到數據倉庫領域，雙方正在趨同。例如，BigQuery現在允許組織在AmazonS3上查詢數據。同樣，Databricks和Qubole等數據湖平臺現在正在果斷地轉向數據倉庫用例。您可以使用ACID屬性、事務一致性、快照等來管理存儲，并將查詢引擎更多地與存儲管理集成，為客戶創建湖倉模式。數據湖和數據倉庫之間的融合不僅僅是在談論，而是正在現實中應用。

亚洲成精品动漫久久精久,九九在线精品视频播放,黄色成人免费观看,三级成人影院,久碰久,四虎成人欧美精品在永久在线

一文讀懂選擇數據湖還是數據倉庫
2022-10-24 數據驅動智能

延伸閱讀

熱文

亚洲成精品动漫久久精久,九九在线精品视频播放,黄色成人免费观看,三级成人影院,久碰久,四虎成人欧美精品在永久在线

一文讀懂選擇數據湖還是數據倉庫 2022-10-24 數據驅動智能

延伸閱讀

熱文

一文讀懂選擇數據湖還是數據倉庫
2022-10-24 數據驅動智能