亚洲成精品动漫久久精久,九九在线精品视频播放,黄色成人免费观看,三级成人影院,久碰久,四虎成人欧美精品在永久在线

掃一掃
關注微信公眾號

“實時數倉”若干問?
2022-09-28   韓鋒頻道

  近期接受ITPUB的專訪,談到關于實時數倉的若干問題。下面挑選其精華分享如下:


  一、實時數倉、數據庫、湖倉一體傻傻分不清?

  確實,如果從一個初學者來說這些技術可能大家聽起來會很容易覺得混淆,他們到底是什么樣的一些關系?我為大家去簡單的梳理一下。

  1.大數據平臺

  我們先談最基本的一個叫大數據平臺,大數據平臺是什么?大數據平臺是一種利用大數據技術去解決數據問題的一種技術平臺,也就是說它是一種技術的一些基本能力的集合,它并不一定是解決某一種具體的業務問題。比如說數據倉庫就是我們解決數據的使用的某一個具體業務問題的一種產品,但是大數據平臺它是個通用化的產品,那么這種通用化的產品可以解決數據的很多方面的訴求。我們可以通過大數據平臺這個平臺去自己靈活的組裝成滿足我們一個業務場景的一個具體的一個解決方案,它是這樣的概念。也就是說大數據平臺是一個通用化的技術平臺。那么比較典型的比如像數據倉庫領域,大家用得比較多的像過去我們用hadoop上面基于hive,現在我們可以看到很多的像input、procedure類似于clob這樣的一些大數據平臺,都可以解決我們一定數據的一些分析計算的問題。但是坦白講大數據本身這個平臺還是一個技術平臺的定位,那么這是第一個。

  2.數據中臺

  第二個我們再談談數據中臺,可以說在過去的三到四年,數據中臺是非常的火。國內也有一些初創的廠商,大家在做數據中臺。數據中臺是什么?我們要強調一點,數據中臺其實并不是一個技術平臺,它是一種業務平臺,也就是說數據中臺是把我們企業內部的數據服務通過業務的方式重新組織之后,為我們的前端業務系統提供支撐的一類平臺。所以說這里邊我們的數據的中臺,可能更多的是面對于我們的業務側解決我們的業務問題,那么它的底層會依賴于一些基礎的技術。比如說我們可以基于一個大數據平臺之上去構建出自己的數據中臺或者是基于其他的一些技術組合去做我們的底層技術,去支撐我們的數據中臺。但是從中臺本身這個概念來講,它并不是解決技術問題的,它是為了解決我們企業的數據業務問題。

  3.數據湖

  第三個是數據湖,數據湖的概念相對來說比數據倉庫的概念要稍微晚一點。它的出現是為了解決什么樣的問題呢?就是過去我們對于數據是一種非常標準化的,非常規格化的,做好了數據建模的一種組織形式。那么我們現在也看到,有更多的一些數據他們是沒有嚴格按照我們的數據建模的,或者說他們是非常零散的,散落在各處的,非常的多模,存在不同的這種數據存儲形式的這樣一些數據。這些數據在過去是沒有辦法很好的把它組織管理起來的,后來因為大家有了這樣的一些訴求就出現了數據湖技術。通過這個名字大家也可以看到數據湖是數據湖,它的含義就是像一個湖一樣,把我們企業內部的散落在各處的數據能夠集中在一起,然后我提供一定的數據的計算加工的這樣一些能力,這是我們講的數據湖。

  那么數據湖和我們的數據倉庫在之前是有一種對應的關系的。數據倉庫更強調的是這種建模的,比較規整的,比較嚴格按照一個規范要求去預設好的這樣一些條件的數據。那么這些數據往往存在我們數據倉庫里面,它的計算查詢的效率會更高一點,數據湖更涉及到沒有做過這種很好的一些標準化的一些數據。所以這兩個是有一種互補的關系。當然,從企業來講,我現在存在著兩個數據不同的載體,我的很標準的,預建模好的,很標準化的計算數據在我們的數據倉庫里面。但是呢,還有一些數據湖的數據是非常散亂的。那么有沒有一個數據的統一視角呢?這個時候就出現了我們的湖倉一體的這個技術。

  4.湖倉一體

  湖倉一體的技術就是融合的數據湖和數據倉庫這兩種技術,提供了一種大一統的一個解決方案。從更高的維度去看待我們企業內部的數據。所以說湖倉一體是提供了一種更全局的一個視角去看待我們的數據。

  5.實時數倉

  那么今天我們談到的實時數據倉庫實際上就是從另外一個角度去談,對我們數據倉庫中的實時性部分的需求做了特殊加強的一種技術平臺,它提供的是我們對于實時數據倉庫領域里面,對于那種需要我們的數據的采集計算加工處理,實現要求很高的一些領域的一種特有的一種技術,所以它也是一種技術名詞。

  二、盡管實時數倉的最終實現效果都是為了數據實時性要求,但實際表現形式卻“五花八門”,很多企業用云數倉、湖倉一體架構解決實時數倉需求。您如何看待這種變化?到底什么才是實時數倉?

  眾所周知,數據倉庫是一種非常久遠的技術,從上世紀80年代到現在發展的已經有三、四十年的歷史了。過去數據倉庫主要是解決我們的一些離線問題,現在我們也看到越來越多的企業把數據倉庫用在一些實時領域,就產生了所謂的實時數倉這樣的一個概念。那為什么會有這樣的一些需求呢?更多的是來自于我們企業對于數據實時性的要求,已經慢慢的變得更加重要,甚至在某些情況下會大于我們數據分析的價值。這個時候就凸顯了我們實時數倉的一個意義。這里面我們看到現在有很多的技術去支撐我們的數據倉庫,包括大家現在耳熟能詳的像數據湖、湖倉一體以及云原生數倉等等很多的概念,他們跟實時數倉有什么樣的關系呢?今天我們在這個場合會跟大家共同去探討數倉技術以及實時數倉能給我們企業帶來什么樣的不同,什么樣的價值。

  實時數據倉庫經歷了哪幾個重要發展階段?從底層架構來看,實時數倉和離線數倉的最根本區別是什么?到底是哪些關鍵技術讓實時數倉“夢想照進現實”?

  三、先來看第一個問題就是數據倉庫的發展。我之前也講到數據倉庫從上世紀80年代到現在三四十年的歷史發展之中,數據倉庫大概經歷了幾個階段:

  從早期的離線數倉,它解決了我們企業數據的分析基本問題,從原有的交易性數據庫很難滿足我們分析的訴求;離線的數倉提供了一種一定的數據規模下的數據分析的能力;現在隨著我們對于數據實時要求性比較高,后面出現了一些實時數倉分支的技術。比如大家現在比較熟知的像Lambda架構、Kappa架構,這些架構的出現更多的是為了滿足我們數據在實時處理、實時查詢方面的一些訴求,這也是我們實時數倉的一個雛形。到了現在我們可以看到數據倉庫在更多的領域得到了一些使用。剛才談到的這些Lambda架構包括Kappa架構,也在很好的程度上去解決了實時的問題。當然了,我們現在有了更好的一些技術來去滿足我們的實時數倉。

  我們從本質上來看實時數倉和我們的離線數倉有什么樣的區別呢?從這個名字上可以很容易的區分:一個是離線;一個是實時,這是它的最本質的差別。離線數倉是指我們的整個數據的獲取、加工、處理、計算的整個流程是在離線的形式上,也就是說不是一個online在線的方式。實時數倉就反知它是提供了一種在線的實時的一個能力,這是兩者最大的區別。正是有這個區別,使得我們實時數倉能夠解決我們很多的業務場景中,過去用離線數倉無法滿足的一些對數據實時性要求很高的場景,都可以用實時數倉去解決。

  現在有什么樣的技術去解決這樣的問題呢?包括我們之前談到的關于Lambda、Kappa這樣的架構。其實它的背后都是我們的流式處理架構的一些發展,包括現在我們也有了一些像云數倉通過云端的基礎設施對我們提供了很好的平臺。包括也有一些像AI與數倉的結合,也包括一些其他的領域,其實這些技術的誕生都為我們的實時數倉做好了一些鋪墊。

  當然我們講到傳統數倉的技術對現有的實時數倉仍然具有很大的支撐的意義,包括比較典型的像MPP的架構,在我們實時數倉當中仍然是主流的實現的技術。可以說,正是這樣的一些新興技術和我們離線數倉既有的一些技術基礎,共同打造為我們的實時數倉奠定了很好的技術基礎,也為整個實時數倉未來的發展會起到很好的助力。

  四、針對當前的傳統企業,特別是金融企業,實時數據倉庫的建設情況如何?對實時數據分析的需求,到底如何?

  可以說實時數倉是一個跨領域、跨行業的一種基礎技術,在不同的領域都能得到很好的應用發展。針對我們傳統企業,以金融業為代表,他們其實對于數據有著更高的要求。我之前也是一名金融行業的從業者,金融行業素以數據應用高地著稱,他們對于數據的嚴謹性、實時性的要求會非常的嚴格和苛刻。其實實時數倉的技術,對于金融行業會帶來很非凡的意義。我們知道金融對我們數據要求會比較嚴格,在過去很多的金融場景受限于我們底層的技術,是沒有辦法很好的去實現的。現在有了實時數倉,其實對于金融業來說會有一些新的業務的突破。比如像我們比較常見的像實時的風控、反欺詐包括實時營銷、在線分析等等很多的領域,正是因為有了實時數倉的出現能為金融行業去做了很好的基礎,能夠滿足于一些金融行業更多的新的業務形態的訴求。除了金融行業之外,其他的一些企業包括像物流、制造業、游戲、電商等等等等很多的行業領域,他們對于數據的實時性要求都有其各自的特點。那么實時數倉的出現也為這些行業打開了一個新的一種業務的發展的可能性。

  所以我說實時數倉在各個行業領域都會有著比較好的發展,當然受限于不同的行業發展階段,實時數倉在不同行業的發展也有所差異。目前我們看到像以互聯網企業他們在實時數倉領域實踐會更加的…

  五、從實時數倉落地的角度看,哪些行業發展速度最快?推動實時速倉快速發展的最根本原因是什么?在互聯網行業,實時數倉技術應用更加廣泛些,其背后的原因是什么?

  首先,互聯網企業其業務發展速度是比較快的,有大量的新興業務存在,這就促生對數據計算的更多訴求,實時數倉在其中會發揮較大作用。

  第二,就是技術儲備,互聯網行業在過去一二十年的發展,積累了大量技術,特別是一些互聯網大廠,技術積累是比較深厚的。針對數據倉庫這塊,有比較深入的沉淀,包括前面談到的Lambda、Kappa這樣的新興流式處理架構,都在一些大廠的得到非常多實踐;同樣包括新興實時數倉技術,也有實踐。所以說相對傳統企業來說,互聯網技術積累會更加豐富一點。

  第三,就是關于業務模型。互聯網行業跟很多傳統企業不同,其業務模型的往往是ToC的,相對來說業務模型的會簡單一點,這對于實時數倉的技術落地會更加容易。對建模的要求也不高,通常一個簡單寬表可能就能支持大部分業務了。

  第四,就是沒有歷史的包袱。一個企業是否是使用一種新技術,也取決于技術積累和技術棧演進發展。傳統企業,多少會存在一定的歷史包袱,存在存量業務很難去完全切換到新的技術棧。對于互聯網來說,這方面包袱相對比較小,所以比較容易去采用一種新的技術架構。

  第五,就是技術的迭代發展,我們知道技術從來不是憑空而降,都是不斷的演進迭代的。互聯網行業,經過這么多年發展,對于數倉的使用經歷從離線到流式到實時這一過程,這一演進過程也促進了實時數倉在互聯網企業的發展。

  六、不同行業、應用場景,在實時數倉方面的落地方案有哪些差異化特點?在底層的技術架構上又有哪些相同點?

  個人觀點,實時數倉是一種通用的技術,針對于不同行業落地,存在一定差異,但這個差異不大,更多是來自于行業自身的一些業務特點。舉個例子,比如說傳統數據庫都有一個叫ACID的能力,也就是對數據一致性要求,過去在數倉領域不太強調這一概念。那么現在將實時數倉應用到更多線業務領域,這就對數據有了一致性要求,ACID能力就變得非常關鍵,如果一個行業業務形態很強調這點的話,自然而然就會用到這樣技術。

  七、您認為哪些業務場景更適合用實時數倉平臺或者解決方案?自研和采購三方廠商服務都存在怎樣的優缺點?

  實時數倉,跟所有新技術一樣,都有其長處和短板,而不是一種萬能的方案,在具體實施上面要分場景。之前大量使用的傳統離線數倉與現有的實時數倉,兩者不是替代關系,而是共存。在很多業務場景下,其實還需要兩者來配合使用。一方面,實時數倉給我們提供了非常好的實時性,但相對而言在數據處理吞吐能力上,較離線數倉仍存在明顯差距。如果說數據規模中等,對實施性要求較高且并發控制在一定范圍內的情況下,實時數倉技術就比較合適;反之的比如說是一個大規模、甚至超大規模,更加強調數據吞吐能能或者是較高并發性要求下,傳統離線數倉會更加合適。

  另一個問題就是自研或引入三方服務上,這里涉及到企業自有的技術積累問題。數據倉庫技術,特別是在之前發展,技術路線是相對比較發散的。從傳統樹倉到流式處理,有很多企業會自己去構建數據倉庫系統,這顯然對企業的數據技術人員有較高要求,實時數倉對企業的人員則會更高。這個時候呢,就需要看企業是否已經有較好的技術積累,能夠駕馭好這樣的數倉能力。如果說有一定技術積累,可以去用自研方式;反之更加建議使用三方廠商提供比較成熟產品及服務。特別是現在,很多實時數倉產品都提供類SQL的交互方式,可使用戶使用門檻大幅降低,這對于企業數據人員會帶來很大便利。

  八、您認為離線數倉會被取代嗎?云數倉會成為實時數倉的中級發展方向?

  雖然實時數倉是主流趨勢,但離線數倉短時間內也不會被完全取代。這兩種技術,對我們來說都是需要的,也都很重要;而且在客戶的很多場景里面也同時需要離線數倉和實時數倉,這兩種技術是一個互為補充的關系。實時數倉為企業在一些實時性要求高的新業務探索方面

  提供一些可能性,但在企業里仍存在大量的如T+1的離線報表,這種計算任務還是需要離線數倉的。

  此外,之前談到的湖倉一體與實時數倉也是不矛盾的。前者是提供了基于傳統的數據倉庫和數據湖技術的一種融合技術,提供一種更好的數據交互方式。當然,它呈現的形式可以是這種實時數據服務形式,也可以是一種離線的。這兩個技術不是一個對等的概念。

  還有就是關于云數倉。我相信大家都看到了這一點,云代表著未來這種方向。我們看到有越來越多的基礎設施產品都搬到了云端,那么在云數倉上對數倉發展來也有著非常重要意義。數據倉庫,一個特點就是資源消耗比較大,包括數據的存儲資源和計算資源,而云恰恰為我們很好的解決這樣問題。其本質是解決一個資源供給問題,所以說數據倉庫和云的結合,會非常好的解決在資源需求上的一些痛點。同時云廠商也都在云這樣好的基礎設施之上為數據倉庫領域做了定制增強,可以使數倉更好的利用了云端資源,這為客戶會帶來附加價值。比如說,資源的彈性調度能力、數據快速獲取能力、上下游數據生態打通能力。這些都是云端為數倉所帶來的一些加長成。

  九、您認為實時數據倉庫的最關鍵能力是什么?如何全面確保數據分析的實時性、正確性、穩定性?

  實時數倉,還是一個快速發展中的技術,我們對它也抱有非常多期許,希望能給企業的數據應用帶來很多的不同,因此我們看到對于實時數倉的關鍵技術要求,還在不斷演進變化之中。這其中包括很多能力。

  第一,如實時數據獲取感知能力,就是通過這個能力可快速捕捉到數據和數據變化;數據的實時計算加工等等。

  第二,傳統數據倉庫相對來說是比較重的,對于企業來說投入較大,那么實時數倉其實為我們提供了一種可簡化的方式,即提供相對較低的使用成本,以一種更小、更節約化的架構去支撐現有企業的數據架構。

  第三,就是所謂的onedata概念。過去數倉的一大特點,就是數據是要經過多級分層的,其目的是為了提升數據利用效率,而今天實時數倉的出現其實是為了我們開啟一種新的可能性,就是企業數據可保存成一份,充分利用前端豐富算力進行計算。這一方式會大幅節約存儲成本,在維護數據質量方面也很好。

  第四,就是便捷性,未來我們是希望實時數倉能夠提供兩個一站式能力。一種是面對開發人員的服務能力,包括數據建模、數據開發、模型預測等。一種是針對整個數據使用流程從數據的采集、加工、計算、展示,全流程能夠通過實時數倉統一提供。

  十、實時數倉與AI,云技術如何結合?

  

熱詞搜索:

上一篇:數據網格在物聯網、人工智能和機器學習中的用例和應用
下一篇:最后一頁

分享到: 收藏