Cloudera大中華區(qū)技術(shù)總監(jiān) 劉隸放
人工智能(AI)正逐步成為重塑企業(yè)運營方式的強大力量。IDC預(yù)測,由于數(shù)據(jù)平臺在數(shù)據(jù)存儲、標(biāo)準(zhǔn)化和訪問方面的采用率的增加,超過 50% 的中國企業(yè)將準(zhǔn)備好使用GenAI來處理數(shù)據(jù) 。根據(jù)Cloudera的一項研究預(yù)測,美國有超過三分之一(36%)的企業(yè)正處于探索AI應(yīng)用潛力的早期階段。然而,盡管AI的普及程度日益提升,一些企業(yè)仍在其應(yīng)用中面臨挑戰(zhàn)。問題的癥結(jié)在于AI和各類分析技術(shù)都基于數(shù)據(jù),而這些數(shù)據(jù)往往零散且相互孤立,導(dǎo)致很多企業(yè)難以訪問并從各個環(huán)境中收集數(shù)據(jù),進而投喂給AI使用。所以,企業(yè)想要從AI中獲取業(yè)務(wù)洞察和價值會變得更加困難。面對分布式數(shù)據(jù)基礎(chǔ)設(shè)施、治理、不斷變化的安全環(huán)境等方面的特殊挑戰(zhàn),企業(yè)想要實現(xiàn)AI的全面、快速應(yīng)用,亟需獲得專業(yè)的支持。
為了滿足客戶在數(shù)據(jù)、AI和分析方面的需求,我們發(fā)布了新一代開放式數(shù)據(jù)湖倉一體架構(gòu),加入了多項增強功能,專為快速擴展企業(yè)AI應(yīng)用和創(chuàng)造更多業(yè)務(wù)價值而構(gòu)建。目前,Cloudera為云和本地提供帶有Apache Iceberg的開放式數(shù)據(jù)湖倉一體架構(gòu)。這標(biāo)志著平臺發(fā)展的一座重要里程碑:IDC的數(shù)據(jù)顯示,目前全球企業(yè)管理的生產(chǎn)數(shù)據(jù)中約有一半部署在本地。新一代Cloudera平臺憑借強大的功能,為數(shù)據(jù)中心帶來與云端完全相同的開放式數(shù)據(jù)湖倉一體架構(gòu)功能。對于高度敏感但又至關(guān)重要的公司數(shù)據(jù),該平臺可解決其在管理上的復(fù)雜性,同時還能從這些數(shù)據(jù)中提煉出更大價值。
以下是本次更新中最具影響力的三個功能:
Apache Iceberg
在增加了對Apache Iceberg的功能支持之后,Cloudera能夠支持企業(yè)將關(guān)鍵任務(wù)數(shù)據(jù)投喂給AI,以優(yōu)化一些容易出錯的流程,從而生成新的用例、提高整體性能和降低成本。借助Iceberg提供的開放表格式,企業(yè)可以在本地環(huán)境中使用AI處理數(shù)據(jù)。該方法使企業(yè)能夠使用新的計算引擎,并且增加了Spark、Flink、Impala和NiFi,實現(xiàn)了在Iceberg中對數(shù)據(jù)集的并發(fā)訪問和處理。
憑借時間旅行、模式演進、數(shù)據(jù)發(fā)現(xiàn)簡化等內(nèi)置功能,Iceberg使數(shù)據(jù)團隊能夠在保持?jǐn)?shù)據(jù)完整性的同時加強對數(shù)據(jù)湖的管理。由于企業(yè)需要實現(xiàn)合規(guī)并遵守《中華人民共和國數(shù)據(jù)安全法》等政策,因此數(shù)據(jù)湖倉一體架構(gòu)上的就地模式演進和ACID事務(wù)等功能對他們至關(guān)重要。無論是在數(shù)據(jù)中心還是在云端,功能強大的平臺數(shù)據(jù)安全和治理層Shared Data Experience(SDX) 都是開放式數(shù)據(jù)湖倉一體架構(gòu)的基本組成部分。
Apache Ozone
隨著AI和其他先進分析技術(shù)的規(guī)模日益擴大,性能和可擴展的數(shù)據(jù)存儲也需要隨之提升。Apache Ozone專門用于數(shù)據(jù)中心,更低的成本提供了更加強大的擴展能力,幫助企業(yè)創(chuàng)造更大的業(yè)務(wù)價值。通過此次更新,Cloudera為客戶提供了增強安全性和加強企業(yè)就緒性所需的新功能。我們的新一代平臺加入了復(fù)制改進、卷配額改進、促進云原生架構(gòu)的存儲桶(Bucket)、快照等Ozone功能,而且現(xiàn)在還支持存儲桶(Bucket)和卷級別的數(shù)據(jù)存儲。
免停機升級(Zero Downtime Upgrades)
除了Iceberg和Ozone的各項改進之外,該平臺現(xiàn)已推出免停機升級(ZDU)功能,為企業(yè)提供了一種更加便捷的升級方式。現(xiàn)在,HDFS、Hive、HBase、Kudu、Kafka、Ranger、YARN和Ranger KMS均支持滾動升級。ZDU盡可能減少了對客戶工作流程的影響,以減少甚至避免漫長且昂貴的停機。
通過添加ZDU,客戶將獲得單段升級和大型集群自動升級等功能,從而更大程度提高生產(chǎn)力。對于預(yù)計仍會出現(xiàn)停機的平臺組件,此次更新將通過Cloudera Manager優(yōu)化,并快速重啟這些組件。在以前的升級換代中,Queue Manager等一些服務(wù)往往最先停機并最后重啟。現(xiàn)在,這些服務(wù)在ZDU啟動后幾分鐘內(nèi)就能恢復(fù)運行。
對于想要從數(shù)據(jù)中提煉出更大業(yè)務(wù)價值的企業(yè),AI已逐漸成為必不可少的工具。企業(yè)需要在適合數(shù)據(jù)和分析的環(huán)境中運行,這不僅是實現(xiàn)混合數(shù)據(jù)策略的關(guān)鍵,也是Cloudera的獨特之處。Cloudera平臺提供了可移植云原生分析功能,能夠部署在一切基礎(chǔ)設(shè)施,同時保持?jǐn)?shù)據(jù)治理和安全的一致性,并且適用于云和數(shù)據(jù)中心。