亚洲成精品动漫久久精久,九九在线精品视频播放,黄色成人免费观看,三级成人影院,久碰久,四虎成人欧美精品在永久在线

掃一掃
關(guān)注微信公眾號(hào)

Cloudera Lakehouse Optimizer助力企業(yè)輕松交付高性能Iceberg表
2025-02-25   網(wǎng)絡(luò)安全和運(yùn)維

  IDC調(diào)研中國(guó)數(shù)據(jù)顯示,在落地GenAI應(yīng)用時(shí),68%的企業(yè)認(rèn)為需要梳理內(nèi)部數(shù)據(jù)資產(chǎn),66%的企業(yè)希望搭建數(shù)據(jù)湖等數(shù)據(jù)底座。開放式數(shù)據(jù)湖倉(cāng)一體架構(gòu)正迅速成為海量數(shù)據(jù)進(jìn)行統(tǒng)一、多功能分析的標(biāo)準(zhǔn)架構(gòu)。這種架構(gòu)既融合了數(shù)據(jù)湖的靈活性和可擴(kuò)展性,又具備數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)分析、治理和管理功能,為企業(yè)提供了強(qiáng)大的數(shù)據(jù)處理能力。開放表格式是這一架構(gòu)的關(guān)鍵組成部分,它直接在數(shù)據(jù)湖存儲(chǔ)上提供了大量傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的功能。目前,Apache Iceberg正迅速成為廠商和客戶的標(biāo)準(zhǔn)格式。

  盡管Iceberg的諸多特性可大幅降低實(shí)現(xiàn)高性能數(shù)據(jù)視圖所需的工作量,但這些特性也帶來(lái)了額外的開銷,并且需要手動(dòng)執(zhí)行作業(yè)以優(yōu)化性能和成本。為進(jìn)一步簡(jiǎn)化數(shù)據(jù)湖倉(cāng)一體架構(gòu)的管理,Cloudera推出了Cloudera Lakehouse Optimizer。該服務(wù)可智能化自動(dòng)處理Iceberg表,使得許多維護(hù)作業(yè)能夠在后臺(tái)自動(dòng)運(yùn)行。下面,我們將詳細(xì)介紹Cloudera Lakehouse Optimizer的功能、優(yōu)勢(shì)以及未來(lái)的發(fā)展方向。

  Cloudera Lakehouse Optimizer的功能

  Cloudera Lakehouse Optimizer根據(jù)用戶配置和Iceberg表統(tǒng)計(jì)數(shù)據(jù),自動(dòng)運(yùn)行基于策略的Iceberg表優(yōu)化任務(wù)。自動(dòng)優(yōu)化任務(wù)包括:

  壓縮(Compaction):企業(yè)通常會(huì)通過(guò)微批處理(Micro Batching)或流式攝取(Streaming Ingestion)等方式接收大量小文件,而讀取這些小文件會(huì)嚴(yán)重影響查詢性能。壓縮是將小文件合并為大文件以提升性能的過(guò)程。Cloudera Lakehouse Optimizer能夠自主判斷自動(dòng)壓縮數(shù)據(jù)文件的最佳時(shí)機(jī),確保用戶的表始終保持最佳性能。該服務(wù)還會(huì)根據(jù)使用模式優(yōu)先優(yōu)化高價(jià)值的表,確保每次優(yōu)化都能帶來(lái)實(shí)際的投資回報(bào)。

  表清理(Table Cleanup):隨著表的增長(zhǎng),往往會(huì)積累大量不再使用的數(shù)據(jù)文件、清單文件和快照。用戶通常需要執(zhí)行表維護(hù)功能,例如清除過(guò)期快照、移除舊元數(shù)據(jù)文件以及清理孤立文件,以優(yōu)化存儲(chǔ)利用率并提升性能。Cloudera Lakehouse Optimizer能夠自主判斷維護(hù)任務(wù)的最佳時(shí)機(jī),確保表的存儲(chǔ)利用率最大化。

  除了優(yōu)化措施和基于策略的控制措施,Cloudera Lakehouse Optimizer還提供了優(yōu)化任務(wù)的可觀測(cè)性,以幫助數(shù)據(jù)團(tuán)隊(duì)清晰了解策略對(duì)表和存儲(chǔ)健康狀況及性能的影響。

  Cloudera Lakehouse Optimizer的優(yōu)勢(shì)

  Cloudera Lakehouse Optimizer為使用Iceberg表的企業(yè)帶來(lái)了諸多優(yōu)勢(shì):

  •    通過(guò)優(yōu)化存儲(chǔ)占用空間和減少查詢運(yùn)行時(shí)間,降低總體擁有成本(TCO)。

  •    通過(guò)減少查詢中需要讀取的文件數(shù)量,提供高性能的數(shù)據(jù)視圖。

  •    通過(guò)自動(dòng)執(zhí)行一些繁瑣的湖倉(cāng)維護(hù)任務(wù),減少數(shù)據(jù)管理工作和開銷。

  Cloudera內(nèi)部基準(zhǔn)測(cè)試表明,使用Cloudera Lakehouse Optimizer維護(hù)Iceberg表可顯著節(jié)約成本。實(shí)際效果因使用場(chǎng)景不同可能有所差異。

  未來(lái)方向

  對(duì)于想要轉(zhuǎn)向開放式數(shù)據(jù)湖倉(cāng)一體架構(gòu)的企業(yè),Cloudera Lakehouse Optimizer當(dāng)前推出的功能為他們解決了兩個(gè)重要難題。Cloudera的愿景是讓提供高性能的數(shù)據(jù)視圖變得更加容易,而這僅僅是實(shí)現(xiàn)這一愿景所邁出的第一步。未來(lái),我們計(jì)劃增加對(duì)更多優(yōu)化功能的支持,包括通過(guò)分區(qū)重組解決影響查詢性能的數(shù)據(jù)分布問(wèn)題和查詢優(yōu)化。

  我們的目標(biāo)是確保Cloudera成為管理和訪問(wèn)Iceberg表的最佳平臺(tái)之一,同時(shí)讓企業(yè)更輕松地采用開放式數(shù)據(jù)湖倉(cāng)一體架構(gòu)。

熱詞搜索:Cloudera 混合數(shù)據(jù)

上一篇:如何依據(jù) GDPR 起訴公司數(shù)據(jù)濫用與隱私侵犯行為
下一篇:最后一頁(yè)

分享到: 收藏