大數據技術的成熟
第一次革命與成熟度和質量有關。眾所周知,十年前,大數據技術需要付出一定的努力才能讓所有的部件一起工作。
過去有大量開發(fā)者的故事,他們花費了80%的時間試圖克服Spark、Hadoop、Kafka或其他工具的故障。如今,這些技術已經足夠可靠,并學會了如何相互配合。
基礎設施中斷的可能性比捕獲內部錯誤的可能性大得多。即使是基礎設施問題,在大多數情況下也可以容忍,因為大多數大數據處理框架都被設計成容錯的。此外,這些技術通過計算提供了穩(wěn)定、強大、簡單的抽象,允許開發(fā)人員專注于開發(fā)的業(yè)務方面。
大數據技術的多樣性
第二次革命正在發(fā)生,因為近年來出現了無數的開源和專有技術。大量的開發(fā)人員的創(chuàng)造性能想法已經轉化為大膽而杰出的解決方案,并圍繞它們產生了巨大的激勵協(xié)同作用。
以下了解一個典型的分析數據平臺(ADP)。它由四個主要層組成:
•儀表板和可視化——分析數據平臺的外觀,向終端用戶公開分析摘要。
•數據處理——數據管道用于驗證、豐富和將數據從一種形式轉換為另一種形式。
•數據倉庫——保存企業(yè)良好的數據的地方,進行匯總,并成為數據集市。
•數據湖,純粹的原始數據定居的地方,數據倉庫的基地。
每一層都有足夠的選擇,以滿足任何口味和要求。這些技術中有一半是在過去五年內出現的。
它們的重要之處在于,技術的發(fā)展是為了相互兼容。例如,典型的低成本小型分析數據平臺(ADP)可能包括ApacheSpark作為處理AWSS3組件或數據湖等類似項目的基礎,Clickhouse作為倉庫和用于低延遲查詢的OLAP,以及用于漂亮儀表盤的Grafana。
更復雜、擔保更強的分析數據平臺(ADP)可以用不同的方式組合。例如,引入ApacheHudi和S3作為數據倉庫可以提供更大的規(guī)模,而Clickhouse可以保留對聚合數據的低延遲訪問。
成本效益
第三次革命由云計算服務發(fā)起。云計算服務已經成為真正的游戲規(guī)則改變者。他們將大數據視為一個即用的平臺(大數據即服務),允許開發(fā)人員專注于功能開發(fā),而將云計算服務留給基礎設施。
還有一個分析數據平臺(ADP)的例子,它利用了從存儲和處理到表示層的無服務器技術的力量。它具有相同的設計思想,但技術被AWS管理的服務所取代。
值得一提的是,這里的AWS只是一個例子。同樣的分析數據平臺(ADP)可以構建在任何其他云計算平臺之上。
開發(fā)人員可以選擇特定的技術,并達到無服務器的程度。服務器越少,它就越可組合;然而,其缺點是它將更多地被供應商鎖定。鎖定在特定云計算提供商和無服務器堆棧中的解決方案可以快速進入市場。在無服務器技術之間的明智選擇可以使解決方案更具成本效益。
不過,這個選項對初創(chuàng)公司來說并不是很有用,因為他們傾向于利用典型的云計算服務,在AWS、GCP和Azure之間切換是相當普遍的情況。這個事實必須提前澄清,必須提出更多與云計算無關的技術。
在通常情況下,開發(fā)工程師區(qū)分以下成本:
•開發(fā)成本
•維護成本
•變更成本
以下逐一個解決這些問題。
(1)開發(fā)成本
云計算技術無疑簡化了工程工作。它可以在幾個領域產生積極影響。
第一個是關于體系結構和設計決策。無服務器堆棧提供了一組豐富的模式和可重用組件,為解決方案體系結構提供了堅實而一致的基礎。
只有一個問題可能會減緩設計階段——大數據技術本質上是分布式的,因此相關解決方案的設計必須考慮到可能的故障和中斷,以確保數據的可用性和一致性。作為獎勵,解決方案需要更少的努力來擴大規(guī)模。
第二個是集成和端到端測試。無服務器棧允許創(chuàng)建獨立的沙盒、播放、測試和修復問題,因此減少了開發(fā)時間和返工。
另一個優(yōu)點是云計算對解決方案的部署過程進行了自動化。不用說,這一特性是任何成功團隊的關鍵屬性。
(2)維護成本
云計算提供商聲稱已經解決的一個主要目標是用更少的精力來監(jiān)視和保持生產環(huán)境的活躍。他們試圖構建某種理想的抽象,幾乎不涉及DevOps。
然而,現實情況有些不同。關于這個想法,維護通常仍然需要一些努力。但除此之外,該法案在很大程度上取決于基礎設施和許可成本。設計階段非常重要,因為它提供了挑戰(zhàn)特定技術和提前估計運行時成本的機會。
(3)變更成本
客戶擔心的大數據技術的另一個重要方面是變更成本。經驗表明,大數據和其他任何技術都沒有區(qū)別。如果解決方案沒有過度設計,那么更改的成本可以精確地與非大數據堆棧相比。不過,大數據也有一個好處。大數據解決方案被設計成去耦是很自然的。適當設計的解決方案看起來不像一個整體,允許在需要的地方在短時間內應用局部更改,并且影響生產的風險較小。
總結
總之,中小企業(yè)可以負擔得起大數據成本。它向開發(fā)人員提出了新的設計模式和方法,以便他們能夠利用它來組裝任何分析數據平臺,同時保持最強的業(yè)務需求并同時具有成本效益。
大數據驅動的解決方案可能是業(yè)務快速增長的初創(chuàng)公司的一個很好的基礎,這些初創(chuàng)公司希望更加靈活,應用快速變化。一旦企業(yè)需要更大的數據量,大數據驅動的解決方案可能會隨業(yè)務一起擴展。
大數據技術允許在小范圍或大范圍內實現近實時分析,而經典的解決方案則與性能有關。
云計算提供商已經將大數據提升到一個新的水平,提供了可靠、可擴展和隨時可用的功能。開發(fā)高成本、快速交付的分析數據平臺(ADP)從未像現在這樣容易,因此可以采用大數據提升業(yè)績。