2024年夏天,CrowdStrike的一次錯誤軟件更新導致數百萬臺電腦癱瘓,造成數十億美元的損失,并突顯出公司仍然無法管理第三方風險,或無法快速有效地應對中斷。
“這是一個有趣的全球網絡影響案例研究,”Mitre的CTO Charles Clancy說道。
根據Adaptavist于1月底發布的一項調查,為應對此次故障,84%的公司正在考慮或已經開始分散其軟件和服務提供商。
對于那些一直在使用CrowdStrike的公司來說,更換供應商似乎是一個顯而易見的解決方案。
“但是,你應該使用什么終端檢測和響應平臺來代替它呢?”Clancy問道,“如果它是市場上最好的產品,那么拋棄它并不是答案。”
事件經過
在CrowdStrike自己的根本原因分析中,這家網絡安全公司的Falcon系統會在用戶機器上部署一個傳感器來監測潛在危險。2024年7月19日,CrowdStrike發布了一次更新,導致用戶機器崩潰。
該公司78分鐘后發布了修復程序,但要求用戶手動訪問受影響的設備,在安全模式下重新啟動,并刪除一個惡意文件。直到三天后,才發布了自動化修復程序。
總共有850萬臺電腦受到影響。由于此次故障,全球數千個航班被取消,數萬個航班延誤。多家醫院取消了手術,銀行、機場、公共交通系統、911中心以及包括國土安全部在內的多個政府機構也遭受了中斷。
據Parametrix的分析,僅對財富500強企業而言,整體損失就估計高達54億美元,而網絡保險風險平臺Cyberwrite的首席執行官Nir Perry告訴路透社,總經濟損失可能達到數百億美元。相比之下,此前最昂貴的停機事故是2017年的AWS故障,估計給客戶造成了1.5億美元的損失。
僅達美航空就因運營癱瘓、數千個航班取消和延誤而損失了5億多美元。在去年10月提起的訴訟中,達美航空聲稱該錯誤更新是以不安全的方式推出的,CrowdStrike應該賠償損失。在反訴中,CrowdStrike指責達美航空自身的問題,稱其他航空公司能夠更快地恢復,而且兩家公司之間的合同意味著達美航空無權因損失而提起訴訟。
總體而言,CrowdStrike的股價從故障前一天的343美元跌至8月2日的218美元低點,損失超過300億美元,即超過其總市值的三分之一。
但截至1月28日,該公司的股價已漲至400美元以上,創歷史新高,這得益于其在勒索軟件檢測行業測試中獲得的滿分,以及CrowdStrike在故障后對質量控制流程的改進,包括在該問題后增加了特定問題的檢查,以及其他測試、部署層和檢查。客戶還獲得了對如何部署更新有了更多的控制權。
此外,CrowdStrike聘請了兩家獨立的軟件安全供應商來審查Falcon傳感器代碼、其質量控制和發布流程,并改變了其更新的發布方式:更逐步地,向“越來越多的部署環節”發布,CrowdStrike負責對抗對手運營的副總裁Adam Meyers說道。“這使我們能夠在受控環境中監測問題,并主動在更廣泛的用戶群體受到影響之前回滾更改,”他在9月向國會小組介紹道。
然而,雖然CrowdStrike做出了改變,但世界各地的公司都在重新評估他們對供應商的信任程度,審查他們的軟件安全流程,并重新關注韌性。
要信任,但也要驗證。再想一想,不要信任……
內容交付公司Akamai的CIO兼高級副總裁Kate Prouty表示,此次故障對Akamai來說是一個警鐘。“這提醒了我們世界是多么地相互關聯,”她說道。
Akamai本身不是CrowdStrike的客戶,但確實使用了外部供應商提供的類似服務來幫助保護其系統。
“我們做的第一件事是審核我們擁有的所有解決方案,這些解決方案都有一個駐留在機器上并可以訪問操作系統的代理,以確保它們中沒有自動更新,”她說道。“當你有一個第三方供應商自動向系統推送更新時,你就失去了控制權。”
但是,對于一些公司來說,關閉自動更新可能會成為一個問題。如果有一個緊急的安全補丁該怎么辦?在推出之前測試每個補丁以確保其有效可能需要時間——而這段時間可能會被惡意行為者利用。
如果存在安全威脅和潛在漏洞,你必須盡快完成測試過程,Prouty說道。“如果不確定補丁是否會對你的環境造成損害,那么修補安全漏洞就沒有意義,”她補充道。
Akamai建立了一個結構,使其能夠快速進行測試,其中涉及自動化和人工干預。“值得多做一步謹慎操作,因為這可以在以后為你省去麻煩,”她說道。測試完成后,更新將分階段推出。“這并不能完全消除風險,但確實降低了大規模影響的風險,”她補充道。
如果可能的話,Akamai會避免使用需要代理的工具,盡管在某些領域(包括網絡安全)中,它們是必不可少的,而且利大于弊。“但是,我們沒有很多需要審核的代理,而且我們沒有發現任何配置錯誤,”Prouty說道。
Akamai還采取了其他措施來降低第三方軟件引發問題的風險,包括微分段和基于身份的身份驗證和訪問控制。
合同、審計和軟件物料清單(SBOM)
除了保護企業架構免受危險更新和一般危險軟件的侵害之外,公司還可以采取其他措施來保障其軟件供應鏈的安全,從選擇供應商和簽訂合同開始。“我作為首席信息官處于一個令人羨慕的位置,因為我們銷售的安全解決方案非常有效,”Prouty說道。“我們的法律團隊在談判合同時完全知道需要提出什么要求。如果一家公司不愿意為我們提供保持公司安全所需的東西,那么我們就不會與他們做生意。”
根據網絡安全和基礎設施安全局的說法,如果客戶沒有提出要求,供應商就很難在安全上投資。這意味著,除了在軟件公司內部建立安全設計的理念之外,該行業還需要在買方一側建立按需安全的理念。
為此,CISA于8月為政府企業客戶發布了一份軟件采購指南,該指南也可為一般企業所用。
該指南涉及軟件所有權的四個階段:軟件供應鏈、開發實踐、部署和漏洞管理,并表示它們有助于購買軟件的企業更好地了解其軟件制造商的網絡安全方法,并確保安全設計是一個核心考慮因素。
在CrowdStrike事件之后,Akamai開始審查其所有供應商協議,以確保合同中具有所有必要的保護措施。“我們仍在審查所有內容,”Prouty說道。
而且,僅僅相信供應商說他們是安全的是不夠的。例如,Akamai使用工具來審計云軟件解決方案的配置,并運行其他安全檢查。“它們不會消除風險,但會顯著降低風險,”她說道。
企業越來越多地采用的另一種做法是,要求供應商提供軟件物料清單(SBOM)。Anchore在11月發布的一項調查顯示,78%的企業計劃在未來18個月內增加對SBOM的使用。
構建韌性
不幸的是,無論采取多少預防措施,都只能降低風險,而無法完全消除風險。因此,Akamai也制定了最壞情況下的應對方案,并進行了演練,以評估其快速響應的能力,并找出需要改進的領域。例如,在CrowdStrike服務中斷事件發生后,Akamai立即進行了桌面演練。
“如果這種事情發生在我們身上,會是什么情況?”普勞蒂問道。演練甚至還包括了運行CrowdStrike的修復流程。她說,這次演練取得了成效,如果錯誤的更新通過了檢查,Akamai也能夠恢復。
米特爾的克蘭西說,更多公司應該進行這種準備演練。“你需要了解你的事件響應計劃、你的溝通計劃,不僅要寫下來,還要進行演練,讓這些技能保持熟練。”他說。
此外,重要的是,這些演練不能僅僅涉及安全團隊。“當發生事件時,整個業務都會受到影響,”他補充道,“首席信息官需要讓這些業務高管也參與這些演練和災難響應計劃。在現實中,拍板的是他們,而不是下面三級的某個事件響應經理。”
韌性尤為重要,因為企業不可能總是測試所有第三方軟件。“獨立審計每個軟件更新并不實際,”克蘭西說,“最好的做法是制定應急方案,以便在發生類似事件時進行響應和恢復。”但根據Adaptavist的調查,CrowdStrike服務中斷事件發生前,84%的企業沒有制定充分的事件響應計劃。而在那些制定了計劃的企業中,只有16%認為這些計劃在危機期間是有效的。不過,幸運的是,現在這種情況可能正在改變。
服務中斷事件發生后,54%的企業表示,他們正在實施事件響應計劃,或加大對現有計劃的投入。此外,大約一半的企業表示,將在未來12個月內引入或增加對各種測試措施以及監控和觀察技術的投資。
下一步
Coro Cybersecurity的CEO兼聯合創始人蓋伊·莫斯科維茨說,大問題在于,供應商優先考慮的是速度和利潤,而不是最佳實踐。“CrowdStrike每天推送大約十幾個更新,”他說,“出錯的機會很多。” “我希望看到出臺立法,建議甚至要求所有網絡安全公司立即在其軟件升級發布過程中實施分階段環境保障措施,”他補充道,“這樣,他們就可以在廣泛的客戶發布更新之前,在一個安全的環境中捕捉到任何失誤。”
希望看到政府采取行動的不止他一個人。在Adaptavist的調查中,47%的受訪者表示,他們現在比以前更支持有關網絡安全和韌性的法規,48%的人更支持有關軟件質量保證的法規。此外,49%的人支持強制性的事件報告要求。
8月,美國計算機協會技術政策委員會發布了一份聲明,呼吁對這一事件進行徹底調查,以便私營企業和監管機構能夠更好地加強網絡基礎設施,改進事件響應計劃和修復流程,改善國際協調和合作,并開發此類事件的索賠流程。
美國計算機協會技術政策委員會副主席喬迪·維斯特比說:“犯錯可能會很嚴重——而這是一起非常嚴重的事件。企業不得不重置系統,并且花了數周時間才從這次事件中恢復過來。”
但她說,個人客戶能做的有限。
“大供應商不會與5000個不同的客戶簽訂5000份不同的合同,”她說,“在某些情況下,我們可以推動合同條款,比如說,‘你每年都會向我們發送SOC 2報告,并證明你擁有所有這些控制措施。’他們可能會簽字同意,但你真正了解的卻有限。盡職調查能做的也只有這么多。”
她說,CrowdStrike事件凸顯了政府援助的必要性。
美國計算機協會表示,已經有一個企業似乎非常適合對這一事件進行調查并公布結果:美國網絡安全與基礎設施安全局(CISA)的網絡安全審查委員會。在聲明中,美國計算機協會敦促美國政府為該委員會提供必要的資源,以便其開展這項調查。本來這是件好事,但美國國土安全部卻解散了該委員會,理由是“濫用資源”。同時被解散的還有AI安全與保障委員會。這尤其是個問題,因為就像CrowdStrike一樣,企業對少數供應商的依賴程度越來越高。安全公司F5的現場首席信息安全官查克·赫林說,OpenAI的ChatGPT、Anthropic的Claude、谷歌的Gemini和Meta的Llama幾乎是所有企業AI應用的基礎。
“我們在急于采用AI的同時,卻沒有相應地在安全和韌性方面進行投資,這表明我們正在為自己設置潛在的災難性故障,而這些故障可能會讓CrowdStrike事件顯得微不足道,”他說,“CrowdStrike事件需要物理訪問受影響的系統進行恢復,但現在企業正在創建如此深的AI依賴,以至于可能無法進行手動干預。”