盡管云計算為IT部門帶來了驚人的效益,但它始終只是個技術平臺。由于管理的不完美,問題總會發生。實踐證明IT可以提供幫助,但在一些情況下,也可能會擴大人為失誤的影響。因此,改變管理手段和持續監控等基本的IT規劃是必要的。那么,如何通過規劃避免云服務中斷呢?
1.安裝特定警報
用少量的投資為重要基礎設施安裝特定警報,并確保警報聲超過噪音。添加警報系統升級通知,以確保在問題影響關鍵業務之前得到解決。
2.每天檢查數據表
即使擁有最先進的報警和報告系統,“經驗”仍然是最優秀的管理工具,尤其是當大量數據被雜亂混合時。定期觀察設備內存、CPU和接口使用的歷史性能數據表。允許管理員建立、調整性能數據表,以確保用戶受到影響前主動解決報警閾值。
3.創建有針對性的示意圖
通過監視重要的網絡設備收集詳細數據,其用途是無限的。但是,沒有什么能夠取代大屏幕上的紅色警報。創建示意圖,包含特定組件的關鍵網絡設備總體狀況等。例如,在墻上安裝一個顯示核心網絡設備的啟動/關閉狀態的60英寸LED顯示圖。
4.控制人為錯誤造成的宕機
迄今為止最嚴重的宕機始發于人為錯誤,而事件的發生只是由于很常見的網絡問題引起。一天輸入大量的神秘命令行接口(CLI)命令數百次,遲早會發生意外的災難。配置錯誤問題很難解決,所以請確保進行夜間設備配置備份工作。
5.創建問題解決方案
你不需要為每一個可能出現的問題列出詳細的處理方案,但你至少需要準備一個簡潔的電子表格。合理地列舉可能出現的問題,這可以幫助你確定風險領域,并加快團隊成員的初始故障排除步驟。同時,列表上還要包括團隊成員的緊急聯系方式。不管怎么說,凌晨2點在VPN(虛擬私人網絡)將問題解決總比第二天8點在辦公室解決要好。
6.預防問題擴張
即使你已經做好萬全準備,有時宕機事件還是會不可抑制的發生。為了防止問題的擴大,你需要合理的報警管理系統,借此保證合適的團隊能被及時通知。例如,如果一個文件被錯誤刪除,IT生產人員將被及時通知解決問題,這會讓你體驗到意想不到的改變。