故障管理是網絡管理中最基本的內容之一。故障管理的目的在于確保網絡系統的高穩定性。在網絡出現故障時,故障管理系統必須及時發現故障部位。故障管理的日常工作包含對所有節點動作狀態的監控、故障記錄的追蹤與檢查,以及平常對網絡系統的測試。
故障管理功能以監視網絡設備和網絡鏈路的工作狀況為基礎,包括對網絡設備狀態和報警數據的采集、存儲,可以實現報警信息通知、故障定位、信息過濾、報警顯示、報警統計等功能。故障管理可以統一不同網絡設備的警報格式,并將其顯示在圖形界面上,通過對報警信息進行相關性處理,確定報警發生地的管理歸屬等;除此之外,故障管理還可根據用戶需要保存所有報警信息,同時可產生各種故障統計、分析報告。
計算機網絡的可靠性是實現網絡系統功能的基礎。當網絡中某個組成部分失效時,網絡管理員必須迅速查找到故障并能及時給予排除。通常網絡故障產生的原因都比較復雜,特別是故障的產生是由多個網絡共同引起時。因此,要求網絡管理員必須具備較高的技術水平及業務素質,同時還應該積累了豐富的實踐經驗。故障排除后必須認真分析網絡故障產生的原因。分析故障原因是防止類似故障的再次發生的基本環節,相當重要。網絡故障管理包括故障檢測、隔離和糾正三個方面,主要包括以下內容。
1.網絡維護及錯誤日志檢查
(1)使用多種網絡故障監控方式監控網絡的整體運行情況。
(2)對于網絡中的重要機器、設備進行運行狀態的重點監視。
(3)檢查網絡設備的錯誤日志,分析錯誤原因。
2.網絡故障報告
(1)通過各種途徑報告網絡故障,報告方式包括使用顏色、聲音、日志、觸發機制等。
(2)網絡故障自動報警,具有自動通知的手段,包括尋呼機、手機、電子郵件等方法。
(3)根據網絡故障的危害程度將報警指示分級管理,系統根據故障級別做出不同反應。
3.接收錯誤檢測報告并做出響應
(1)分析設備故障情況,制定排錯方案。
(2)啟用備用線路或設備,進行故障隔離。
4.跟蹤、辨認故障
(1)進行故障追蹤定位。
(2)確認故障類型及性質。
5.執行診斷測試
使用各種故障診斷工具,分析故障性質。
6.錯誤糾正
根據故障分析結果,制定并實施解決方案。
7.故障分析預測
根據網絡系統故障的類型及發作頻度,分析故障產生的原因,預測將來網絡故障的發作趨勢。
8.歷史報警查詢統計
建立故障報警數據庫,通過對歷史故障警報資料的統計分析,尋找網絡故障發生的規律,建立故障預防體系。 對網絡故障的檢測,是依據對網絡組成部件狀態的檢測。不嚴重的簡單故障通常被記錄在錯誤日志中,并不作特別處理。而嚴重一些的故障則需要通知網絡管理員,即所謂的“故障報警”。一般情況下,網絡管理員應根據有關信息對報警進行處理、排除故障。當故障比較復雜時,網絡管理員應執行一些診斷測試來辨別故障原因。