故障管理是網(wǎng)絡(luò)管理中最基本的內(nèi)容之一。故障管理的目的在于確保網(wǎng)絡(luò)系統(tǒng)的高穩(wěn)定性。在網(wǎng)絡(luò)出現(xiàn)故障時,故障管理系統(tǒng)必須及時發(fā)現(xiàn)故障部位。故障管理的日常工作包含對所有節(jié)點動作狀態(tài)的監(jiān)控、故障記錄的追蹤與檢查,以及平常對網(wǎng)絡(luò)系統(tǒng)的測試。
故障管理功能以監(jiān)視網(wǎng)絡(luò)設(shè)備和網(wǎng)絡(luò)鏈路的工作狀況為基礎(chǔ),包括對網(wǎng)絡(luò)設(shè)備狀態(tài)和報警數(shù)據(jù)的采集、存儲,可以實現(xiàn)報警信息通知、故障定位、信息過濾、報警顯示、報警統(tǒng)計等功能。故障管理可以統(tǒng)一不同網(wǎng)絡(luò)設(shè)備的警報格式,并將其顯示在圖形界面上,通過對報警信息進(jìn)行相關(guān)性處理,確定報警發(fā)生地的管理歸屬等;除此之外,故障管理還可根據(jù)用戶需要保存所有報警信息,同時可產(chǎn)生各種故障統(tǒng)計、分析報告。
計算機(jī)網(wǎng)絡(luò)的可靠性是實現(xiàn)網(wǎng)絡(luò)系統(tǒng)功能的基礎(chǔ)。當(dāng)網(wǎng)絡(luò)中某個組成部分失效時,網(wǎng)絡(luò)管理員必須迅速查找到故障并能及時給予排除。通常網(wǎng)絡(luò)故障產(chǎn)生的原因都比較復(fù)雜,特別是故障的產(chǎn)生是由多個網(wǎng)絡(luò)共同引起時。因此,要求網(wǎng)絡(luò)管理員必須具備較高的技術(shù)水平及業(yè)務(wù)素質(zhì),同時還應(yīng)該積累了豐富的實踐經(jīng)驗。故障排除后必須認(rèn)真分析網(wǎng)絡(luò)故障產(chǎn)生的原因。分析故障原因是防止類似故障的再次發(fā)生的基本環(huán)節(jié),相當(dāng)重要。網(wǎng)絡(luò)故障管理包括故障檢測、隔離和糾正三個方面,主要包括以下內(nèi)容。
1.網(wǎng)絡(luò)維護(hù)及錯誤日志檢查
(1)使用多種網(wǎng)絡(luò)故障監(jiān)控方式監(jiān)控網(wǎng)絡(luò)的整體運行情況。
(2)對于網(wǎng)絡(luò)中的重要機(jī)器、設(shè)備進(jìn)行運行狀態(tài)的重點監(jiān)視。
(3)檢查網(wǎng)絡(luò)設(shè)備的錯誤日志,分析錯誤原因。
2.網(wǎng)絡(luò)故障報告
(1)通過各種途徑報告網(wǎng)絡(luò)故障,報告方式包括使用顏色、聲音、日志、觸發(fā)機(jī)制等。
(2)網(wǎng)絡(luò)故障自動報警,具有自動通知的手段,包括尋呼機(jī)、手機(jī)、電子郵件等方法。
(3)根據(jù)網(wǎng)絡(luò)故障的危害程度將報警指示分級管理,系統(tǒng)根據(jù)故障級別做出不同反應(yīng)。
3.接收錯誤檢測報告并做出響應(yīng)
(1)分析設(shè)備故障情況,制定排錯方案。
(2)啟用備用線路或設(shè)備,進(jìn)行故障隔離。
4.跟蹤、辨認(rèn)故障
(1)進(jìn)行故障追蹤定位。
(2)確認(rèn)故障類型及性質(zhì)。
5.執(zhí)行診斷測試
使用各種故障診斷工具,分析故障性質(zhì)。
6.錯誤糾正
根據(jù)故障分析結(jié)果,制定并實施解決方案。
7.故障分析預(yù)測
根據(jù)網(wǎng)絡(luò)系統(tǒng)故障的類型及發(fā)作頻度,分析故障產(chǎn)生的原因,預(yù)測將來網(wǎng)絡(luò)故障的發(fā)作趨勢。
8.歷史報警查詢統(tǒng)計
建立故障報警數(shù)據(jù)庫,通過對歷史故障警報資料的統(tǒng)計分析,尋找網(wǎng)絡(luò)故障發(fā)生的規(guī)律,建立故障預(yù)防體系。
對網(wǎng)絡(luò)故障的檢測,是依據(jù)對網(wǎng)絡(luò)組成部件狀態(tài)的檢測。不嚴(yán)重的簡單故障通常被記錄在錯誤日志中,并不作特別處理。而嚴(yán)重一些的故障則需要通知網(wǎng)絡(luò)管理員,即所謂的“故障報警”。一般情況下,網(wǎng)絡(luò)管理員應(yīng)根據(jù)有關(guān)信息對報警進(jìn)行處理、排除故障。當(dāng)故障比較復(fù)雜時,網(wǎng)絡(luò)管理員應(yīng)執(zhí)行一些診斷測試來辨別故障原因。