故障管理是網(wǎng)絡(luò)管理中最基本的內(nèi)容之一。故障管理的目的在于確保網(wǎng)絡(luò)系統(tǒng)的高穩(wěn)定性。在網(wǎng)絡(luò)出現(xiàn)故障時(shí),故障管理系統(tǒng)必須及時(shí)發(fā)現(xiàn)故障部位。故障管理的日常工作包含對(duì)所有節(jié)點(diǎn)動(dòng)作狀態(tài)的監(jiān)控、故障記錄的追蹤與檢查,以及平常對(duì)網(wǎng)絡(luò)系統(tǒng)的測(cè)試。
故障管理功能以監(jiān)視網(wǎng)絡(luò)設(shè)備和網(wǎng)絡(luò)鏈路的工作狀況為基礎(chǔ),包括對(duì)網(wǎng)絡(luò)設(shè)備狀態(tài)和報(bào)警數(shù)據(jù)的采集、存儲(chǔ),可以實(shí)現(xiàn)報(bào)警信息通知、故障定位、信息過(guò)濾、報(bào)警顯示、報(bào)警統(tǒng)計(jì)等功能。故障管理可以統(tǒng)一不同網(wǎng)絡(luò)設(shè)備的警報(bào)格式,并將其顯示在圖形界面上,通過(guò)對(duì)報(bào)警信息進(jìn)行相關(guān)性處理,確定報(bào)警發(fā)生地的管理歸屬等;除此之外,故障管理還可根據(jù)用戶需要保存所有報(bào)警信息,同時(shí)可產(chǎn)生各種故障統(tǒng)計(jì)、分析報(bào)告。
計(jì)算機(jī)網(wǎng)絡(luò)的可靠性是實(shí)現(xiàn)網(wǎng)絡(luò)系統(tǒng)功能的基礎(chǔ)。當(dāng)網(wǎng)絡(luò)中某個(gè)組成部分失效時(shí),網(wǎng)絡(luò)管理員必須迅速查找到故障并能及時(shí)給予排除。通常網(wǎng)絡(luò)故障產(chǎn)生的原因都比較復(fù)雜,特別是故障的產(chǎn)生是由多個(gè)網(wǎng)絡(luò)共同引起時(shí)。因此,要求網(wǎng)絡(luò)管理員必須具備較高的技術(shù)水平及業(yè)務(wù)素質(zhì),同時(shí)還應(yīng)該積累了豐富的實(shí)踐經(jīng)驗(yàn)。故障排除后必須認(rèn)真分析網(wǎng)絡(luò)故障產(chǎn)生的原因。分析故障原因是防止類似故障的再次發(fā)生的基本環(huán)節(jié),相當(dāng)重要。網(wǎng)絡(luò)故障管理包括故障檢測(cè)、隔離和糾正三個(gè)方面,主要包括以下內(nèi)容。
1.網(wǎng)絡(luò)維護(hù)及錯(cuò)誤日志檢查
(1)使用多種網(wǎng)絡(luò)故障監(jiān)控方式監(jiān)控網(wǎng)絡(luò)的整體運(yùn)行情況。
(2)對(duì)于網(wǎng)絡(luò)中的重要機(jī)器、設(shè)備進(jìn)行運(yùn)行狀態(tài)的重點(diǎn)監(jiān)視。
(3)檢查網(wǎng)絡(luò)設(shè)備的錯(cuò)誤日志,分析錯(cuò)誤原因。
2.網(wǎng)絡(luò)故障報(bào)告
(1)通過(guò)各種途徑報(bào)告網(wǎng)絡(luò)故障,報(bào)告方式包括使用顏色、聲音、日志、觸發(fā)機(jī)制等。
(2)網(wǎng)絡(luò)故障自動(dòng)報(bào)警,具有自動(dòng)通知的手段,包括尋呼機(jī)、手機(jī)、電子郵件等方法。
(3)根據(jù)網(wǎng)絡(luò)故障的危害程度將報(bào)警指示分級(jí)管理,系統(tǒng)根據(jù)故障級(jí)別做出不同反應(yīng)。
3.接收錯(cuò)誤檢測(cè)報(bào)告并做出響應(yīng)
(1)分析設(shè)備故障情況,制定排錯(cuò)方案。
(2)啟用備用線路或設(shè)備,進(jìn)行故障隔離。
4.跟蹤、辨認(rèn)故障
(1)進(jìn)行故障追蹤定位。
(2)確認(rèn)故障類型及性質(zhì)。
5.執(zhí)行診斷測(cè)試
使用各種故障診斷工具,分析故障性質(zhì)。
6.錯(cuò)誤糾正
根據(jù)故障分析結(jié)果,制定并實(shí)施解決方案。
7.故障分析預(yù)測(cè)
根據(jù)網(wǎng)絡(luò)系統(tǒng)故障的類型及發(fā)作頻度,分析故障產(chǎn)生的原因,預(yù)測(cè)將來(lái)網(wǎng)絡(luò)故障的發(fā)作趨勢(shì)。
8.歷史報(bào)警查詢統(tǒng)計(jì)
建立故障報(bào)警數(shù)據(jù)庫(kù),通過(guò)對(duì)歷史故障警報(bào)資料的統(tǒng)計(jì)分析,尋找網(wǎng)絡(luò)故障發(fā)生的規(guī)律,建立故障預(yù)防體系。
對(duì)網(wǎng)絡(luò)故障的檢測(cè),是依據(jù)對(duì)網(wǎng)絡(luò)組成部件狀態(tài)的檢測(cè)。不嚴(yán)重的簡(jiǎn)單故障通常被記錄在錯(cuò)誤日志中,并不作特別處理。而嚴(yán)重一些的故障則需要通知網(wǎng)絡(luò)管理員,即所謂的“故障報(bào)警”。一般情況下,網(wǎng)絡(luò)管理員應(yīng)根據(jù)有關(guān)信息對(duì)報(bào)警進(jìn)行處理、排除故障。當(dāng)故障比較復(fù)雜時(shí),網(wǎng)絡(luò)管理員應(yīng)執(zhí)行一些診斷測(cè)試來(lái)辨別故障原因。