隨著信息檢索、數據交換、多媒體信息傳輸等各種各樣日益增長的網絡應用,網絡管理越發顯得重要。如何提高網絡的效率、安全性和穩定性,如何應對各類突發的網絡通信事件,如何及時有效處理網絡故障,如何有效地制定好網絡發展規劃?……諸多問題已成為困擾網絡管理的一大難題。
網絡規模越大,網絡結構越復雜,網絡故障的預測、分析和處理越是必不可缺的。有效的網絡故障管理已成為企業級網絡運維中一項關鍵性的工作。下面結合本人在網絡故障管理工作中的經驗,進行一些探討和分析。
故障管理基本內容和檢測模式
國際標準化組織(ISO)關于網絡管理的模式主要闡述了網絡管理的主要功能,包括: 故障管理、性能管理、配置管理、記賬管理、安全管理,以下主要就故障管理進行分析。
故障管理的目的是用來監測網絡故障,作預先設定的反映,并載入日志文件提醒用戶注意,自動修正網絡問題,使網絡正常運行。因為故障會使網絡癱瘓,或是使整個網絡性能降低,故障管理是ISO網絡管理原理最廣泛的應用。
故障管理的內容包括:診斷網絡問題、隔離網絡問題、修復網絡問題、試圖恢復重要的子系統和整體解決網絡問題。
在著手解決問題的時候,必須有一套方法來分析和鑒別網絡故障發生的類型和位置,逐步排查可能的故障點(區)和故障原因,具體分析時可以采用通過模擬方法來確定真正的故障原因。每一個故障可以基于相應的癥狀來解決或是采用專用的故障監測工具來監測。可以在具體環境中進行監測和診斷。一旦明確故障的癥狀和原因,就可以采用一系列相應的措施來補救。具體問題的解決是根據特殊網絡環境而制定的網絡故障解決計劃,而不是簡單的生搬硬套。要順利完成故障檢測,必須對網絡拓撲情況有深刻了解,并熟悉網絡中采用的設備的特性,以及網絡中主要節點主機操作系統中的網絡配置等。
網絡故障的兩種基本檢查方法
網絡故障的兩種基本檢查方法包括分層檢查和分段檢查。采用這樣的檢查辦法可以節約檢查時間,快速確定故障位置,有利于對故障的分析和判斷。
1、分層檢查的原則
OSI7層參考模型包括7個層次,如圖1所示。每個層次完成一部分的功能,相鄰層次之間相互獨立,兩臺計算機系統同等層次之間的操作相對透明。

圖1 OSI網絡結構的7層模型
分層檢查包括應用程序層(應用層、表示層、會話層)和數據傳輸層(傳輸層、網絡層、數據鏈路層、物理層)的檢查。

圖2 分層檢測步驟
具體的分析按“物理層->數據鏈路層->網絡層->傳輸層->……->上層應用”的次序分析問題。分層檢查的步驟如圖2所示。
2、 采用分段檢查的原則。
分段檢查包括用戶端、接入設備、主干交換設備、中繼設備等之間的鏈路連通及相應端口的狀態。
鏈路連通包括:物理線路的介質類型,物理線路的連通,物理線路的質量(線路的距離、衰耗、終端設備的電氣特性等),物理線路的最大數據承載能力,收發線路的對應等。
相應端口的狀態包括:兩端設備對應的端口類型的統一、速率的匹配、雙工設置、收/發時鐘的時鐘源,數據收/發的線路接通,數據流控制和擁塞控制等。
分析具體就是:按“數據終端設備->網絡接入設備->網絡主干設備->網絡中繼設備->網絡主干設備->網絡接入設備->數據終端設備”的次序分析問題。
分段檢查的步驟如圖3所示。

圖3 分段檢測步驟
解決網絡故障的一般步驟
對網絡故障有了初步的檢查和判斷后,就要著手網控故障的處理,網絡故障的處理一般遵循以下步驟(如圖4所示)。
1、明確故障特征和導致故障原因
例如,問題的癥狀是某個用戶無法得到某個主機相應服務的應答,造成這種故障的原因有:主/客戶機設置錯誤,網卡故障,錯誤的路由配置等。
2、收集實際情況

圖4 網絡故障解決步驟
列出故障癥狀,并且確定出可能的原因后,就要著手收集實際情況。情況的收集一般包括網絡分析跟蹤、串口的跟蹤、堆棧錯誤紀錄和操作系統核心錯誤紀錄。這些問題的分析有助于故障范圍的縮小和故障的明確定位。
3、基于故障的情況,分析故障原因
在了解網絡拓撲和熟悉采用設備的特性的基礎上,應該能夠判斷是軟件問題還是硬件故障。這樣,就能夠縮小分析范圍,搞清楚是產品的問題、傳輸介質的問題還是主機問題,也就可以建立相關的網絡錯誤模型。
4、制定實施的方案
基于故障分析結果制定實施方案。只能一個故障一個實施方案。這樣有助于有步驟地解決問題。如果一次修改超過一個可能性的話,也能解決問題,但可能無法精確分析問題的原因,以后的故障排除將更加困難。
5、執行這個方案
這個步驟主要是執行已經制定的計劃。制定計劃的合理性決定了實施計劃的結果。必須嚴格地執行已制定的計劃,不能改變其中的步驟和順序。
6、觀察計劃執行的結果
當測試一種可能性來發現解決問題的方法時,必須根據活動計劃來收集結果。這些測試的結果還用來調整和修改計劃,直到問題被解決。
7、基于測試的結果來縮小故障原因
必須堅持不懈地測試,分析測試的結果,以及引起這種結果的原因。盡量縮小問題的范圍。當明確問題并找到解決方案后,就可以停止測試。
8、重復問題解決過程
當縮小問題的可能性時,重復以上的流程(如圖4),并且根據測試的結果修正的計劃來進一步縮小可能性,不斷重復上面的流程,最終一定會確認故障和解決問題。
四、總結
網絡管理和故障分析技術牽涉面廣,技術分析復雜,而且在當今“網絡就是計算機”的時代更加顯示出它的重要性,為有效地保障企業網持續、穩定、高效地正常運行,只有通過不斷的加強學習和實踐才能勝任這項工作。