在管理和維護網絡的過程中,相信每一位網絡管理員都可能會碰到這樣或那樣的網絡故障,而引起網絡故障的原因也是各式各樣,要想迅速解決網絡故障,往往需要經過一段時間的仔細排查才可以;當然,也有一些網絡故障現象比較明顯,我們只要根據具體的現象就能大概判斷出引起故障的原因,并能迅速采取針對性措施來高效解決故障現象了。這不,本文所描述的網絡故障,由于現象比較明顯,網絡管理員經過簡單的分析,就迅速找到到故障原因了,由于該故障排除過程具有一定的典型性,故在此與各位朋友一起分享交流!
故障現象
筆者所在單位接上級單位通知,要求建立上下聯動的數據交換平臺,前一段時間,筆者單位在省中心技術人員的協助下,使用移動的2M寬帶光纖線路實現了與省數據交換平臺的互連。最近,按照工作計劃安排,下屬三家縣級單位也要通過移動的2M寬帶光纖線路與市中心平臺連接,而市中心平臺主要由R1、R2、R3、R4四個路由器以及對應的中繼設備組成,其中R1路由器是核心路由器,R2、R3、R4路由器分別是三家縣級單位的路由器,這幾個路由器設備統一使用S0端口與R1路由器的S0、S1、S2端口連接。依照組網規劃,網絡管理員將R1路由器S0端口的IP地址設置為了10.176.0.211/30,將S1端口的IP地址設置為了10.176.0.216/30,將S2端口的IP地址設置為了10.176.0.221/30,將R2路由器S0端口的IP地址設置為了10.176.0.212/30,將R3路由器S0端口的IP地址設置為了10.176.0.217/30,將R4路由器S0端口的的IP地址設置為了10.176.0.222/30。
在組網過程中,網絡管理員發現在前兩個縣級單位接到市中心的R1路由器上后,他們都能通過市中心交換平臺順利訪問到省中心的數據交換平臺,而且訪問速度也比較順暢,可是將第三個縣級單位接到市中心的R1路由器上后,發現沒有多長時間,整個市中心網絡全部癱瘓,原先能夠正常訪問的前兩個縣級單位也不能正常上網訪問了。
故障排查
剛開始的時候,網絡管理員還以為是市中心平臺到省中心平臺之間的這段線路出了問題,于是立即電話聯系當地移動公司,請求他們派技術人員前來測試線路,經過一段時間的檢測,移動公司人員確認線路不存在任何問題,而且他們還順便檢測了市中心到幾個縣級市的幾條寬帶線路,發現所有寬帶線路的連通性都是正常的,這說明市中心網絡平臺癱瘓故障與寬帶線路的連通性沒有任何關系。
在排除了寬帶線路因素后,網絡管理員又開始懷疑R1路由器的工作狀態不正常,畢竟能造成所有下屬單位不能同時上網故障的,只有這臺核心路由器設備了;依照以往經驗,網絡管理員認為類似交換機、路由器這樣的設備持續工作時間比較長的時候,很容易出現一些緩存溢出之類的錯誤,這些錯誤很容易造成交換機、路由器等設備的工作狀態不正常,從而可能引發網絡癱瘓的故障現象;對于緩存溢出之類的軟故障,我們往往只要重新啟動一下對應設備的后臺系統,就能讓其工作狀態恢復正常了。根據這樣的分析,網絡管理員立即趕到R1路由器的現場,仔細觀察控制面板的信號燈狀態,發現并沒有異常之處,不過為了排除核心路由器自身狀態因素,網絡管理員還是切斷了核心路由器設備的電源,過了一段時間,重新接通其電源,對該設備后臺系統進行了啟動, 待后臺系統啟動成功后,網絡管理員從本地嘗試訪問省中心的數據交換平臺時,發現故障現象已經消除;就在網絡管理員認為故障已經被排除時,下屬單位的工作人員打電話過來,說以前的故障現象又出現了,網絡管理員再次從本地訪問時,發現網絡連接的確又不正常了,看來核心路由器受到了大容量數據的攻擊了。
考慮到前兩個縣級單位與市中心平臺相連時,整個網絡平臺訪問省中心一切正常,這說明前兩個縣級單位與市中心平臺所使用的路由器設備工作狀態是正常的,而且參數配置也是正確的。既然第三家縣級單位連上市中心平臺后,整個市中心平臺無法訪問省中心數據交換平臺,那么問題可能出在第三家縣級單位上,于是網絡管理員立即聯系相關的技術人員,請他們認真檢查自己內網的組網情況,特別是要檢查內網的物理連接,看看是否存在網絡環路現象;很快,網絡管理員就得到了反饋信息,說他們經過仔細檢查,沒有看到第三家縣級單位內網中存在網絡環路現象,而且查看相關設備的配置參數時,也沒有看到不正確的地方,這么說來,難道第三家縣級單位內網不存在問題?可事實是,當第三家縣級單位內網連接到市中心平臺之后,市級網絡癱瘓故障才發生的,這就直接證明網絡故障肯定與第三家縣級單位內網的接入有關;聯想到核心路由器重新啟動成功后,剛開始的一段時間網絡連接是正常的,只是過一段時間后,網絡癱瘓故障才發生的,為此網絡管理員估計第三家縣級單位內網可能存在廣播風暴現象,這種現象很快就將核心路由器給“頂死”了,從而造成了核心路由器啟動穩定后過一段時間就死機的現象。
而造成廣播風暴現象最主要的因素,無非就是網絡病毒、網絡環路、網絡配置已經硬件損壞因素;為了排除這些因素,網絡管理員讓第三家縣級單位的工作人員,只連接一臺沒有病毒感染的計算機到對應的路由器上,看看網絡故障是否能夠自動消失,如果故障現象仍然存在,那就說明問題與網絡環路、硬件損壞以及網絡病毒沒有任何關系,的確在第三家縣級單位只有一臺計算機上網的情況下,市中心平臺仍然還無法與省中心平臺互連,這說明問題肯定是由縣級單位的路由器引起的。
解決故障
既然找到了故障位置,那么故障排除起來也就不是那么麻煩了;網絡管理員建議先將對應的路由器設備重新啟動一下,看看是不是該路由器存在軟性故障,可是重新啟動之后,網絡癱瘓故障仍然存在,這說明對應的路由器設備不存在軟性故障,那會不會是該路由器設備發生了硬件損壞呢?但是想到該路由器設備剛剛才工作沒有多長時間,而且該設備也是品牌產品,按理來說它不容易損壞才對,為此網絡管理員開始懷疑該設備的參數配置不正確。于是,網絡管理員請對方的技術人員,將他們使用的路由器配置參數告訴自己,結果經過仔細對比,網絡管理員發現對方的工作人員無意中將R2路由器S0端口的IP地址設置為了10.176.0.212/28,而實際上第三家縣級單位網絡的掩碼位數應該為30位,可現在卻被設置成了28位,會不會是掩碼位數設置不當造成了整個市級網絡平臺發生癱瘓現象呢?經過仔細分析,網絡管理員發現當第三家縣級單位網絡的掩碼位數設置為28位后,R1路由器S0端口的IP地址10.176.0.211/30,S1端口的IP地址10.176.0.216/30,S2端口的IP地址10.176.0.221/30,R2路由器S0端口的IP地址10.176.0.212/28,R3路由器S0端口的IP地址10.176.0.217/30,R4路由器S0端口的的IP地址10.176.0.222/30全部位于同一個工作子網中了,那樣一來下屬單位發送到核心路由器的數據包,在R1路由器中就不能找到合適的尋徑路由,那么數據包只能在核心路由器的幾個端口上進行循環傳輸,最終將核心路由器的系統資源全部消耗掉,造成了該設備發生癱瘓現象,最終引發整個市級平臺網絡無法訪問省中心平臺。為此,網絡管理員建議工作人員立即將R2路由器S0端口的IP地址修改過來,果然沒有多長時間,整個市中心平臺的網絡全部恢復正常了,這說明上述故障現象果然是由第三家縣級單位網絡的參數配置不當造成的。#p#副標題#e#
故障總結
從上面的故障排除過程來看,我們應該能夠根據故障現象,很清楚地知道問題肯定出在第三家縣級單位網絡上,畢竟該單位網絡沒有連接到市中心平臺時,市中心網絡訪問是正常的,而一旦連接了第三家縣級單位網絡后,故障現象才開始出現的。定位好故障位置后,網絡管理員根據核心路由器啟動剛完成的時候網絡訪問正常,而過一段時間網絡又不正常的現象,判斷得出問題很可能出在R2路由器身上,于是迅速采取針對性措施,解決了網絡癱瘓故障現象。
當然,這則故障也警示我們網絡管理員,在平時管理、維護網絡的過程中,一定要認真、仔細,對每一個細節因素都要加以重視,而且要在實踐操作過程中,要培養一種良好的操作習慣!