隨著我國交換行業的發展,同時也推動了核心層交換機技術的更新完善,這里我們主要分析了核心層交換機的一些故障的分析和排查。多個分支機構的局域網 是通過租用當地運營商的10M光纖通道直接訪問本地總部企業網,所有本地分支機構的網絡匯聚到核心層交換,核心層交換機直接連到路由器。其他的核心層交換 機負責各個網絡業務的接入,這樣網絡結構比較簡單明了,實際運行的狀態也是比較穩定的。
前幾天,網絡突然出現大面積癱瘓故障,并導致企業業務無法正常運轉。根據網絡拓撲及出現的故障現象,可以迅速地定位到核心層交換機設備出現了問題。 到了現場的后,發現的主控板出現了告警,設備復位,告警并沒有消除,可以判斷為主控板損壞,更換新的主控板,設備運行正常,所有的二層透傳業務恢復,但是 所有IP業務沒有恢復。
故障排查分析
排查一、物理故障還是邏輯故障?
故障的根源是核心層交換機的主控板出現了問題,這樣網絡故障的性質為物理故障。難道新更換的主控板有問題?但是設備運行正常,又沒有告警信息。 如:show card ,show cpu等,從運行狀態上看,硬件沒有問題。難道更換設備后,數據丟失了嗎?察看相關的數據,發現并沒有丟失,但是IP業務還是不能夠恢復?可是部分透傳業 務又沒有問題。究竟那里出現了問題呢?
排查二、DNS服務出了問題?
經過檢查,筆者發現,雖然業務不能使用,但所有的路由信息都是正常的,PING所有的網元信息也都是正常的。難道是DNS服務出了問題?所謂 DNS,即域名服務器,它把域名轉換為計算機能夠識別的IP地址。如網站對應的IP是219.218.100.100。如果DNS服務器出錯,則無法進行 域名解釋,自然也就不能上網了。有時候則是路由器的問題,無法與ISP的DNS服務連接,這時可把路由器關閉一會再開或是重新設置路由器即可。還有可能是 網卡無法自動搜尋到DNS的服務器地址,可以嘗試用指定的DNS服務器地址。進入“控制面板→網絡和撥號連接”,雙擊“本地連接→屬性→TCP/IP協 議”,在彈出的對話框中選擇“使用下面的DNS服務器地址”,然后填寫相應的DNS服務器IP地址。經過核實后,DNS也沒有問題。
排查三、是中ARP病毒還是有流量攻擊?
故障發生前期,個別分支機構經常有人反映說上網時經常出現丟包現象,想到最近局域網中經常出現的ARP地址欺騙病毒,筆者就向所有相關的網絡技術人 員介紹了一下排查各自局域網,是否感染了ARP地址欺騙病毒,希望通過找到并解決感染ARP地址欺騙病毒的機器來解決IP業務不能恢復的問題,并沒有查出 結果。難道設備更換后,所有的路由表丟失了嗎?把前幾天的數據備份重新導入后,故障現象的依然存在。為了更快的恢復業務,咨詢了設備廠家的技術支持,把所 有的故障現象反饋給技術工程師,并查看了所有的告警及系統日志,并沒有發現可疑的問題。最后得到的結果是:該設備運行正常,沒有病毒的攻擊、流量異常等現 象。
故障解決
路是通的,說明該設備沒有問題。網元是通的,DNS又沒有問題,但是業務不能夠恢復。在檢查IP ARP信息時,發現所有的MAC地址與IP地址都在地址表。看見筆者使用的IP地址及MAC地址也在表中。但筆者的計算機并沒有開!難道核心層交換機與路 由器的端口出現了問題?嘗試著,把端口關閉后,再重新啟用。發現筆者使用IP地址后,沒有MAC地址。所有的IP業務全部恢復。
故障總結
雖然故障已經被解決了,但讓筆者感到疑惑不解的是:為什么重新啟動端口,業務就能夠正常。而出現的故障點不是在路由器上,而是在核心層交換機上。不 重新啟動端口,測試的現象的都是正常的。后來咨詢了相關的技術人員,故障發生前,數據的流量很大,故障發生時,很多的數據包不能正常轉發,端口就會出現假 死現象,傳輸的數據流量很小。關閉后,把多余的數據遺棄掉,重新啟動,傳輸正常的數據信息。
總結上面的故障排除過程發現,出現網絡故障應該從正常網絡中去檢測上段部分網絡運行情況,來判斷網絡上段網絡是否正常,然后,再檢查下段網絡,使用 PING命令測試,進行針對性排查。即使發生的故障點恢復,并不代表業務的恢復,思考問題不能局限于局部信息,應該從全局思考。并結合具體的網絡工作環 境,說不定發現故障就在疏忽那一瞬間,要認真觀察對網絡有影響因素,可以避免少走一些彎路。作為一名網絡管理員,除了日常網絡故障的處理外,還會不時碰到 自己知識范圍以外的東西,但只要引起足夠的重視,總會找到解決問題的辦法。