網絡升級幾乎是每個公司都必須做的事情,然而有時候網絡升級引發的一系列故障會讓網絡管理員們手忙腳亂。下面是一個網絡管理員所遇到的一個升級帶來的故障案例,希望帶給大家一些啟發。
1.故障癥狀
某機床鍛造企業在很早就組建了企業局域網,此后多年來鮮有更新改造,軟硬件嚴重滯后,網絡性能低下。為了改變這種狀況,新近該企業進行了一次比較大規模的網絡升級,由10M網全部提升為100M以太網,核心交換機為千兆以太網。為了節約成本,該企業沒有進行外包而是由自己的IT人員獨立實施此次改造工程。改造完工后,進行網絡測試時發現,網絡性能提升并不明顯,而且大部分的網絡成員訪問公司的服務器或者與其他不同子網的部門之間進行數據交互是感覺速度慢,有時數據出錯。但是子網段內拷貝數據速度基本不受影響,用Ping測試檢查所有工作站和服務器均正常。以上是客戶向我們反應的具體情況。
2.初步診斷
根據客戶反應的情況看問題并不嚴重,初步判斷應該布線方面出了問題,在我們的經驗范圍之內。因此這次并沒有親自出診,而是建議他們對網絡布線系統進行嚴格認證測試。由于該企業的信息中心除了電纜和光纜的認證測試儀外,沒有其它測試維護工具,無法對網絡進行評測。他們利用現有工具和技術手段進行了測試,給我們反饋的情況是,布線施工質量優良,全部電纜光纜鏈路按超五類標準測試參數均合格,沒有發現任何問題。此外,該公司的IT人員又進行了網絡系統及平臺的重新安裝,但仍無濟于事。
3.進一步了解
看來問題沒有想象的那么簡單,我們有詢問了客戶這次網絡升級中的一些技術細節。通過詢問得知,由于總公司希望全面提高ERP系統的覆蓋范圍,在這次網絡升級過程中新增的網絡設備比較多,網上成員也增加了二倍多,工作站從原來的220臺猛增至680臺;辦公區和生產區之間、生產區和生產區之間均用光纜和路由器連接起來。另外,該企業的網絡各子網段基本上采用核心交換機和工作組交換機作網絡骨架,用桌面交換機和集線器混用的方式構成基層用戶接入平臺。核心交換機之間為千兆以太網連接,用戶全部為100M到桌面。為了便于維護和管理,同時也從安全角度考慮,設計方案中將大多數數據服務器均安裝在了網管中心。
該企業的IT人員抱怨,這樣的網絡結構使得網絡管理更加復雜,網絡管理面臨重重難題,查找故障不象從前那樣容易了。沒錯,通過這次網絡升級,一來網絡規模比以前大多了,故障數量和種類增多;二來網絡結構變得比以前復雜多了,故障的定位分析和隔離變得比較困難。
4.親自出診
因為網絡為新擴容的網絡,而且故障是在網絡升級之后出現的,所以先看看該企業的網絡拓撲,是否有設計不合理的地方,但從拓撲圖上看不出網絡結構設計有何不合理之處。
由于在各子網段內拷貝數據時速度基本不受影響,而多在跨網段時受阻,所以我們把分析的重點放在跨網數據的分析上。將網絡測試儀接入辦公區網絡的網管中心,打開網段內的全部4個路由器的端口觀察。通過檢測發現網段間的流量為27%~42%之間,由于網絡沒有多媒體應用啟用,因此如此高的流量記錄是不正常的。
下面我們需要觀察這些流量的走向,于是在辦公區將網絡測試儀串入路由器與交換機之間(100M端口)監測。啟動IP矩陣監測和以太網MAC矩陣監測功能,觀察數據流向。觀測的結果是,大部分的數據流向均指向辦公區的WINS服務器,而WINS響應流量極少。查看拓撲圖,該WINS服務器直接與一臺工作組交換機相連,打開工作組交換機的端口記錄檢查,流量記錄為13%并伴隨少許碰撞指示記錄。
為了不影響用戶的使用,下班后我們從測試儀所在端口向WINS服務器所在交換機端口P32的鄰近端口P31發送高額流量。我們選值為90Mbps的流量沖擊,并在此鄰近端口P31觀察接收到的流量記錄,記錄顯示為89.7Mbps,這說明端口P31的通道測試是合格的。然后對準WINS服務器所在端口P32發送90Mpbs的高額流量,觀察P32端口流量沖擊記錄,結果顯示為13.5%,并出現大量延遲幀,表明該端口通道測試不合格。將流量發送方向指向與該端口連接的上游端口P17,觀察P17流量顯示為90Mbps。問題很清楚,被丟棄和延遲的流量就在P32口。
然后,我們對WINS本身作WINS查詢,10次測試響應只有2次,響應地址正確,響應率20%。重新測試WINS鏈路電纜,合格。測試WINS服務器網卡,合格;測試交換機的端口P32,低效。再此臨時將WINS服務器端口P32改接到端口P33,重新啟動系統,5分鐘后進行上述測試,全部合格。為了驗證P32口低效,用網絡測試儀接入該端口并向P17發送90M流量,收到流量為12%,應該是這臺工作組交換機有故障。由于這臺工作組交換機這次網絡升級中購置的新品,尚在包換期內。更換該交換機后,第二天進行測試,在公司員工上班后的網絡使用高峰期開頭所述的網絡故障消失,同時網絡速度比以前有了驚人的提高。
5.故障總結
故障解決了,我們找到了罪魁禍首——一臺工作組交換機。其實,交換機只是“替罪羊”真正的元兇應該是不夠科學、合理的網絡結構。不然一臺小小的工作組交換機為什么能夠引起如此大面積的網絡故障呢?
為了使得大家對此有更進一步的認識,我們重新梳理一下該公司的網絡結構以及這次網絡故障。在該企業重新升級的網絡中,大多數數據服務器設置在辦公區的網管中心,而且公司整個系統的工作依賴集中式系統中的這些專用數據服務器。另外,鏈路連接和數據交換時需要WINS服務器提供服務。而與WINS服務器連接的鏈路中,如果交換機一側的端口P32發射能力低效,使得發送的信號幅度不符合要求,再加上鏈路長度不長,所以并不是對所有的數據包WINS服務器都無響應。這使得有些數據被作為部分錯誤和碰撞數據由端口記錄,大部分從交換機各端口送往P32端口的數據因鏈路接口問題被延遲和丟棄,而造成記錄數據中有用流量正常,而網絡用戶速度普遍偏慢的假象。這難道不是由于網絡拓撲的不合理造成的嗎?
6.維護建議
首先,建議企業在進行網絡改造的時候,一定要根據企業的需求和實際應用合理規劃網絡拓撲。這其中,應該盡可能地尋求專家的幫助,構建科學、合理、高效的網絡結構。這樣的網絡不僅利與維護、管理,而且在故障發生時能夠快速定位,也不至于一個小問題引發大故障。
此外,我們知道,交換機、網卡、集線器和路由器等網絡設備的端口一般從工作2~3年開始出現低效現象,5年后比例為3%~18%(這取決于不同的廠商產品質量,也取決于同一廠商的不同系列產品的產品質量)。另外,由于系統中有大量的端口,所以在網絡維護周期建議中要求每半年對端口性能進行定期測試。每一~二年對布線系統進行一次輪測,尤其對重要的網絡設備如服務器、交換機、路由器等應該堅持定期測試,這樣做對提高網絡的可靠性有莫大的幫助。所以,在網絡改造完成后對于所有的網絡設備進行一次普查,將相關的情況比如設備性能、使用年限、端口登錄進行備案,列入頂起維護計劃中。
7.總結
其實,我寫這這篇文章并不僅僅是告訴大家如果排除類似上述的網絡故障,而是希望大家能夠通過這個案例有所思考,想想網絡故障的背后,比如如何進行科學的網絡改造等等。