進入新的世紀之后,高等學校對于校園網絡系統的依賴程度日益加強,隨之出現了網絡規模不斷擴張的現象。校園網絡中心的地位隨著系統規模的擴大,成為了廣大教職員工、管理人員的關注焦點。隨著而來的一個現象是,越來越多的網絡故障處理使得網管人員整日疲于奔命,越來越頻繁的網絡攻擊行為使得購置了昂貴網絡防護設備的校園網不堪一擊。如何提高網絡管理效率,如何快速恢復因攻擊而癱瘓的系統,成為高校網管人員急切解決的技術難題。如何盡量減少停機率,如何變被動式的網絡管理為系統主動承擔起可能的網絡管理責任,體現了運維管理技術的軟件系統的興起正在為網管人員提供理想的解決問題的策略。本文結合幾所高校實施北塔運維管理的經驗,談一談高校運維管理的實施策略。
1.應該尊重運維管理的規律
運維管理是IT管理的重要組成部分,從確保系統運行的角度來說,運維管理幾乎是整個IT管理的全部。調查幾所高校的網絡主管之后,筆者得出了一個重要的結論,尊重運維管理的內在規律是調高運維效果的根本保障。
IT運維管理的核心和重點部分分成兩大部分,即IT業務系統和運維人員。具體包括七個子系統:設備管理、數據管理、內容管理、資源資產管理、信息安全管理和日常工作管理等。其中設備管理負責對校園網絡的網絡設備、服務器設備、操作系統運行狀況等方面進行監控,并對各種應用支撐軟件,如數據庫、中間件、群件以及各種通用或特定服務的監控管理,如郵件系統、DNS、Web等的監控與管理;數據/存儲/容災管理則負責對系統數據和業務數據進行統一的存儲、備份和恢復;業務管理則負責對學校核心業務系統運行情況的監控與管理;目錄/內容管理主要負責學校需要統一發布的公共信息的管理;資源資產管理負責管理學校IT系統的資源資產情況,并與學校財務部門進行數據交互,這一項目在參與調研的多數學校沒有實施;信息安全管理包含校園網絡系統的安全組織方式、通信與運營安全、訪問控制等方面的管理;日常工作管理則用于規范和明確運維人員的崗位職責和工作安排、提供績效考核量化依據,進而完善IT運維管理,提高網絡信息部門的服務水平。
要尊重運維管理的規律,就是要求網絡管理人員做到變被動管理為主動管理,最大限度發揮運維管理系統的作用,盡量做到少停機或在不停機的狀態下完成網絡運維工作。即使必須停機的情況下,也要做到在停機之前檢查所有環節是否正常,并在可能的前提下對系統進行備份。狀況排除之后,在首次啟動機器之前,要先落實設備不能正常啟動時,可以保證能得到供應商的服務支持,多數情況下這類服務需要付出足夠的服務費用。參與調查的一些學校,有2/3的學校因為拒絕付出服務費用而在系統出現故障的時候,供應商拒絕提供免費的及時服務響應,這是需要引起各高校重視的。
尊重運行維護的基本規律是非常重要的維護理念,尤其是與網絡中心有直接責任的一些部門的主管,面臨運維管理和行政管理沖突時,要說服自己理解網絡運維的規律,為網絡系統的安全,有時行政管理要有所讓步。
2.重視BSM
從單臺設備的管理過渡到目前以整體系統運維,IT運維管理經歷了漫長的發展歷程。然而隨著高校網絡規模和信息化水平的不斷提升,單純的設備管理或者人工管理模式顯然不能滿足高校對網絡整體性能和穩定性的要求,專家們由此提出了業務服務管理是IT運維管理的終極目標的全新理念,也就是今天我們常說的BSM。
高等學校的運維管理中,涉及到的業務服務項目包括教務管理、行政管理、信息查詢管理等諸多方面。為了更好地運營維護好IT系統,網絡中心需要進行全新的管理變革,啟動IT運維管理系統,可以自動管理全校的IT資源,并可直觀顯示設備及網絡鏈路的負載或通斷狀態;需要將終端設備的IP和MAC地址進行綁定,便于管理人員迅速定位地址盜用、沖突以及非法設備上網的問題;還需要直觀的數據流量分析,以便查找異常數據流量,為正常的教學工作提供穩定的支持;同時提供網絡預警功能,對設備狀態、應用服務端口狀態、數據包傳輸情況進行預警設置,并能以聲音或者短信的方式告知網絡系統管理員。運維平臺系統可以進行流程化的管理,管理員應該以郵件的形式將故障處理結果告知需要服務的用戶。
在設備選型方面應該選擇思科等品牌的網絡設備,服務器等關鍵部件也應選擇國內外知名的品牌,如IBM、HP、DELL、浪潮、聯想等等。運維系統軟件也要選擇北塔等知名品牌的產品。設備選型確定后,系統安裝應該進行有關網絡性能的測試,以保證運維系統對常規的網絡運營效率不產生明顯的影響。最后一個環節是做好用戶的培訓,使用戶理解運維系統的工作程序,使運維系統最大程度地發揮其效能。比如在用戶網絡系統發生故障時,網管軟件第一時間發出告警,通過性能分析能夠發現當前設備的異常,進而關聯設備的物理拓撲圖,并在物理拓撲圖上確定其告警的重要等級,如果緊急故障則需要迅速排除,以保障用戶網絡系統的正常,通過在設備的面板圖上進行直接的操作可以極大的節省處理故障時間,有效提高用戶的日常工作效率。
3.北塔運維系統應用分析
以圖1中的網絡拓撲結構為例我們分析應用了北塔運維系統的一些常見問題。選擇適合的IT運維產品是問題解決的前提,應該根據學校的IT規模決定選擇適合的IT基礎設施管理產品。選擇的重點應該是底層監控,因為只有做好了底層監控,對數據進行歸并分析,才能為更高層的流程化管理以及學校日常業務管理提供數據支持。一些大而全的產品實施起來對管理人員的技術以及管理水平都有較高的要求,而這些對于那些網絡信息部門只有10人以下的學校來說,選擇國產IT運維品牌,如北塔軟件這樣的國內廠商,才是恰當的選擇。
除此之外,還要由長遠的發展目標。很多學校認為,購置了IT運維軟件,以后就無需過度關注IT運維問題了,事實上IT系統和業務應用是動態發展變化的,架構的調整,規模的擴大等等都對運維管理軟件和管理人員提出更高的要求,對IT運維軟件的更新升級,或者實施新的IT運維管理平臺都是學校信息化領導需要不斷去考慮的問題。隨著技術的發展,網絡運維管理已經上升到一個全面、綜合的發展階段,其管理的范疇已經不僅僅局限于對于網絡、設備的管理,用戶所需要的網管就是全面、綜合性的網管,即從設備到線路,從機房環境到應用服務,再到整體的網絡性能,這是新一代網絡運維管理軟件的特征,也是運維管理人員必須理解的網絡運維管理的真諦。
經過多家采用北塔運維產品的高校認為,北塔BTNM網絡管理系統可以全面解決高校的網絡信息系統運維管理問題,具體體現在:(1)層次化部署,統一式管理。通過分層管理,信息中心通過使用BTNM產品,在網絡管理中心可以直接調閱所有下屬部門的網絡實時物理拓撲結構,包括設備負載情況、端口狀態,故障日志等等。各層次相對獨立,上級部門可以對下級部門進行管理,保證了網絡管理的統一性和完整性。(2)準確定位、報警及時。BTNM提供故障預警管理,通過設置“閾值”,可以監測設備運行是否超負載、線路流量是否正常、端口是否異常錯包等現象,并可以準確定位故障位置。(3)分級管理。BTNM為學校網管提供多用戶多角色管理,包括系統用戶管理、角色管理、角色權限分配、操作審記和日志管理等功能,不同的管理人員賦予了不同級別的權限,為主管領導查看網絡整體運行情況以及進一步采取網絡架構優化調整提供了數據參考。(4)協同運維管理。通過北塔業務流程管理系統,建立網絡運維知識庫,保障了網絡正常運行,通過系統定義全網管理人員在網絡運維中的不同職能,為實現協同運維管理提供了規范的流程。
4.結束語
運維管理是提高高校網絡性能的必備保障,已經成為諸多高校舍得花費成本建設的網絡信息系統的重要組成部分。通過筆者的調研,經過實踐的用戶普遍認為,運維管理系統的實施可以有效解決網絡管理中存在的各類問題,降低了網絡運維成本,為用戶提供了性價比優良、符合管理要求的運維工具。網絡管理員該系統可以及時發現故障位置,及時排除故障原因,確保為廣大教師和行政管理人員提供安全、穩定的網絡環境。