隨著社會發(fā)展,帶寬的增加和設備成本的降低以及虛擬化技術的普及,目前國內外的大型企業(yè)、政府機構的IT系統架構都發(fā)生了變化。
設備虛擬化:云計算可以把服務器和資源有效整合,將CPU、內存、磁盤等資源虛擬化,某個IP地址后面跟隨的只是一個虛擬機,而不像原來代表的是一臺真實的機器。通過虛擬化對資源進行整合,提高了設備的使用效率,但同時在不增加設備的情況下,操作系統也會越來越多,管理任務量和復雜度也會增加。
信息系統設計和部署更加抽象:由于通過云計算將負載均攤、壓力分散,系統設計人員不用過分關心業(yè)務部署具體位置、單臺設備負載是否過高,能否承受業(yè)務壓力這些問題,而是把注意力放在如何設計更能滿足用戶需求、可用性上。
信息系統的規(guī)模不斷增大:隨著信息技術的不斷發(fā)展和應用,信息系統在政府、企業(yè)使用的深度和廣度也在不斷增大,這也就造成信息系統的規(guī)模不斷擴大,系統的用戶規(guī)模可能達到十萬,百萬,系統部署的設備超過萬臺。
企業(yè)及政府專網數量、規(guī)模不斷增大:隨著信息化的不斷深入,企業(yè)即政府建設了很多大型集中信息系統,為了保證數據穩(wěn)定、可靠、安全的傳輸,國內一些部委、大型企業(yè)都在建立和擴大內部專網,范圍從省級擴展到全國。
監(jiān)控集中、管理分層:為了保證IT系統的正常運行,特別是在整個廣域網的正常運行,監(jiān)控是必不可少的,由于地方的技術力量有限,監(jiān)控中心一般放在總部,總部集中監(jiān)測性能、解決重大故障,地方一線工程師主要是處理一些簡單問題。
IT系統規(guī)模越來越大,系統架構越來越復雜、使用范圍越來大,對IT系統的可靠性就要求越高,硬件、軟件、網絡任何故障運維人員在第一時間就要掌握以便進行快速處理,降低系統癱瘓的可能性,好的監(jiān)控就成為運維的首要條件。
傳統監(jiān)測架構
國際上大規(guī)模網絡監(jiān)測的主要廠商有HP、IBM、CA、BMC。它們的產品都是非常成熟的,有幾十年歷史了。
最開始網絡規(guī)模不大的時候,都是一套網管系統安裝在一臺大型機上,監(jiān)控所有服務器、網絡設備、應用,目前所有小型網管軟件還是這套監(jiān)測架構。
隨著網絡規(guī)模的擴大,一臺計算機的計算容量有限,大型網管系統一般都采用二級架構,在每個地方IT中心部署一套監(jiān)控軟件,在總部部署一套管理端,地方中心的監(jiān)控軟件將配置信息和一些重要的報警信息同步到總部管理端。

這種架構有一些明顯缺點:首先是管理復雜,監(jiān)控軟件部署很多套,每個地方監(jiān)控中心都需要有監(jiān)控軟件維護工程師對監(jiān)控軟件進行維護,由于培訓、支持很難到位,人員變動等多種原因造成地方維護工程師對軟件不會有很深入的了解,產品使用困難,因此產品使用不理想的情況很多。
其次是容易產生單點故障,每個地方中心部署一套監(jiān)控軟件,當監(jiān)控軟件本身出現故障時,該地方的系統就沒有監(jiān)控了,故障也無從發(fā)現。特別是監(jiān)控軟件屬于基礎維護軟件,在日常運維工作中,如果沒有報警產生,網管人員也不會特別注意沒有故障報警的原因,到底是因為監(jiān)控軟件本身出現故障無法監(jiān)測呢,還是系統工作正常沒有報警,只有當故障發(fā)生后才發(fā)現原來網絡監(jiān)控軟件出現故障,已經無法完成監(jiān)測任務了。
再次是架構復雜,當下級監(jiān)測端的被監(jiān)測設備發(fā)生變化,被增加、刪除修改后,都需要將新的配置同步到上層管理端,同步過程比較復雜,也很難做到實時同步,造成上層管理端和下層監(jiān)測端數據不一致,容易導致錯誤。
最后是擴展性差,資源分配不均,隨著IT系統規(guī)模的擴大,當監(jiān)測端的監(jiān)測容量滿足不了需求的時候,需要重新安裝一套監(jiān)測端,包括數據庫、報警等多種應用,還需要同步到上層管理端,非常復雜。而且不同地方的IT資源數量不同,會造成某些地區(qū)監(jiān)控軟件壓力非常大,而另一個地方監(jiān)控軟件的資源閑置。
為解決大型企業(yè)和政府的IT業(yè)務監(jiān)控問題,將目前最新的云計算技術應用到網絡管理領域。國內頂級“云計算”網管廠商MXsoft(北京美信時代科技有限公司)設計了全球第一套CreCloud云監(jiān)控解決方案。

CCU中央控制器是控制中心,它負責調度監(jiān)控任務,根據監(jiān)測設備的數量和監(jiān)測內容將監(jiān)控任務分發(fā)給監(jiān)測服務器,并檢測監(jiān)測服務器的工作狀態(tài),一旦某臺監(jiān)測服務器出現故障立刻將監(jiān)測任務轉移到其他監(jiān)測服務器上。
監(jiān)測服務器主要任務是獲取設備監(jiān)測信息。隨著監(jiān)控規(guī)模的增加,它可以線性增加,自動注冊到CCU中央控制器,中央控制器就會分配監(jiān)測任務給它。
云網管架構的優(yōu)勢如下:首先是部署實施簡單,只要在總部部署一套系統即可完成整個廣域網的監(jiān)測,二級單位和三級單位無需部署監(jiān)控系統,他們只需登錄總系統,將被監(jiān)測設備和監(jiān)測指標的信息、報警條件設置好就可以。所有日常維護都有總部網管人員負責。
其次是負載均衡,監(jiān)測云中的服務器根據數量和計算能力動態(tài)承擔各自的監(jiān)測任務,當數量和計算能力發(fā)生變化時,通過自動調節(jié)機制去重新調整各自的監(jiān)測任務量,不會出現二級架構中的某臺監(jiān)測服務器忙,某臺監(jiān)測服務器閑的情況。
再次是可靠的雙機熱備功能。監(jiān)測服務器之前互相備份,如果監(jiān)測服務器云中有服務器宕機,這些服務器的監(jiān)測任務馬上就會被重新分配到其它正常運行的服務器上,保證了監(jiān)控的連續(xù)性。CCU中央控制器也可以組成高效的“主”—“備”模式,“主”服務器和“備”服務器之間通過“心跳線”技術實時關聯,一旦主控制服務器宕機,備份服務器馬上啟動執(zhí)行任務。
#p#副標題#e#
案例試驗
目前在某企業(yè)的大型信息系統項目中部署了一套美信的CreCloud云網管解決方案。該系統的一個顯著特點就是服務器數量大、分布廣,系統終端數量超過5萬臺,因此要求解決方案能夠實現大規(guī)模分布式監(jiān)控。
經過比選,選擇CreCloud云網管解決方案進行部署,系統由2臺CCU服務器,7臺監(jiān)測服務器,監(jiān)測全國幾萬臺的服務器。

系統部屬架構圖
總部管理人員維護監(jiān)測系統,配置總部關心的設備和應用系統的監(jiān)測,接收大范圍故障的告警。省級和地方運維人員只被分配本地服務器、網絡設備、應用的配置瀏覽和報警權限。

通過該云網管項目的實施該公司獲取到良好收益:首先是部署實施快,傳統大型網管項目需要到各地出差實施、培訓,工期3個月到半年,而該項目從部署的第二周就完成對各終端的鏈路監(jiān)控和報警,隨著監(jiān)測規(guī)模的逐漸增加線性擴容。
其次是通觀全局,了解細節(jié)。由于全國的各終端服務器、網絡、軟件運行信息都在一套系統中,既可以了解到該系統在全國的整體運行狀況,也可以了解到某個終端的某臺服務器具體運行狀況。
再次是擴展性好,該系統終端的規(guī)模還在增加過程中,而且其他相關系統的監(jiān)控將來也會增加到該系統中,在擴展的時候只需增加監(jiān)測服務器就可以,非常方便。
未來趨勢
隨著未來企業(yè)和政府規(guī)模越來越大,監(jiān)控的規(guī)模也越來越大,云網管也將越來越普及。 云網管未來將應用在各個重要領域,大型網游、門戶網站、證券交易、信息系統、企業(yè)網都是該監(jiān)控的潛在用戶。
網絡監(jiān)控的穩(wěn)定性和可靠性要求越來越高。云網管必須是一個完整的解決方案,而不是一個簡單軟件,能夠保證這個系統7*24小時不間斷運行,沒有單點故障。