對(duì)最終用戶而言,網(wǎng)絡(luò)的概念似乎并不復(fù)雜,他們關(guān)心的僅僅是Web服務(wù)器是否能訪問(wèn),打印機(jī)是否正常工作等。在大多數(shù)情況下,對(duì)網(wǎng)絡(luò)管理員也是如此:如果網(wǎng)絡(luò)運(yùn)行良好,網(wǎng)絡(luò)管理員就不必去接觸它;如果發(fā)生了故障,就要去恢復(fù)。但如果經(jīng)常發(fā)生故障,就要考慮建立一套冗余或容錯(cuò)的系統(tǒng)去消除,至少是減少發(fā)生故障的機(jī)會(huì)。
我們希望在集線器、交換機(jī)、路由器、服務(wù)器及其他系統(tǒng)設(shè)備上開(kāi)發(fā)出新的功能,使它們能在遇到局部故障時(shí),仍然能夠發(fā)送SNMP信息,或?qū)γ嫦蚴褂矛F(xiàn)狀的查詢做出響應(yīng)。這樣有利于網(wǎng)絡(luò)管理員進(jìn)行預(yù)防性的維護(hù)。事實(shí)上,服務(wù)器制造廠商在某些方面已經(jīng)提供了這種服務(wù),它們針對(duì)緊急磁盤故障向網(wǎng)絡(luò)管理員發(fā)出警告。我們希望對(duì)可能出現(xiàn)的小故障或操作狀態(tài)中的變化向網(wǎng)絡(luò)管理員發(fā)出警告,例如,交換機(jī)風(fēng)扇速度緩慢,路由器內(nèi)部溫度升高,或者服務(wù)器網(wǎng)卡正在發(fā)送錯(cuò)誤的信息包等。當(dāng)然這些都不會(huì)引起重大故障,主要是因?yàn)楝F(xiàn)在的網(wǎng)絡(luò)協(xié)議和網(wǎng)絡(luò)設(shè)備在設(shè)計(jì)時(shí)都考慮了容錯(cuò)和靈活性。但如果許多這樣的小問(wèn)題長(zhǎng)時(shí)間積累起來(lái),也許就是網(wǎng)絡(luò)中某個(gè)部件將要發(fā)生故障的前兆。同樣,當(dāng)把某個(gè)設(shè)備當(dāng)前使用狀態(tài)及其他參數(shù)與歷史數(shù)據(jù)相比較后,一些異常變化就說(shuō)明實(shí)際的故障可能就在眼前。
很多系統(tǒng)可以幫助網(wǎng)絡(luò)管理員分析SNMP數(shù)據(jù),它們不僅可以提供網(wǎng)絡(luò)實(shí)際狀態(tài)的詳細(xì)情況,還可以幫助預(yù)測(cè)網(wǎng)絡(luò)部件的故障。Entuity公司的暴風(fēng)之眼(Eye of the Storm,簡(jiǎn)稱EotS)和Concord公司的電子健康組件(eHealth Suite)便是其中的代表。EotS主要是保證網(wǎng)絡(luò)在物理上的暢通,通過(guò)實(shí)時(shí)監(jiān)視每個(gè)管理端口的SNMP事件,幫助網(wǎng)絡(luò)管理員分析,識(shí)別處于故障邊緣的部件。而eHealth Suite則著重于使用和運(yùn)行狀態(tài),它建立了一個(gè)包括網(wǎng)絡(luò)中每一個(gè)基礎(chǔ)設(shè)備元素使用狀況的基線數(shù)據(jù)庫(kù),然后觀察異常情況。如果發(fā)生變化,它就可以與數(shù)據(jù)庫(kù)中的歷史數(shù)據(jù)通過(guò)特定的規(guī)則去匹配,一旦這種變化超越了預(yù)定界限,就發(fā)出報(bào)警。
EotS實(shí)現(xiàn)實(shí)時(shí)監(jiān)視
EotS是基于Windows NT或Solaris的應(yīng)用程序。定位在超過(guò)1萬(wàn)個(gè)管理端口的大型網(wǎng)絡(luò)上,主要目的是幫助局域網(wǎng)管理員預(yù)先發(fā)現(xiàn)問(wèn)題。其核心是服務(wù)器端應(yīng)用程序,它能發(fā)現(xiàn)網(wǎng)絡(luò)設(shè)備、監(jiān)視調(diào)查SNMP消息、管理并維護(hù)數(shù)據(jù)庫(kù)中的事件。在客戶端,EotS提供了一個(gè)部件觀察器,上面有包括網(wǎng)絡(luò)上所有管理端口的選單、公告板和報(bào)告中心。
EotS作為預(yù)警工具有兩個(gè)原因:首先,不論是現(xiàn)在還是原來(lái)的設(shè)備故障,利用公告板都能實(shí)時(shí)收集并分析,而報(bào)告中心還可以做更深層次的分析,由于MySQL數(shù)據(jù)庫(kù)容量大,而且始終是開(kāi)放的,所以在時(shí)間上相隔很遠(yuǎn)的事件都能得到并可以分析;其次,公告板報(bào)警系統(tǒng)緊密地集成到離散部件的觀察器及其數(shù)據(jù)庫(kù)中,當(dāng)某個(gè)設(shè)備開(kāi)始脫離SNMP事件的影響時(shí),部件觀察器就檢測(cè)那個(gè)設(shè)備及其端口以確定其他哪個(gè)端口是與它相關(guān)的。
因?yàn)镋otS映射VLAN,可以對(duì)VLAN進(jìn)行重新配置,使用戶離開(kāi)受影響的端口,這樣提供給管理員改組用戶的機(jī)會(huì)。EotS有一個(gè)十分方便的特性,就是部件觀察器能建立與JAVA接口設(shè)備的遠(yuǎn)程TELNET連接?;蛘哒f(shuō),管理員可以從物理上改變用戶連接,使有故障的設(shè)備或端口從系統(tǒng)中獨(dú)立出來(lái)。同樣地,如果用戶總是抱怨連接斷斷續(xù)續(xù)的問(wèn)題,部件觀察器就幫助跟蹤他們這些連接,最終發(fā)現(xiàn)問(wèn)題。
當(dāng)SNMP事件發(fā)生時(shí),程序的響應(yīng)很快,但是能看到事件的唯一地方就是公告板控制臺(tái),因?yàn)榇讼到y(tǒng)沒(méi)有電子郵件、電話報(bào)警等內(nèi)置功能,甚至也沒(méi)有發(fā)生錯(cuò)誤時(shí)通常顯示的彈出選單。由于EotS能搜尋到的故障類型都很細(xì)微,不易察覺(jué),從小問(wèn)題到大范圍的系統(tǒng)故障,需要花幾個(gè)小時(shí)或幾天去檢測(cè),所以需要配備專職的網(wǎng)絡(luò)管理員。
EotS擅長(zhǎng)分析能影響網(wǎng)絡(luò)基礎(chǔ)設(shè)備的細(xì)微問(wèn)題,但它沒(méi)有自身預(yù)警的能力,也不能管理網(wǎng)絡(luò)中的最終節(jié)點(diǎn)。
eHealth阻止超越極限
與EotS搜尋物理設(shè)備的故障不同,eHealth主要強(qiáng)調(diào)SNMP管理設(shè)備的操作參數(shù),例如某服務(wù)器已經(jīng)持續(xù)運(yùn)行在預(yù)設(shè)的CPU參數(shù)的極限值之上時(shí),eHealth就能指出潛在的問(wèn)題,在這點(diǎn)上EotS是捕捉不到的。而EotS指出的緊急硬件故障,eHealth的圖表是顯示不出來(lái)的。
eHealth是由四部分組成的客戶/服務(wù)器模式系統(tǒng)。它的基礎(chǔ)是Live Health,主要負(fù)責(zé)收集設(shè)備的參數(shù)信息。它提供了一個(gè)Web接口,用以生成基于Adobe Acrobat圖像程序的報(bào)告,非常直觀,響應(yīng)速度也很快,還能與外部管理程序(例如HP OpenView)對(duì)話。Live Health安裝過(guò)程不僅安裝Concord的程序,也增加了CERN Web服務(wù)、SCO的XVision PCX 等其他服務(wù)系統(tǒng)。另外三個(gè)軟件包分別是:Network Health,主要是監(jiān)視集線器、交換機(jī)、路由器和其他網(wǎng)絡(luò)基礎(chǔ)設(shè)備;System Health,用以監(jiān)視服務(wù)器和它們各自的服務(wù)和后臺(tái)程序;Application Health,對(duì)類似 Microsoft Exchange的應(yīng)用程序和Web服務(wù)器進(jìn)行端到端的監(jiān)視。
Network Health能安裝在HP-UNIX、Solaris或Windows NT服務(wù)器上。程序運(yùn)行時(shí),當(dāng)提供給系統(tǒng)IP地址范圍后,就開(kāi)始搜尋過(guò)程,系統(tǒng)能夠迅速識(shí)別出所有網(wǎng)絡(luò)上的SNMP管理設(shè)備。正常情況下,軟件每天在午夜執(zhí)行一次用于發(fā)現(xiàn)問(wèn)題的程序,大多數(shù)eHealth的參數(shù)都是用戶自定義的,幾乎每一個(gè)參數(shù)都有可選項(xiàng)。所有的配置都是在服務(wù)器控制臺(tái)上執(zhí)行的。搜尋過(guò)程啟動(dòng)后,程序就開(kāi)始定期調(diào)查每一個(gè)管理設(shè)備(缺省設(shè)置是每隔5分鐘)。Live Health根據(jù)MIB對(duì)500多個(gè)SNMP管理設(shè)備的定義進(jìn)行了預(yù)編程處理,所以它可以發(fā)現(xiàn)很多相關(guān)的信息。通常,所有收集的數(shù)據(jù)都存儲(chǔ)在數(shù)據(jù)庫(kù)中六個(gè)星期。這個(gè)過(guò)程完成后,程序可以持續(xù)運(yùn)行幾天,這樣可以使系統(tǒng)更趨于正常,并由此建立一個(gè)基線。Live Health投入正常使用后,就可以通過(guò)Web界面進(jìn)行管理。Live Health的一個(gè)重要用途就是實(shí)時(shí)異常情況監(jiān)控。利用一套復(fù)雜的規(guī)則,系統(tǒng)可以顯示出異常情況。例如,一個(gè)平時(shí)很忙的端口突然顯示出沒(méi)有任何通信量;一個(gè)CPU超過(guò)它正常的使用范圍,或收發(fā)電子郵件的速度比預(yù)想的要慢了許多等。
Concord公司的eHealth組件
Live Health的規(guī)則非常復(fù)雜,例如,路由器的廣域端口使用是否超出了正常的參數(shù)范圍,每周或每天的使用狀況是否超出了歷史峰值等,以至于雖然規(guī)則設(shè)置得非常明確,但是大多數(shù)管理員還是希望讓系統(tǒng)根據(jù)數(shù)據(jù)庫(kù)的歷史記錄和規(guī)則去決定什么樣的組成是異常的。一旦發(fā)生了異常情況,就會(huì)出現(xiàn)在Live Health屏幕上,由此,管理員可以告訴系統(tǒng)起用快速模式開(kāi)始監(jiān)視那個(gè)設(shè)備。與EotS一樣,Live Health不提供任何外部預(yù)警功能,例如電子郵件,但是通過(guò)和第三方程序的連接可以提供這種特性。通過(guò)跟蹤異常情況,再利用數(shù)據(jù)庫(kù)去分析研究,為管理員判斷網(wǎng)絡(luò)可能或正在發(fā)生的故障提供強(qiáng)有力的依據(jù),同時(shí)還能預(yù)測(cè)以后的趨勢(shì)和狀態(tài)。Live Health的另外一個(gè)主要部分就是它強(qiáng)大的擴(kuò)展報(bào)告能力,有些報(bào)告甚至是可編程的,這些報(bào)告可以從Web上獲得,讓管理員可以從時(shí)間、組織或多種方式去分析設(shè)備。Live Health把報(bào)告生成非常直觀的Adobe Acrobat文件,可以為更高級(jí)的管理做準(zhǔn)備。
實(shí)際上,Live Health監(jiān)視的不僅是基礎(chǔ)設(shè)備和服務(wù)器,還有上述新增模塊和端到端的應(yīng)用程序。擴(kuò)展報(bào)告和著重于運(yùn)行等特點(diǎn),使Live Health成為確實(shí)是一個(gè)與眾不同的解決方案。