很多人用網管軟件很長時間了,但是還是覺得用起網管軟件來,很不方便。這是什么原因呢?筆者認真分析了種種原因,最終發現,原來是很多人并沒有把網管軟件中的事件管理用好。因此筆者用摩卡軟件公司的Mocha BSM網絡管理軟件為例,來說明一下,為什么要用好事件管理。
什么是事件管理
首先向大家說明一下,什么是事件管理,首先我們想象一下,網絡中各種IT元素也像人類這個社會一樣,每天都會發生各種各樣的事情,如某個網絡設備宕機了,某個服務器重啟了,或者某個網絡端口宕掉了,等等。因此一旦網絡中某些設備或者某些資源出現了問題,或者說設備的狀態發生了變化,就自然而然會產生事件,如端口由UP狀態變為Down狀態;或者反之,由Down狀態變為Up狀態,都會產生事件。
那么,我們再想象一下,如果沒有事件管理,網管將會怎樣?如果沒有事件管理的話,針對IT資源的管理永遠將會是處于一片混亂,我們根本不知道過去整個網絡中到底發生了什么,我們只能夠通過網絡拓撲圖僅僅看到紅燈由綠變紅,而后又由紅變綠。這也就是為什么,很多人使用了網絡管理軟件后,總覺得網管軟件不好用的原因之一,因為他覺得只要看網絡拓撲圖就足夠了,而真正的驅動整個網絡管理的運維流程和為管理維護人員產生短信通知等,都是事件管理的功勞。因此,說事件管理決定一個網管軟件的成功和失敗是不為過的。
好的事件管理軟件好在何處
在這里,我們就為大家好好說一說一個好的事件管理軟件是如何做到的:
1.好的事件管理是能夠進行根源性分析的。
一旦網絡中某個核心路由宕機,導致某個網段內的IT設備都不可訪問,如果沒有根源性分析的話,網管人員將會看到成百上千的故障事件,而有了根源性分析的話,管理人員只會收到一個故障事件的報告,網管人員只要恢復該故障事件即可解決問題。因此,一個好的事件管理能幫助網管人員減輕大量的工作量,而且能起到一劍封喉的作用,直接解決問題,省卻大量的故障查找時間和故障分析時間。
2.好的事件管理是能夠防止誤報的。
一個網管系統上線后,網管人員常常會收到大量的故障告警,而通過查找和對比,網管人員往往會發現,其中95%的故障告警是垃圾告警,長此以往,真正的故障告警發生的時候,將會是狼來了,卻沒有人理會。這個是為什么呢?因為,市面上,很多網管軟件都沒有做誤報過濾處理,如下圖,很多的時候,一個性能超標事件常常是因為某個偶然因素,會向上跳至超標線,而后迅速恢復至正常。如果將該種超標視為故障而報警的話,將會導致網管人員疲于奔命的效果,因此摩卡軟件公司的網管軟件采用了Flapping技術,當某個指標連續超標N次后,才會告警。這個N是可以根據用戶的實際需求,而靈活調整的。
3.好的事件管理是能夠提供壓縮事件的。
當一個服務器宕機后,如果在1個小時內沒有恢復的話,很多網管軟件會每隔幾分鐘就不間斷的發出短信告警,但實際上運維人員已經在處理故障了,因此摩卡軟件根據這個特點,實行了故障事件壓縮處理,當故障事件產生后,只會發出一條告警事件,直到故障恢復。
4.好的事件管理能夠和問題指標自動關聯的。
很多時候,一個設備出現問題,往往不止是一個原因,因此摩卡軟件的事件管理能夠將性能故障和多個性能指標事件相關聯,方便管理人員進行綜合分析。
5.好的事件管理是能夠產生自定義事件,以方便和運維流程整合。
故障事件產生后,是需要流程去解決的,因此必須為流程的啟動和工單的觸發預留足夠的接口,而摩卡網管軟件支持用戶自定義事件,為流程的整合提供了靈活的接口,方便網管軟件和IT運維流程管理軟件進行整合。
總結
如果沒有事件管理,那么網管軟件將會徹底的淪為形象工程,事件管理將決定一個網管軟件的成功和失敗,好的事件管理將會幫助網管人員節省大量的時間,提高工作效率,并幫助管理人員排定處理事故的優先級別,有序而高效的開展網絡管理工作。