IT運維管理是時下IT界最熱門的話題之一,隨著IT建設(shè)的不斷深入和完善,計算機硬軟件系統(tǒng)的運行維護已經(jīng)成為了各行各業(yè)各單位領(lǐng)導(dǎo)和信息服務(wù)部門普遍關(guān)注和不堪重負的問題。由于這是一個隨著計算機信息技術(shù)的深入應(yīng)用而產(chǎn)生的新課題,因此如何進行有效的IT運維管理,這方面的知識積累和應(yīng)用技術(shù)還剛剛起步對這一領(lǐng)域的研究和探索,
將具有廣闊的發(fā)展前景和巨大的現(xiàn)實意義。
現(xiàn)狀及趨勢分析
盡管IT運維管理的技術(shù)在不斷進步,但實際上,很多系統(tǒng)工程師并沒有真正解脫出來,原因并不復(fù)雜:“雖然已經(jīng)能夠獲取網(wǎng)絡(luò)設(shè)備、服務(wù)器、網(wǎng)絡(luò)流量,甚至數(shù)據(jù)庫的警告信息,但成千條警告信息堆積在一起更本沒法判斷問題的根源在哪里?”“雖然不少產(chǎn)品提供了告警過濾和壓縮,但結(jié)果卻并不盡人意”。面對這樣的抱怨,難道我們的工程師將永遠無法走出“被動的怪圈”嗎?
如今,在IT運維領(lǐng)域中,“主動”并不是一個新鮮的概念。幾乎所有的宣傳、產(chǎn)品、用戶、理念都在宣揚“主動”,從被動到主動管理的升華是每個企業(yè)針對信息系統(tǒng)如何提高IT服務(wù)水平、如何提高系統(tǒng)可用性、降低運維成本,實現(xiàn)IT科學(xué)性的過程。很多企業(yè)在選擇IT管理工具時將最終目標(biāo)就定位在“主動”,希望業(yè)務(wù)系統(tǒng)能夠“無憂”,但真正能夠達成IT與業(yè)務(wù)融合的企業(yè)卻是很少。很多IT運維廠商都強調(diào),“傳統(tǒng)被動式”的類似“救火員”角色的IT系統(tǒng)運維方式,根本不能適應(yīng)目前需求,那么企業(yè)到底怎樣才能實現(xiàn)真正的“主動”呢?
問題癥結(jié)導(dǎo)致喪失主動權(quán)
在虛擬化、云計算等新興技術(shù)的刺激下,IT正在走向一種整合的發(fā)展趨勢。當(dāng)然,這種整合并不局限于幾臺服務(wù)器的集群或組成1個數(shù)據(jù)中心,而是更多地指向了有序、有效地集中,但也就會導(dǎo)致原有的問題也會集中在一起。中國的IT工程師習(xí)慣于將工作重心放
在性能而不是質(zhì)量上,放在提供支持而不是消除問題上。我們知道,對于IT系統(tǒng)真正的主動管理,是實現(xiàn)業(yè)務(wù)服務(wù)管理中最重要的基石之一。但有些用戶在修正現(xiàn)有的IT管理目標(biāo)是比較盲目的,因為原先沒有一致而且正式的運維程序與原則,因此根本無法擬出服務(wù)等級。如果沒有 SLA,實現(xiàn)業(yè)務(wù)測量運營績效與確立IT目標(biāo)幾乎是不可能的,也就不可能為主動管理排出精準(zhǔn)的規(guī)劃。
很多IT管理工具并沒有將業(yè)務(wù)放在第一位,設(shè)計的核心沒有用業(yè)務(wù)指導(dǎo)網(wǎng)絡(luò)運維,因此從一開始有些人就站在了相反的起跑線上,即使用了最先進的IT運維管理系統(tǒng),如今還仍然是在做底層獲取的工作,雖然擁有了海量龐雜的相關(guān)數(shù)據(jù),如果得不到提煉,則上
層流程的“主動”管理必將成為空談,業(yè)務(wù)的保障和管理就會成為無本之木。就如我們共知的那樣,IT問題的發(fā)生是必然的,但未能根據(jù)業(yè)務(wù)進行基礎(chǔ)監(jiān)控的用戶,將喪失在問題。
層流程的“主動”管理必將成為空談,業(yè)務(wù)的保障和管理就會成為無本之木。就如我們共知的那樣,IT問題的發(fā)生是必然的,但未能根據(jù)業(yè)務(wù)進行基礎(chǔ)監(jiān)控的用戶,將喪失在問題。
造成業(yè)務(wù)中斷之前,就進行防止的契機,也就喪失了“主動”的條件。
如何重新掌握“主動”
IT技術(shù)正在成為企業(yè)的神經(jīng)中樞,越來越多的企業(yè)希望借助IT技術(shù)這一關(guān)鍵的戰(zhàn)略資源提供對關(guān)鍵業(yè)務(wù)的支持,提升公司的競爭優(yōu)勢,進而實現(xiàn)公司的戰(zhàn)略目標(biāo)。然而由于今天的IT組織面臨著諸如日益增長的基礎(chǔ)設(shè)施復(fù)雜性、技能方面的限制以及資金短缺等相當(dāng)多的問題,因此要實現(xiàn)這一點并不容易。
就如前面說明的那樣,如果在IT系統(tǒng)中沒有出現(xiàn)問題,也就沒有告警信息,但這是不可能存在的一種假設(shè)。當(dāng)所有的業(yè)務(wù)系統(tǒng)集中起來的時候,出現(xiàn)無數(shù)的警告信息實際上是非常正常的,這就如人生病一樣,很多疾病都會造成身體上多處特征的不良反應(yīng),醫(yī)生會開出多得讓你厭惡的檢查表格讓你檢查,實際上這就是瞧病過程中找到病源的過程。但這個過程越長,你就越加無法忍受。企業(yè)的業(yè)務(wù)系統(tǒng)也是如此,在問題出現(xiàn)時,不能將問題迅速歸類,不能發(fā)現(xiàn)最具特征的表象,也就遲遲無法做出問題改善,“主動”也就失去了意義。
每一年企業(yè)都會都投入大量的資金和人力去做運維,但每一年我們都會發(fā)現(xiàn),投入的資金在大量增加,但人力資源并沒有得到釋放,我們的運維成本也沒有隨之降低,并不是說我們的投入沒有效用,我們花了很大力氣所建立的網(wǎng)絡(luò)監(jiān)控系統(tǒng)、主機監(jiān)控系統(tǒng)、應(yīng)用平臺的監(jiān)控系統(tǒng)等都是非常有用的,那為什么還會出現(xiàn)這樣的情況呢,比如說一個故障出現(xiàn),網(wǎng)絡(luò)管理員看到自己的網(wǎng)絡(luò)是好的,主機管理員看到自己的主機是可以正常登陸注銷的,應(yīng)用管理員看到我的應(yīng)用進程還在,都沒問題,那問題在哪里呢,其實就是以往我們的投資見效了,但還少一點,就是這些系統(tǒng)都只關(guān)注于某一塊,如果可以打破這種格局,將三者之間用一條線給穿起來,效果就會好很多了,問題時不需要我們?nèi)藶榈娜シ治隽耍到y(tǒng)直接分析出來告訴給管理員就可以了,所以我們說我們一直所使用的“傳統(tǒng)監(jiān)控”系統(tǒng),并沒有這條主線,才造成故障分析時間大大增長,還有就是,往往“傳統(tǒng)監(jiān)控”系統(tǒng)會強調(diào)我可以多么快速的報警之類,那報警完了呢?我們就會看到我們的運維人員看到報警開始忙了,所以,我們一直把監(jiān)控軟件理解為只會報警的東西。
很多企業(yè)用戶都存在疑問,化繁為簡應(yīng)該不能只是空談,但如何做到實踐、也就是說如何用呢?如:某業(yè)務(wù)系統(tǒng),由于關(guān)注參數(shù)很多,為減輕工作量,平時只關(guān)注ping通是否正常,當(dāng)ping告警觸發(fā)時,抑制該業(yè)務(wù)系統(tǒng)服務(wù)器的CPU、MEM告警,以免這些告警信息干擾故障源判斷,同時立刻關(guān)聯(lián)該業(yè)務(wù)系統(tǒng)核心網(wǎng)絡(luò)設(shè)備情況,再關(guān)聯(lián)該業(yè)務(wù)系統(tǒng)連接網(wǎng)絡(luò)設(shè)備端口情況,最終的結(jié)果可以發(fā)現(xiàn),是該端口為關(guān)閉狀態(tài)從而觸發(fā)了告警,原來有人誤操作關(guān)閉了該端口,激活該端口則恢復(fù)正常。由此可以看到,正是通過告警關(guān)聯(lián)與抑制方式實現(xiàn)了先進的問題根源定位能力,從而使得主動管理不再是紙上談兵。
摩卡業(yè)務(wù)服務(wù)管理

摩卡業(yè)務(wù)服務(wù)管理(Business Service Management)是IT與業(yè)務(wù)管理手段的一種整合與互補,它以ITIL為理論基礎(chǔ),實現(xiàn)IT管理與業(yè)務(wù)服務(wù)的融合。能夠從不同監(jiān)控系統(tǒng)(包括第三方)整合出需要的IT營運信息,給企業(yè)帶來IT服務(wù)方面的優(yōu)勢,從而體現(xiàn)在企業(yè)競爭優(yōu)勢上。