任何日常使用的商品都會逐漸老化,例如在一些家電產(chǎn)品中,如冰箱老化出現(xiàn)不制冷的問題、微波爐達(dá)到使用年限出現(xiàn)安全問題等等。這讓我們聯(lián)想到企業(yè)中賴以生存的業(yè)務(wù)系統(tǒng),它們是否也存在“越用越慢”的問題呢?答案是肯定的。
在IT運維工程師中,一直流傳著這樣一句話:“不怕壞,就怕慢”。這也恰恰反映出維持業(yè)務(wù)系統(tǒng)高效運轉(zhuǎn)在IT運維管理中的難點。IT運維管理專家北塔軟件針對此類棘手的問題,建議企業(yè)用戶引入BSM(Business Service Management,即業(yè)務(wù)服務(wù)管理)管理的方法,并利用IT運維管理工具構(gòu)建業(yè)務(wù)系統(tǒng)的映射視圖,從而發(fā)現(xiàn)業(yè)務(wù)系統(tǒng)潛在的故障和緩慢的原因,進(jìn)而實現(xiàn)業(yè)務(wù)系統(tǒng)優(yōu)化的最佳實踐。
奢侈品級別的硬件 組合效果卻差強(qiáng)人意
隨著企業(yè)業(yè)務(wù)系統(tǒng)對IT 系統(tǒng)的依賴性越來越強(qiáng),IT 系統(tǒng)已成為企業(yè)生存與發(fā)展的技術(shù)神經(jīng)。諸如OA系統(tǒng)、郵件系統(tǒng)、門戶網(wǎng)站,ERP系統(tǒng)、MRP系統(tǒng)、PDM系統(tǒng)等不同應(yīng)用系統(tǒng),都依靠網(wǎng)絡(luò)和硬件設(shè)備輸出動力。所以,在一些高增長型企業(yè)中,為了保證系統(tǒng)的性能不受影響,同時考慮用戶數(shù)量成倍增長的趨勢,所選用服務(wù)器、存儲和網(wǎng)絡(luò)設(shè)備都是十分昂貴的。而在這些業(yè)務(wù)系統(tǒng)運行一段時間后,這些“頂配”的設(shè)備性能往往還是出現(xiàn)了問題,用戶的實際體驗效果也會差強(qiáng)人意。
顯然IT工程師們知道是因為某一個硬件配置策略或者程序上出現(xiàn)了瓶頸問題,但這樣的后果,無疑還是把矛頭指向了IT運維部門的服務(wù)質(zhì)量。可以想象,業(yè)務(wù)系統(tǒng)反應(yīng)越來越慢,對于系統(tǒng)維護(hù)部門的壓力有多大。于是,心急的管理者立即組織系統(tǒng)維護(hù)人員去查看問題,但后續(xù)不論是網(wǎng)絡(luò)層流量擁塞的問題,還是交換機(jī)或是防火墻的配置問題,以及服務(wù)器上的數(shù)據(jù)庫程序問題,每個環(huán)節(jié)的負(fù)責(zé)人或者廠商售后都可能提交“一切正常”的報告。
潛在的風(fēng)險最終演變成災(zāi)難 瓶頸究竟在哪里?
隨著線上業(yè)務(wù)的發(fā)展,業(yè)務(wù)系統(tǒng)的服務(wù)器、網(wǎng)絡(luò)設(shè)備、存儲等面臨高并發(fā)訪問和海量數(shù)據(jù)流的情況屢見不鮮。系統(tǒng)中的各個核心設(shè)備所負(fù)擔(dān)的處理能力和計算強(qiáng)度也會相應(yīng)增大,使得單一設(shè)備根本無法承擔(dān)。可每個設(shè)備的最大負(fù)載又能是多少呢?單純依靠IT人員的經(jīng)驗去處理嗎?另外,有時業(yè)務(wù)系統(tǒng)在生產(chǎn)環(huán)境中響應(yīng)的速度突然變得很慢,但是又找不到原因。這時就要依據(jù)長期數(shù)據(jù)來計算平均負(fù)載,是否有大量的進(jìn)程在排隊等待等等。
可負(fù)責(zé)真正能夠解決問題的數(shù)據(jù)卻是雜亂無章的,造成這種現(xiàn)象的主要原因傳統(tǒng)的資源型監(jiān)控有著一定的局限。例如,目前的大型企業(yè)當(dāng)中,當(dāng)有問題出現(xiàn)的時候,各個部(系統(tǒng)部、研發(fā)部、網(wǎng)絡(luò)部、安全部)的人都是用自己的工具監(jiān)測自己的管理領(lǐng)域,向自己的經(jīng)理匯報自己這部分有沒有問題。但從來沒有誰是從業(yè)務(wù)整體性能的角度來分析、解決問題,所有的結(jié)論都是分散的。
當(dāng)然,由于身處IT運維管理部門,我們雖然可以在任何時刻制定風(fēng)險管理計劃,但往往著重于對系統(tǒng)運行中風(fēng)險的管理和維護(hù),而忽視系統(tǒng)在運行中的潛在風(fēng)險。所以,絕不能因為“慢”就聽之任之,因為它是一顆埋在網(wǎng)絡(luò)中的定時炸彈。
引入BSM運維方法以集中的業(yè)務(wù)視圖破解優(yōu)化難題
針對如何處理業(yè)務(wù)系統(tǒng)緩慢的問題,北塔軟件副總經(jīng)理孫永杰先生認(rèn)為:“企業(yè)首先要解決的是基礎(chǔ)設(shè)施統(tǒng)一平臺監(jiān)控的問題,而在此基礎(chǔ)上引入BSM以及使用能否完成其目標(biāo)的運維管理工具,將是破解優(yōu)化難題的最佳途徑。”需要進(jìn)一步了解的是,BSM的一個主要功能是實現(xiàn) IT 資產(chǎn)與其支持的業(yè)務(wù)服務(wù)之間的動態(tài)映射。也就是說在BSM 的實施過程中,要將IT基礎(chǔ)設(shè)施視圖從架構(gòu)拓?fù)鋱D轉(zhuǎn)換為一個模型,其中給出IT設(shè)備與業(yè)務(wù)服務(wù)的關(guān)聯(lián),讓 IT 部門能夠?qū)⒒A(chǔ)設(shè)施事件與業(yè)務(wù)系統(tǒng)的性能和用戶體驗關(guān)聯(lián)起來。
在接下來的IT運維管理中,工程師可以利用支撐BSM目標(biāo)實現(xiàn)的BTIM(Betasoft Integrated Management,IT綜合管理軟件),分別對監(jiān)控對象設(shè)置事件觸發(fā),特別是SQL閥值監(jiān)控這些最容易出問題的地方,形成設(shè)備層面的性能監(jiān)控。然后,要把業(yè)務(wù)系統(tǒng)涉及的每一個對象都合并起來,將所有運維監(jiān)控對象,按照業(yè)務(wù)訪問路徑綜合起來進(jìn)行,統(tǒng)一管控,形成綜合業(yè)務(wù)視圖。這也就是符合了業(yè)務(wù)管理目標(biāo)中最關(guān)鍵的:“不可分割性”。在這樣的一個平臺中,如果發(fā)現(xiàn)業(yè)務(wù)系統(tǒng)緩慢,IT運維人員則可以第一時間在業(yè)務(wù)視圖中找到這個“拖油瓶”。而如果遇到需要“全面優(yōu)化”的任務(wù),或者讓這些業(yè)務(wù)系統(tǒng)能夠具備“持續(xù)優(yōu)化”的能力,我們也可以在數(shù)據(jù)匯總中得到答案。
作為BSM落地的最佳實踐工具,BTIM在BSM業(yè)務(wù)管理方面包括了非常強(qiáng)大的業(yè)務(wù)數(shù)據(jù)的匯總和分析功能。對于業(yè)務(wù)系統(tǒng)的優(yōu)化來說,歷史數(shù)據(jù)分析、趨勢分析和服務(wù)質(zhì)量的改進(jìn)等,都需要通過對報表的分析來取得優(yōu)化對象的依據(jù)。通過業(yè)務(wù)運行率報表提供的業(yè)務(wù)系統(tǒng)運行分析和性能報告,信息管理人員能夠根據(jù)這些報告準(zhǔn)確評估整個業(yè)務(wù)系統(tǒng)運行情況,及時發(fā)現(xiàn)故障隱患和評估威脅,為整個企業(yè)IT全面優(yōu)化的決策提供了參考依據(jù)。