概述
企業(yè)IT系統(tǒng)越來越多,網(wǎng)絡(luò)、設(shè)備和產(chǎn)品越來越復雜,業(yè)務越來越依賴于穩(wěn)定可靠的系統(tǒng)運行,公司內(nèi)部和外部用戶對IT部門的支持服務和協(xié)調(diào)管理也提出了更高的要求,如果企業(yè)的運行設(shè)備出現(xiàn)了故障,往往會給企業(yè)帶來巨大的損失。此時,往往企業(yè)會要求運維部門力保設(shè)備的運行正常,同樣運維部門也會提出相關(guān)的口號,例如,連續(xù)100天運維無故障。也就是我們常說的零故障。
IT部門如果缺乏快速有效的協(xié)調(diào)機制和必要的輔助管理工具,就會出現(xiàn)“救火隊式”的混亂局面,其主要表現(xiàn)如下:
n 被動響應式的工作方式。
n 很難及時發(fā)現(xiàn)和預見問題的發(fā)生。
n 問題出現(xiàn)后,很難快速、準確地找到根本原因,并及時地找到相應的人進行修復和處理。
n 問題找到后,缺乏流程化的故障處理機制。
n 支持過程總是被打斷和干擾。
n 關(guān)鍵人員的工作負載過重。
n 缺乏過程和變化的跟蹤記錄。
n IT支持部門面臨不斷改進服務和降低成本的壓力。
n 服務請求的響應時間和質(zhì)量無法衡量。
n 決策基于“我認為”而不是“我知道”。
結(jié)果造成IT部門整天疲于奔命,無法滿足服務時效性和穩(wěn)定性的需求。這種工作模式下的IT資源管理,不僅IT部門吃力不討好,而且也無法發(fā)揮IT系統(tǒng)的整體性能和功能,同樣也無法達到企業(yè)提出的零故障的要求。
什么是零故障
對故障我們已作定義就是設(shè)備失去了規(guī)定的功能,再從故障的字面看,它是由人“故”意而引起的“障”礙,即故障的根源在人,它是由於人的思維方法和行動上的錯誤而引起的,也就是說人們的認識及其相應的行為的結(jié)果以故障的形式表現(xiàn)出來。因此只要改變與設(shè)備相關(guān)的所有人的認識,增加相應的知識,提高其技能,改進其方法和行動,故障就會消失。
有人可能要問,按照零故障觀點,設(shè)備豈不可以永久地使用下去了嗎,這里我們要區(qū)分兩個不同的概念就是自然老化和強制惡化。所謂自然老化就是雖然使用方法正確,但隨著時間的推移,設(shè)備發(fā)生了性能逐漸下降。而所謂的強制惡化是指未按應有的方法作業(yè),人為地促使了惡化。因此零故障觀點的意義在於指導我們正確認識故障,做該做的事以避免強制惡化,延緩自然老化。
為了實際推進這項工作,我們針對可能產(chǎn)生故障的原因,導出實現(xiàn)零故障的四大對策:
1、具備基本條件
所謂具備基本條件,就是指CPU、內(nèi)存、硬盤等硬件設(shè)備。故障是由設(shè)備的劣化引起的,但大多數(shù)故障是由於基本條件3要素引起的。
2、嚴守使用條件
機器設(shè)備在設(shè)計時就確定了使用條件。嚴格按照使用條件使用,設(shè)備就很少產(chǎn)生故障。比如電壓、轉(zhuǎn)速、溫度及安裝條件等,都是根據(jù)設(shè)備的特點而決定的。
3、使設(shè)備恢復正常
一臺設(shè)備,即使具備了基本條件,保證使用條件,由於很難做到十全十美,因此設(shè)備還是會發(fā)生劣化,產(chǎn)生故障。所以使隱含的劣化明顯化并使之恢復到正常狀態(tài)。這意味著我們應經(jīng)常地對設(shè)備進行正確的檢查和預防。
4、提高人的素質(zhì)
所有的處理都要由人來實施,在實現(xiàn)零故障的過程中人是最根本的。首先,每個人都要有認真的態(tài)度,兢業(yè)的精神,其次,對故障有一個正確的認識,最後就是要提高操作和維修人員的專業(yè)技能。
總的來說,我們在日常工作中要做好以上這幾方面的工作:就可以防止故障的出現(xiàn)。當然這種故障也只是無限的接近零故障,或者是在某一段時間內(nèi)實現(xiàn)了零故障。
摩卡業(yè)務服務管理的故障預處理
對于實現(xiàn)企業(yè)的零故障,摩卡軟件的摩卡業(yè)務服務管理(Mocha Business Service Management,簡稱Mocha BSM),在這方面有著超過十年的經(jīng)驗積累,所以可以更多的從客戶方面去考慮,通過基礎(chǔ)模塊的監(jiān)控,周期性的反映出了設(shè)備的CPU、內(nèi)存、硬盤等設(shè)備的運行情況,同時具有配置變更管理功能,當硬件設(shè)備松動或出現(xiàn)變化時,可以及時產(chǎn)生報警,保證了基本條件的正常運做。
通過機房的監(jiān)控,可以實時的看到設(shè)備環(huán)境的溫度、濕度、煙感度等使用條件,可以幫助管理人員提供預防因環(huán)境的原因而造成設(shè)備出現(xiàn)故障。
同時也根據(jù)對相關(guān)設(shè)備的監(jiān)控信息的設(shè)置,可以提供相關(guān)設(shè)備的定位,可以提前報警,系統(tǒng)還可以定制定時任務提醒管理人員定期定時對設(shè)備進行檢查,幫管理人員實現(xiàn)防患于未然,真正的接近零故障。