“休斯敦,我們遇到問題了”,這是來自科學(xué)和技術(shù)界最偉大的語錄之一。
然而從技術(shù)上來說,當(dāng)他們用無線電告知在休斯敦的任務(wù)控制臺(tái)時(shí),阿波羅13號(hào)的工作人員應(yīng)該說:“我們遇到了事故”,因?yàn)閱栴}是事故表面下的未知原因。
事故是任何不屬于標(biāo)準(zhǔn)服務(wù)運(yùn)轉(zhuǎn)部分的事件,能引起或是可能造成服務(wù)中斷或是服務(wù)質(zhì)量下降。謝天謝地,像任何組織良好的項(xiàng)目一樣,休斯敦?fù)碛幸粋€(gè)中止計(jì)劃,再加上宇航員們的足智多謀,他們最終能夠平安地返回地面。
這是一起事故或危機(jī)管理的典型案例,目的是盡可能快地恢復(fù)服務(wù)運(yùn)轉(zhuǎn)的正常狀態(tài),從而將對(duì)運(yùn)行的不利影響降至最低。擁有到位的事故管理計(jì)劃以及應(yīng)急響應(yīng)團(tuán)隊(duì)來確保處理任何事故,應(yīng)該成為任何組織的標(biāo)準(zhǔn)慣例。無論是天災(zāi)人禍、惡意攻擊或是員工的疏忽,都應(yīng)該被快速地處理,從而可以繼續(xù)正常的服務(wù)。事故是每天業(yè)務(wù)生活的一部分,應(yīng)該有幫助臺(tái)(help desk)或IT支持人員來處理不太嚴(yán)重的問題,并有緊急響應(yīng)團(tuán)隊(duì)來處理重大的事故。但是,究竟有多少組織擁有問題管理團(tuán)隊(duì)呢?
問題的定義是某個(gè)或多個(gè)事故的未知原因,問題管理流程涉及到判斷此類事故表面下的原因,然后找到一個(gè)永久的解決方案。它不同于事件管理,因?yàn)樗年P(guān)注點(diǎn)在于問題的解決而不是事件本身的響應(yīng)速度,以防止它惡化成事件。
在阿波羅13號(hào)甲板上的事故引起了細(xì)致的調(diào)查以便判斷問題的根源。然后用這方面的知識(shí),以確保在未來的任務(wù)中問題不會(huì)再出現(xiàn)。這種類型的事件后分析可以起到至關(guān)重要的作用,確保企業(yè)網(wǎng)絡(luò)運(yùn)營保持不間斷高效運(yùn)行。沒有它,宕機(jī)時(shí)間會(huì)延長(zhǎng),并且時(shí)間和金錢可能會(huì)浪費(fèi)在處理重復(fù)的事故上。
讓我們舉個(gè)簡(jiǎn)單的例子來突出事件管理和問題管理間的差異:某個(gè)出問題的網(wǎng)絡(luò)文件服務(wù)器無法讓雇員們?cè)L問他們的文檔。事件響應(yīng)團(tuán)隊(duì)可能僅是重啟服務(wù)器以便快速地恢復(fù)訪問。問題響應(yīng)團(tuán)隊(duì)則會(huì)找到讓服務(wù)器宕機(jī)的原因,以便能修正并防止問題再次發(fā)生(請(qǐng)注意,問題管理不同于吸取經(jīng)驗(yàn)教訓(xùn)的工作,后者是評(píng)審事故是如何處理的,看是否能改善未來事故的處理)。
盡管問題解決和事件響應(yīng)是有關(guān)聯(lián)的,但它們不一定要求同樣的技能,因此參與到這兩個(gè)流程的人員也是不同的。一些人可能知道如何恢復(fù)最近一次的數(shù)據(jù)庫備份,但是不了解造成數(shù)據(jù)庫崩潰的首要原因是什么。問題解決更加傾向于取證和追溯發(fā)生了什么引發(fā)了事件,而事件管理要求關(guān)于如何恢復(fù)一個(gè)系統(tǒng)的更具有可操作性的知識(shí)。
問題通常可由之后多個(gè)有類似癥狀的事故辨識(shí)——例如跨整個(gè)網(wǎng)絡(luò)的電腦病毒傳播并影響它們的性能——或者是從有重要影響的單個(gè)事故來辨識(shí)的,比如前面提到的情況:沒人能訪問某個(gè)特殊服務(wù)器上的文件。
一旦成功地診斷出事故表面下的原因,它就成了“已知錯(cuò)誤”,隨后的任務(wù)就是找到一個(gè)合適的變通方法或永久的解決方案。變通方法應(yīng)該只用于將問題的影響最小化,直到找到永久的解決方案,并且問題應(yīng)該歸為已知的錯(cuò)誤。
辨識(shí)問題根本原因的技術(shù)之一是使用因果圖(Ishikawa diagram,也叫“魚骨圖”),是用來映射事件起因的工具。潛在的原因通常被歸類如人、流程、策略、硬件、軟件和環(huán)境,在這些類中,任何來源的變化都能幫助找出問題的原因所在。其它技術(shù)如阿波羅根源分析方法(Apollo Root Cause Analysis)也能用來辨識(shí)原因和尋找解決方案。
盡管問題管理與事故管理是緊密關(guān)聯(lián)的,但是在需要快速的解決事故和需要找到問題長(zhǎng)期的解決方案間,兩者可能有沖突。還是用前面的例子,立刻重啟文件服務(wù)器可能破壞有用的診斷信息來辨識(shí)問題的原因。解決這個(gè)沖突的方法之一,是事先達(dá)成一致需要什么診斷信息,在恢復(fù)服務(wù)前允許的診斷時(shí)間,以及試圖解決該問題會(huì)需要的那些必要資源。
問題管理的主動(dòng)性方法是努力在事故發(fā)生前辨識(shí)和解決問題。這涉及到對(duì)日志報(bào)告和幫助臺(tái)請(qǐng)求的趨勢(shì)分析,接著是相關(guān)的新聞組用來對(duì)別處發(fā)生的問題進(jìn)行提前預(yù)警,以及針對(duì)的支持行動(dòng)。
問題管理流程目的是減少業(yè)務(wù)中事故和問題的次數(shù)、嚴(yán)重性和惡劣影響,并且預(yù)防與這些錯(cuò)誤相關(guān)的事故再次發(fā)生。團(tuán)隊(duì)的成功可以很容易地監(jiān)控問題診斷和解決的平均時(shí)間、重復(fù)問題的發(fā)生次數(shù)、以及重大事故的發(fā)生次數(shù),并以此來衡量。擁有到位的問題管理流程會(huì)幫助任何組織減少重復(fù)的事故發(fā)生,并通往更為可靠的網(wǎng)絡(luò)和應(yīng)用環(huán)境之路。