亚洲成精品动漫久久精久,九九在线精品视频播放,黄色成人免费观看,三级成人影院,久碰久,四虎成人欧美精品在永久在线

掃一掃
關(guān)注微信公眾號

如何設(shè)計問題管理流程將事故影響最小化
2011-10-31    TechTarget中國

“休斯敦,我們遇到問題了”,這是來自科學(xué)和技術(shù)界最偉大的語錄之一。

然而從技術(shù)上來說,當(dāng)他們用無線電告知在休斯敦的任務(wù)控制臺時,阿波羅13號的工作人員應(yīng)該說:“我們遇到了事故”,因為問題是事故表面下的未知原因。

事故是任何不屬于標(biāo)準(zhǔn)服務(wù)運轉(zhuǎn)部分的事件,能引起或是可能造成服務(wù)中斷或是服務(wù)質(zhì)量下降。謝天謝地,像任何組織良好的項目一樣,休斯敦?fù)碛幸粋€中止計劃,再加上宇航員們的足智多謀,他們最終能夠平安地返回地面。

這是一起事故或危機管理的典型案例,目的是盡可能快地恢復(fù)服務(wù)運轉(zhuǎn)的正常狀態(tài),從而將對運行的不利影響降至最低。擁有到位的事故管理計劃以及應(yīng)急響應(yīng)團(tuán)隊來確保處理任何事故,應(yīng)該成為任何組織的標(biāo)準(zhǔn)慣例。無論是天災(zāi)人禍、惡意攻擊或是員工的疏忽,都應(yīng)該被快速地處理,從而可以繼續(xù)正常的服務(wù)。事故是每天業(yè)務(wù)生活的一部分,應(yīng)該有幫助臺(help desk)或IT支持人員來處理不太嚴(yán)重的問題,并有緊急響應(yīng)團(tuán)隊來處理重大的事故。但是,究竟有多少組織擁有問題管理團(tuán)隊呢?

問題的定義是某個或多個事故的未知原因,問題管理流程涉及到判斷此類事故表面下的原因,然后找到一個永久的解決方案。它不同于事件管理,因為它的關(guān)注點在于問題的解決而不是事件本身的響應(yīng)速度,以防止它惡化成事件。

在阿波羅13號甲板上的事故引起了細(xì)致的調(diào)查以便判斷問題的根源。然后用這方面的知識,以確保在未來的任務(wù)中問題不會再出現(xiàn)。這種類型的事件后分析可以起到至關(guān)重要的作用,確保企業(yè)網(wǎng)絡(luò)運營保持不間斷高效運行。沒有它,宕機時間會延長,并且時間和金錢可能會浪費在處理重復(fù)的事故上。

讓我們舉個簡單的例子來突出事件管理和問題管理間的差異:某個出問題的網(wǎng)絡(luò)文件服務(wù)器無法讓雇員們訪問他們的文檔。事件響應(yīng)團(tuán)隊可能僅是重啟服務(wù)器以便快速地恢復(fù)訪問。問題響應(yīng)團(tuán)隊則會找到讓服務(wù)器宕機的原因,以便能修正并防止問題再次發(fā)生(請注意,問題管理不同于吸取經(jīng)驗教訓(xùn)的工作,后者是評審事故是如何處理的,看是否能改善未來事故的處理)。

盡管問題解決和事件響應(yīng)是有關(guān)聯(lián)的,但它們不一定要求同樣的技能,因此參與到這兩個流程的人員也是不同的。一些人可能知道如何恢復(fù)最近一次的數(shù)據(jù)庫備份,但是不了解造成數(shù)據(jù)庫崩潰的首要原因是什么。問題解決更加傾向于取證和追溯發(fā)生了什么引發(fā)了事件,而事件管理要求關(guān)于如何恢復(fù)一個系統(tǒng)的更具有可操作性的知識。

問題通常可由之后多個有類似癥狀的事故辨識——例如跨整個網(wǎng)絡(luò)的電腦病毒傳播并影響它們的性能——或者是從有重要影響的單個事故來辨識的,比如前面提到的情況:沒人能訪問某個特殊服務(wù)器上的文件。

一旦成功地診斷出事故表面下的原因,它就成了“已知錯誤”,隨后的任務(wù)就是找到一個合適的變通方法或永久的解決方案。變通方法應(yīng)該只用于將問題的影響最小化,直到找到永久的解決方案,并且問題應(yīng)該歸為已知的錯誤。

辨識問題根本原因的技術(shù)之一是使用因果圖(Ishikawa diagram,也叫“魚骨圖”),是用來映射事件起因的工具。潛在的原因通常被歸類如人、流程、策略、硬件、軟件和環(huán)境,在這些類中,任何來源的變化都能幫助找出問題的原因所在。其它技術(shù)如阿波羅根源分析方法(Apollo Root Cause Analysis)也能用來辨識原因和尋找解決方案。

盡管問題管理與事故管理是緊密關(guān)聯(lián)的,但是在需要快速的解決事故和需要找到問題長期的解決方案間,兩者可能有沖突。還是用前面的例子,立刻重啟文件服務(wù)器可能破壞有用的診斷信息來辨識問題的原因。解決這個沖突的方法之一,是事先達(dá)成一致需要什么診斷信息,在恢復(fù)服務(wù)前允許的診斷時間,以及試圖解決該問題會需要的那些必要資源。

問題管理的主動性方法是努力在事故發(fā)生前辨識和解決問題。這涉及到對日志報告和幫助臺請求的趨勢分析,接著是相關(guān)的新聞組用來對別處發(fā)生的問題進(jìn)行提前預(yù)警,以及針對的支持行動。

問題管理流程目的是減少業(yè)務(wù)中事故和問題的次數(shù)、嚴(yán)重性和惡劣影響,并且預(yù)防與這些錯誤相關(guān)的事故再次發(fā)生。團(tuán)隊的成功可以很容易地監(jiān)控問題診斷和解決的平均時間、重復(fù)問題的發(fā)生次數(shù)、以及重大事故的發(fā)生次數(shù),并以此來衡量。擁有到位的問題管理流程會幫助任何組織減少重復(fù)的事故發(fā)生,并通往更為可靠的網(wǎng)絡(luò)和應(yīng)用環(huán)境之路。

熱詞搜索:

上一篇:【產(chǎn)品鑒賞】TP-Link 322G+54M USB無線網(wǎng)卡
下一篇:華勝天成:云路.勝行--云計算自主產(chǎn)品巡展

分享到: 收藏