你要認(rèn)識(shí)到正常運(yùn)行時(shí)間的重要性,以及如何在數(shù)據(jù)中心最大限度地延長(zhǎng)正常運(yùn)行時(shí)間。
哪怕系統(tǒng)停機(jī)時(shí)間只有短短幾分鐘,都有可能降低生產(chǎn)力、導(dǎo)致你失去潛在的銷售額,或者造成更嚴(yán)重的后果,具體要看受到影響的是什么系統(tǒng)。但是你心里可能會(huì)問:99.9%的正常運(yùn)行時(shí)間與99.99%的正常運(yùn)行時(shí)間到底有啥區(qū)別?為了獲得更多的一個(gè)9或兩個(gè)9,不惜投入成本值不值得?Uptime軟件公司首席執(zhí)行官Phil Didaskalou為貴公司描述了一種可能很嚇人的情景,這個(gè)場(chǎng)景表明了正常運(yùn)行時(shí)間到底有多么重要、為什么多一個(gè)9關(guān)系那么大。
“你已經(jīng)比較了其他供應(yīng)商,看了看自己的預(yù)算,一切看起來(lái)都基本上都在你的承受能力范圍之內(nèi),于是與那家供應(yīng)商簽了合約,信心十足地認(rèn)為,99.9%的正常運(yùn)行時(shí)間對(duì)貴公司來(lái)說夠好了,”Didaskalou說。“兩個(gè)星期后,貴公司在周三下午1點(diǎn)啟動(dòng)了年度促銷活動(dòng),向受眾發(fā)出了40萬(wàn)封電子郵件——你認(rèn)為在這個(gè)時(shí)間段開展這項(xiàng)年度促銷活動(dòng)最合適,可以覆蓋到你的受眾。一個(gè)小時(shí)后,你這家新的網(wǎng)站托管提供商整整停機(jī)了20分鐘。從統(tǒng)計(jì)學(xué)上來(lái)說,你知道,電子郵件接收者大多會(huì)在促銷活動(dòng)的60分鐘內(nèi)打開和點(diǎn)擊瀏覽你的促銷內(nèi)容。那么,這到底有什么后果呢?你很可能剛剛失去了30%的受眾。”
一連串9到底說明了什么?
你只要稍微簡(jiǎn)單算一下(一年8760小時(shí)乘以0.001或0.0001等),就會(huì)明白,如果正常運(yùn)行時(shí)間是99.9%、99.99%或99.999%,那么預(yù)計(jì)全年的總停機(jī)時(shí)間分別是8.76個(gè)小時(shí)、52.6分鐘和5.26分鐘。一般來(lái)說,正常運(yùn)行時(shí)間比例中9的個(gè)數(shù)越多,你遇到長(zhǎng)時(shí)間停機(jī)的可能性就越小。
如果貴公司主要通過網(wǎng)站來(lái)賣產(chǎn)品,那么不難看出這些正常運(yùn)行時(shí)間比例對(duì)貴公司會(huì)帶來(lái)怎樣的影響。設(shè)想一下:你每分鐘可以賣掉價(jià)值100美元的商品。如果是99.9%的正常運(yùn)行時(shí)間,那么你每年損失的銷售額很可能超過5萬(wàn)美元;相比之下,如果是99.999%的正常運(yùn)行時(shí)間,那么只會(huì)損失526美元。但是這還有其他影響,比如說頻繁停機(jī)有損貴公司的聲譽(yù)。
從公司內(nèi)部的角度來(lái)看,停機(jī)時(shí)間對(duì)生產(chǎn)力大有影響。如果員工們無(wú)法穩(wěn)定地訪問服務(wù)器、網(wǎng)絡(luò)及其他的必要工具,他們就很難順利完成工作。最重要的事情是找到這樣的正常運(yùn)行時(shí)間解決方案:不僅成本合理,還可以確保貴公司不會(huì)在無(wú)法接受的時(shí)間段遭遇停機(jī)。
選購(gòu)解決方案
在你開始選購(gòu)正常運(yùn)行時(shí)間解決方案之前,你必須先關(guān)注貴公司的要求。你得找到這樣的產(chǎn)品:既適用于虛擬環(huán)境和云環(huán)境,又適用于你的所有物理服務(wù)器,而且能夠正確地計(jì)算出正常運(yùn)行時(shí)間,那樣你就能對(duì)基礎(chǔ)架構(gòu)進(jìn)行相應(yīng)的優(yōu)化。
Didaskalou表示,你還應(yīng)該確定一天當(dāng)中哪些時(shí)間段確保正常運(yùn)行時(shí)間最重要,確定應(yīng)該多么頻繁地監(jiān)控應(yīng)用程序和服務(wù),確定在非工作時(shí)間多長(zhǎng)的停機(jī)時(shí)間是可以接受的。而一旦你搞清楚了這些問題,就可以比較分析所有可能的服務(wù)提供商,確保他們的能力與貴公司需要的能力相一致。
Didaskalou說:“我會(huì)建議探究得更深入一些。應(yīng)詢問對(duì)方使用什么監(jiān)控工具,對(duì)方在什么平臺(tái)上運(yùn)行監(jiān)控軟件,針對(duì)監(jiān)控和主機(jī)托管基礎(chǔ)架構(gòu)落實(shí)了什么硬件備份和故障切換系統(tǒng)。”
Didaskalou建議,公司應(yīng)該監(jiān)控和計(jì)算自己實(shí)際的正常運(yùn)行時(shí)間和停機(jī)時(shí)間,確保自己實(shí)際得到的正常運(yùn)行時(shí)間就是掏錢購(gòu)買的那種正常運(yùn)行時(shí)間,因?yàn)檫x擇99.999%而不是99.99%需要一筆相當(dāng)龐大的投入。你進(jìn)行的監(jiān)控越頻繁、越準(zhǔn)確,發(fā)現(xiàn)一致或不一致的可能性也就越大。
學(xué)習(xí)與改進(jìn)
如果公司明白正常運(yùn)行時(shí)間有多重要、哪些是最關(guān)鍵的時(shí)間段,以及需要怎樣長(zhǎng)的正常運(yùn)行時(shí)間才能確保成功,很顯然將處于領(lǐng)先位置,但不能滿足于此。你一定要搞清楚自己的應(yīng)用程序、服務(wù)及其他業(yè)務(wù)工具中哪些最容易出現(xiàn)潛在的停機(jī),然后要想方設(shè)法來(lái)防止停運(yùn)。你還必須充分了解正常運(yùn)行時(shí)間的每一個(gè)方面和你所使用的服務(wù),那樣才能提高效率,并確保客戶始終隨時(shí)可用。Didaskalou還給出了需要牢記的另外幾個(gè)注意事項(xiàng),那樣你就能避免最糟糕的情況。
他勸告:“要知道正常運(yùn)行時(shí)間對(duì)貴公司的業(yè)務(wù)來(lái)說意味著什么,要明確關(guān)鍵時(shí)間段和非工作時(shí)間段。確立可用性方面的目標(biāo),并記入文檔。要在你的操作人員當(dāng)中營(yíng)造恪守職責(zé)、關(guān)注客戶的文化氛圍。部署成熟可靠的工具,要有準(zhǔn)確監(jiān)控、提醒和服務(wù)級(jí)別協(xié)議(SLA)報(bào)告等機(jī)制,從而建立必要的反饋回路。確保你明白自己的SLA意味著什么,還要明白提供商所使用數(shù)據(jù)的完整性。”
文章要點(diǎn)
•正常運(yùn)行時(shí)間極其重要,有助于維護(hù)貴公司的聲譽(yù),讓你的產(chǎn)品和服務(wù)對(duì)客戶來(lái)說隨時(shí)可用,以及在高峰經(jīng)營(yíng)時(shí)間保持高效運(yùn)作。
•多一個(gè)9就無(wú)異于縮短了停機(jī)時(shí)間,只要你用來(lái)計(jì)算貴公司正常運(yùn)行時(shí)間和停機(jī)時(shí)間的服務(wù)很適宜。
•要延長(zhǎng)正常運(yùn)行時(shí)間,關(guān)鍵是知道貴公司需要什么,并不斷監(jiān)控你的應(yīng)用程序和基礎(chǔ)架構(gòu),以便找到薄弱環(huán)節(jié)。
鏈接:更到位的監(jiān)控間隔意味著衡量起來(lái)更精確
一些正常運(yùn)行時(shí)間監(jiān)控解決方案只能在5分鐘或10分鐘的間隔里檢查服務(wù)和應(yīng)用程序,因而可能會(huì)漏過在此期間短暫的停機(jī)時(shí)間段。這可能導(dǎo)致監(jiān)控結(jié)果不準(zhǔn)確,以為正常運(yùn)行時(shí)間比例讓人比較滿意,實(shí)則不然。
要解決這個(gè)問題,最好的辦法就是你自己定期監(jiān)控正常運(yùn)行時(shí)間,或者找到能夠以盡可能小的時(shí)間間隔來(lái)進(jìn)行監(jiān)控的解決方案。如果你沒有不斷監(jiān)控自己的系統(tǒng),最后有可能掏99.999%正常運(yùn)行時(shí)間的錢,一年下來(lái)得到的只有99.99%或更差勁的服務(wù)。
原文鏈接:http://server.51cto.com/Datacenter-309600.htm