亚洲成精品动漫久久精久,九九在线精品视频播放,黄色成人免费观看,三级成人影院,久碰久,四虎成人欧美精品在永久在线

掃一掃
關(guān)注微信公眾號

盤點2012數(shù)據(jù)中心斷網(wǎng)事件的五大故障誘因
2013-01-03   zol

無論多么高遠的夢想還是要找到穩(wěn)固的立足點,云服務(wù)最終還是要從一個數(shù)據(jù)中心被傳輸?shù)搅硗庖粋€數(shù)據(jù)中心,在這個過程仍然擺脫不了需要人、計算機、網(wǎng)絡(luò)、電能、存儲等之間協(xié)同工作。

  人再囧途之泰囧在2012年歲末床下了華語電影的票房記錄,而且還在刷新著記錄。但是在IT界,頻頻爆發(fā)的數(shù)據(jù)中心安全故障事件,也在一次次沖擊著企業(yè)用戶的心理防線。只期待,數(shù)據(jù)中心的安全問題,不要成為人再囧途之"泰囧"。

  云計算服務(wù)在這個時代被吹捧成為IT圣者,所有的服務(wù)都可以被“云”化。但是,當很多公司勇于第一個吃螃蟹之后,卻發(fā)現(xiàn)往往最容易受傷的也是他們。近幾年來,層出不窮的云服務(wù)斷網(wǎng)事件,讓業(yè)界聽得心驚膽寒。

  人們漸漸回歸理想,更加清晰地看清楚云計算的真面目。可以說,無論多么高遠的夢想還是要找到穩(wěn)固的立足點,云服務(wù)最終還是要從一個數(shù)據(jù)中心被傳輸?shù)搅硗庖粋€數(shù)據(jù)中心,在這個過程仍然擺脫不了需要人、計算機、網(wǎng)絡(luò)、電能、存儲等之間協(xié)同工作。這樣一來,整個過程出現(xiàn)錯誤和漏洞就在所難免,再加上天災人禍。所以,啟用云服務(wù)你必須有一定的思想準備,同時要有第二手的解決方案來應(yīng)對。

  編者在這里回顧一下近年來發(fā)生的一系列斷網(wǎng)事件背后的原因。從2009年-2012年之間。也許能讓你看到:即便是計算機出錯似乎在所難免,再保險的措施似乎也只能把安全事件控制在一個小概率范圍內(nèi)。

  斷網(wǎng)類型一:系統(tǒng)故障

  典型事件1:亞馬遜AWS平安夜斷網(wǎng)

  故障原因:彈性負載均衡服務(wù)故障


  2012年12月24日,剛剛過去的圣誕節(jié)平安夜,亞馬遜并沒有讓他們的客戶過得太平安。亞馬遜AWS位于美國東部1區(qū)的數(shù)據(jù)中心發(fā)生故障,其彈性負載均衡服務(wù)(Elastic Load Balancing Service)中斷,導致Netflix和Heroku等網(wǎng)站受到影響。其中,Heroku在之前的AWS美國東部區(qū)域服務(wù)故障中也受到過影響。不過,有些巧合的事情是Netflix的競爭對手,亞馬遜自己的業(yè)務(wù)Amazon Prime Instant Video并未因為這個故障而受到影響。

  12月24日,亞馬遜AWS中斷服務(wù)事件不是第一次,當然也絕非最后一次。

  2012年10月22日,亞馬遜位于北維吉尼亞的網(wǎng)絡(luò)服務(wù)AWS也中斷過一次。其原因與上次相似。事故影響了包括Reddit、Pinterest等知名大網(wǎng)站。中斷影響了彈性魔豆服務(wù),其后是彈性魔豆服務(wù)的控制臺,關(guān)系數(shù)據(jù)庫服務(wù),彈性緩存,彈性計算云EC2,以及云搜索。這次事故讓很多人認為,亞馬遜是應(yīng)該升級其北維尼吉亞數(shù)據(jù)中心的基礎(chǔ)設(shè)施了。

  2011年4月22日,亞馬遜云數(shù)據(jù)中心服務(wù)器大面積宕機,這一事件被認為是亞馬遜史上最為嚴重的云計算安全事件。由于亞馬遜在北弗吉尼亞州的云計算中心宕機,包括回答服務(wù)Quora、新聞服務(wù)Reddit、Hootsuite和位置跟蹤服務(wù)FourSquare在內(nèi)的一些網(wǎng)站受到了影響。亞馬遜官方報告中聲稱,此次事件是由于其EC2系統(tǒng)設(shè)計存在漏洞和設(shè)計缺陷,并且在不斷修復這些已知的漏洞和缺陷來提高EC2(亞馬遜ElasticComputeCloud服務(wù))的競爭力。

  2010年1月,幾乎6萬8千名的Salesforce.com用戶經(jīng)歷了至少1個小時的宕機。Salesforce.com由于自身數(shù)據(jù)中心的"系統(tǒng)性錯誤",包括備份在內(nèi)的全部服務(wù)發(fā)生了短暫癱瘓的情況。這也露出了Salesforce.com不愿公開的鎖定策略:旗下的PaaS平臺、Force.com不能在Salesforce.com之外使用。所以一旦Salesforce.com出現(xiàn)問題,F(xiàn)orce.com同樣會出現(xiàn)問題。所以服務(wù)發(fā)生較長時間中斷,問題將變得很棘手。

  斷網(wǎng)誘因二:自然災害

  典型事件1:亞馬遜北愛爾蘭柏林數(shù)據(jù)中心宕機

  
故障原因:閃電擊中柏林數(shù)據(jù)中心的變壓器

  2011年8月6日,在北愛爾蘭都柏林出現(xiàn)的閃電引起亞馬遜和微軟在歐洲的云計算網(wǎng)絡(luò)因為數(shù)據(jù)中心停電而出現(xiàn)大規(guī)模宕機。閃電擊中都柏林數(shù)據(jù)中心附近的變壓器,導致其爆炸。爆炸引發(fā)火災,使所有公用服務(wù)機構(gòu)的工作暫時陷入中斷,導致整個數(shù)據(jù)中心出現(xiàn)宕機。

  這個數(shù)據(jù)中心是亞馬遜在歐洲唯一的數(shù)據(jù)存儲地,也就是說,EC2云計算平臺客戶在事故期間沒有其他數(shù)據(jù)中心可供臨時使用。宕機事件使得采用亞馬遜EC2云服務(wù)平臺的多家網(wǎng)站長中斷達兩天時間之久。

  典型事件2:卡爾加里數(shù)據(jù)中心火災事故

  故障原因:數(shù)據(jù)中心發(fā)生火災

  2012年7月11日卡爾加里數(shù)據(jù)中心火災事故:加拿大通信服務(wù)供應(yīng)商ShawCommunicationsInc位于卡爾加里阿爾伯塔的數(shù)據(jù)中心發(fā)生了一場火災,造成當?shù)蒯t(yī)院的數(shù)百個手術(shù)延遲。由于該數(shù)據(jù)中心提供管理應(yīng)急服務(wù),此次火災事件影響了支持關(guān)鍵公共服務(wù)主要的備份系統(tǒng)。此次事件為一系列政府機構(gòu)敲響了警鐘,必須確保及時的恢復和擁有故障轉(zhuǎn)移系統(tǒng),同時結(jié)合出臺災害管理計劃。

  典型事件3:超級颶風桑迪襲擊數(shù)據(jù)中心

  故障原因:風暴和洪水導致數(shù)據(jù)中心停止運行

  2012年10月29日,超級颶風桑迪:紐約和新澤西州的數(shù)據(jù)中心都受到了此次颶風的影響,所帶來的惡劣影響包括為曼哈頓下城地區(qū)的洪水和一些設(shè)施的停機,周圍地區(qū)數(shù)據(jù)中心發(fā)電機運行失常。颶風桑迪所帶來的影響超出了一般單一的中斷事故,為受災地區(qū)數(shù)據(jù)中心產(chǎn)業(yè)帶來了規(guī)模空前的災難。事實上,柴油已然成為了數(shù)據(jù)中心恢復工作的生命線,作為備用電源系統(tǒng)接管了整個地區(qū)的負荷,促使特別措施,保持發(fā)電機的燃料。隨著眼前的工作重點逐步轉(zhuǎn)移到災后重建,我們有必要長期就數(shù)據(jù)中心的選址、工程和災難恢復進行探討,這一話題可能將持續(xù)幾個月,甚至幾年。#p#副標題#e#

  斷網(wǎng)誘因三:人為因素

  典型事件1:Hosting.com服務(wù)中斷事故


  故障原因:服務(wù)供應(yīng)商執(zhí)行斷路器操作順序不正確造成的UPS關(guān)閉

  2012年7月28日Hosting.com停運事件:人為錯誤通常被認為是數(shù)據(jù)中心停機的主導因素之一。7月Hosting.com中斷事件造成 1100名客戶服務(wù)中斷就是一個例子。停機事故的發(fā)生是由于該公司位于特拉華州紐瓦克的數(shù)據(jù)中心正進行UPS系統(tǒng)預防性維護,"服務(wù)供應(yīng)商執(zhí)行斷路器操作順序不正確造成的UPS關(guān)閉是造成數(shù)據(jù)中心套房內(nèi)的設(shè)施損失的關(guān)鍵因素之一。"Hosting.com首席執(zhí)行官ArtZeile說。"沒有任何重要的電力系統(tǒng)或備用電源系統(tǒng)出現(xiàn)故障,完全是一種人為的錯誤造成的。"

  典型事件2:微軟爆發(fā)BPOS服務(wù)中斷事件

  故障原因:微軟在美國、歐洲和亞洲的數(shù)據(jù)中心的一個沒有確定的設(shè)置錯誤造成的

  2010年9月,微軟在美國西部幾周時間內(nèi)出現(xiàn)至少三次托管服務(wù)中斷事件向用戶致歉。這是微軟首次爆出重大的云計算事件。

  事故當時,用戶訪問BPOS(Business Productivity Online Suite)服務(wù)的時候,如果使用微軟北美設(shè)施訪問服務(wù)的客戶可能遇到了問題,這個故障持續(xù)了兩個小時。雖然,后來微軟工程師聲稱解決了這一問題,但是沒有解決根本問題,因而又產(chǎn)生了9月3日和9月7日服務(wù)再次中斷。

  微軟的Clint Patterson說,這次數(shù)據(jù)突破事件是由于微軟在美國、歐洲和亞洲的數(shù)據(jù)中心的一個沒有確定的設(shè)置錯誤造成的。BPOS軟件中的離線地址簿在"非常特別的情況下"提供給了非授權(quán)用戶。這個地址簿包含企業(yè)的聯(lián)絡(luò)人信息。

  微軟稱,這個錯誤在發(fā)現(xiàn)之后兩個小時就修復了。微軟稱,它擁有跟蹤設(shè)施,使它能夠與那些錯誤地下載這些數(shù)據(jù)的人取得聯(lián)系以便清除這些數(shù)據(jù)。

  斷網(wǎng)誘因三:人為因素

  典型事件1:Hosting.com服務(wù)中斷事故


  故障原因:服務(wù)供應(yīng)商執(zhí)行斷路器操作順序不正確造成的UPS關(guān)閉

  2012年7月28日Hosting.com停運事件:人為錯誤通常被認為是數(shù)據(jù)中心停機的主導因素之一。7月Hosting.com中斷事件造成 1100名客戶服務(wù)中斷就是一個例子。停機事故的發(fā)生是由于該公司位于特拉華州紐瓦克的數(shù)據(jù)中心正進行UPS系統(tǒng)預防性維護,"服務(wù)供應(yīng)商執(zhí)行斷路器操作順序不正確造成的UPS關(guān)閉是造成數(shù)據(jù)中心套房內(nèi)的設(shè)施損失的關(guān)鍵因素之一。"Hosting.com首席執(zhí)行官ArtZeile說。"沒有任何重要的電力系統(tǒng)或備用電源系統(tǒng)出現(xiàn)故障,完全是一種人為的錯誤造成的。"

  典型事件2:微軟爆發(fā)BPOS服務(wù)中斷事件

  故障原因:微軟在美國、歐洲和亞洲的數(shù)據(jù)中心的一個沒有確定的設(shè)置錯誤造成的

  2010年9月,微軟在美國西部幾周時間內(nèi)出現(xiàn)至少三次托管服務(wù)中斷事件向用戶致歉。這是微軟首次爆出重大的云計算事件。

  事故當時,用戶訪問BPOS(Business Productivity Online Suite)服務(wù)的時候,如果使用微軟北美設(shè)施訪問服務(wù)的客戶可能遇到了問題,這個故障持續(xù)了兩個小時。雖然,后來微軟工程師聲稱解決了這一問題,但是沒有解決根本問題,因而又產(chǎn)生了9月3日和9月7日服務(wù)再次中斷。

  微軟的Clint Patterson說,這次數(shù)據(jù)突破事件是由于微軟在美國、歐洲和亞洲的數(shù)據(jù)中心的一個沒有確定的設(shè)置錯誤造成的。BPOS軟件中的離線地址簿在"非常特別的情況下"提供給了非授權(quán)用戶。這個地址簿包含企業(yè)的聯(lián)絡(luò)人信息。

  微軟稱,這個錯誤在發(fā)現(xiàn)之后兩個小時就修復了。微軟稱,它擁有跟蹤設(shè)施,使它能夠與那些錯誤地下載這些數(shù)據(jù)的人取得聯(lián)系以便清除這些數(shù)據(jù)。

  斷網(wǎng)誘因五:系統(tǒng)Bug

  典型事件1:Azure全球中斷服務(wù)


  事故原因:軟件Bug導致閏年時間計算不正確

  2012年2月28日,由于"閏年bug"導致微軟Azure在全球范圍內(nèi)大面積服務(wù)中斷,中斷時間超過24小時。雖然微軟表示該軟件BUG是由于閏年時間計算不正確導致,但這一事件激起了許多用戶的強烈反應(yīng),許多人要求微軟為此做出更合理詳細的解釋。

  典型事件2:Gmail電子郵箱爆發(fā)全球性故障

  事故原因:數(shù)據(jù)中心例行性維護時,新程序代碼的副作用

  2009年2月24日,谷歌的Gmail電子郵箱爆發(fā)全球性故障,服務(wù)中斷時間長達4小時。谷歌解釋事故的原因:在位于歐洲的數(shù)據(jù)中心例行性維護之時,有些新的程序代碼(會試圖把地理相近的數(shù)據(jù)集中于所有人身上)有些副作用,導致歐洲另一個資料中心過載,于是連鎖效應(yīng)就擴及到其它數(shù)據(jù)中心接口,最終釀成全球性的斷線,導致其他數(shù)據(jù)中心也無法正常工作。

  典型事件3:“5.19斷網(wǎng)事件”

  事故原因:客戶端軟件Bug,上網(wǎng)終端頻繁發(fā)起域名解析請求,引發(fā)DNS擁塞

  2009年5月19日的21:50,江蘇、安徽、廣西、海南、甘肅、浙江等六省用戶申告訪問網(wǎng)站速度變慢或無法訪問。經(jīng)過工信部相關(guān)單位調(diào)查通報稱,此次全國六省網(wǎng)絡(luò)中斷事故,原因是國內(nèi)某公司推出的客戶端軟件存在缺陷,在該公司域名授權(quán)服務(wù)器工作異常的情況下,導致安裝該軟件的上網(wǎng)終端頻繁發(fā)起域名解析請求,引發(fā)DNS擁塞,造成大量用戶訪問網(wǎng)站慢或網(wǎng)頁打不開。

  其中,DN SPod是國內(nèi)知名的域名解析服務(wù)商之一的N SPod公司,服務(wù)數(shù)家知名網(wǎng)站的域名解析服務(wù)。此次攻擊導致DN SPod公司所屬的6臺dns域名解析服務(wù)器癱瘓,直接造成包括暴風影音在內(nèi)的多家網(wǎng)絡(luò)服務(wù)商的域名解析系統(tǒng)癱瘓,由此引發(fā)網(wǎng)絡(luò)擁塞,造成大量用戶不能正常上網(wǎng)。 工信部指出,此次事件暴露出域名解析服務(wù)成為目前網(wǎng)絡(luò)安全的薄弱環(huán)節(jié),指示各單位要加強對域名解析服務(wù)的安全保護。

  小結(jié):啟用云服務(wù)的公司,很大程度是考慮這種服務(wù)可以更加編輯,性價比高。但是,這樣的考慮如果是以降低安全性作為代價,估計很多公司老大不會同意。層出不窮的云服務(wù)斷網(wǎng)事件引起了云端安全性的擔憂。

  目前來看,解決的辦法可以從幾個角度出發(fā),對于企業(yè)級客戶來說,務(wù)必在采用云服務(wù)的同時定期備份云端的數(shù)據(jù),擁有第二套解決方案按,以備不時之需。而對于云服務(wù)提供商來說,既然各種斷網(wǎng)事件是在所難免的,那就必須思考一個對策,將自己用戶的損失降到最低,對斷網(wǎng)事件的響應(yīng)效率要提高。

  政府部門則具有監(jiān)督和提醒的職責,云服務(wù)相關(guān)的法律法律要相繼出臺和不斷完善,并且提醒用戶百分之百可靠的云計算服務(wù)目前還不存在。

熱詞搜索:

上一篇:數(shù)據(jù)的可用性和安全性正在改變企業(yè)的IT生態(tài)
下一篇:應(yīng)對管理挑戰(zhàn) 徹底解決虛擬服務(wù)器安全困擾

分享到: 收藏