春節將近,辛苦勞作一整年的IT人終于可以著手準備期待已久的春節長假,或收拾行裝準備回家或約上幾多好友安排春節娛樂項目,工作隨著年關將近開始放松下來。春節長假的到來不僅對于人來說,對于IT系統、設備也可以適當進入短暫難得的休息階段。然而越是這種輕松的環境,越容易釀成大問題,過去血粼粼的教訓教導我們無論是對人還是對設備都要做好經受無人值守考驗的準備。
很多企業會建立規模或大或小的機房以承載為業務部門服務的應用,長假期間雖說大部分的企業業務部門都放假,很多企業為了響應和倡導節能減排的綠色IT會選擇讓IT系統都進入停機狀態,但是還是有很多行業無法進入完全停機的狀態,較為明顯的是金融銀行業、石油業、通信業、電商等其他要求在線服務的行業都無法完全進入休假狀態。有這么多無法暫停的業務造成了如今IT系統運維在長假期間的難度,面對這樣的困難IT經理與高層領導年復一年的忙于應付。長此以往,很難保證IT系統的運維工作穩定與高效。
重新認識系統運維
無論工作日還是長假我們都要清楚的認識到IT運維所包含的內容和范圍,當然每個企業都有不同的業務模式,IT系統的運維內容會有所不同,但是廣義上對于IT系統運維理論指導則包含八個主要方面。
1.設備管理,主要是對網絡設備、服務器設備、操作系統運行狀況進行監控和管理;
2.應用/服務管理,包括各種應用支持軟件如數據庫、中間件、群件以及各種通用或特定服務的監控管理,如郵件系統、DNS、Web等的監控與管理;
3.數據/存儲/容災管理,主要針對系統和業務數據進行統一存儲、備份和恢復;
4.業務管理,包含對企業自身核心業務系統運行情況的監控與管理,對于業務的管理, 主要關注該業務系統的 CSF(關鍵成功因素 Critical Success Factors)和KPI(關鍵績效指 標Key Performance Indicators);
5.目錄/內容管理,該部分主要對于企業需要統一發布或因人定制的內容管理和對公共信息的管理,如企業門戶發布的對公對私的公告、行文等;
6.資源資產管理,管理企業中各 IT 系統的資源資產情況,這些資源資產可以是物理存在的,也可以是邏輯存在的;
7.信息安全管理,目前信息安全管理根據國際標準涵蓋了信息安全管理的十大控制方面,36個控制目標和 127種控制方式,如企業安全組織方式、資產分類與控制、人員安全、物理與環境安全、通信與運營安全、訪問控制、業務連續性管理等;
8.日常工作管理,主要用于規范和明確運維人員的崗位職責和工作安排、提供績效考核量化依據、提供解決經驗與知識的積累與共享手段.
IT系統運維是一項系統的工程,內容雖然繁多,不是三言兩語的簡單描述就可盡收與本文。理論畢竟是對具體工作的指導,但明確了工作的重要性和復雜度,能更好的幫助企業規劃自身的運維工作,尤其是長假期間運維工作。
盤點系統、設備,規劃運維點
平日中IT系統的運維工作縱然有完善的巡查、記錄體系,但遇到長假運維人員不能像正常工作日一樣不停的關注系統運行的狀態,因此需要徹底清點盤查系統和設備。清點不意味著簡單計數,常見的有以下幾方面:
1.盤點計數,包括有多少套應用/服務在運行中,多少應用可以再長假期間停止服務。另外,還應業務系統中流轉的業務流程數等能夠量化的業務數據;
2.盤點狀態,主要針對應用/服務和設備兩方面,前者在停機前是否是完整系統、版本號、是否在此次停機過程中部署更新等狀態信息,后者主要記錄硬件設備環境及運行狀態如內存、硬盤狀態是否有損壞更換等;
3.規劃壓力調整設備投入,根據業務在長假期間不間斷服務要求,結合平時休息日業務系統的壓力進行預估,規劃設備投入量保證業務不間斷的基本要求。
4.規劃運維等級和工作分攤,按照工作日正常運維工作等級適當調整級別和工作分配,將必要運維工作進行分攤,盡量減少人員的直接占用。
5.規劃設備檢修更換,針對硬件設備的更換在很多要求IT服務7*24小時的企業中多半會在夜間進行,也有的設備因為應用的重要性和壓力等原因在某些硬件設備允許的情況下是帶病工作的,因此可以規劃長假前將存在隱患的硬件設備進行維護與更換。
6.規劃UPS承載,UPS全稱Uninterruptible Power Supply顧名思義不間斷電源,在長假期間難免遇到突發情況,UPS的作用不言而喻。因為在工作日服務器全部運轉情況下UPS可能維持幾十分鐘或幾小時,而在長假期間能夠保證多少臺服務器運轉多少時間是需要根據實際情況重新計算并規劃的。
案例分析:
圖1是國內某出版機構在很多IT系統中邏輯結構比較線性的“圖書資源管理與發布系統”的邏輯模型,其中最前端的是“發布與存儲系統”采用2U服務器掛載磁盤陣列服務器的簡單模式實現。工作日期間該完整系統的維護人員保持4人左右的團隊規模,而長假期間經過盤點發現:
1.長假期間資源數據來源停止轉換數據;
2.資源維護系統無新數據可維護,老數據可以安排長假結束繼續完成,系統可以暫停;
3.三方數據公司屬于第三方機構無法安排加班等因此無介入數據,系統也可暫停;
因此,只有“發布與存儲系統”和“安全監控系統”需要運行。而“安全監控系統”又與機房內其他應用服務的監控是整體部署,由于業務需要前端系統需要保證長假期間不間斷服務,因此實際上僅需要單獨維護“發布與存儲系統”。如果沒有盤點確實很難在眾多系統中正確辨明真正需要長假期間維護的系統。
▲圖 1出版機構資源管理系統
總之,IT系統運維是一項系統工程,按照IT運維理論中要求的其實遠不止上述6點需要盤點規劃的地方,但是企業是經營之所,要根據自身情況平衡長假期間投入的資源能力而量力而行。切忌長假期間沒有業務使用但仍然開機運行不予維護,很多安全問題尤其是信息安全重大問題往往就在這個時刻發生,所以長假期間的盤點與規劃是必須落實的。本文僅以盤點軟件應用和硬件設備方面拋磚引玉,后續會有更詳細分析與落實的報道,讓長假成為IT運維工作的一個部分,長假前不再讓運維部門抓耳撓腮,長假中不再讓運維部門從上到下忐忑不安。