最近遇到一個怪異服務器故障,費了好大勁才排除,現在拿來跟大家分享一下。
服務器故障現象
一臺Intel奔騰3/550服務器,近期頻繁出現幾次藍屏幕死機故障。趁死機關閉的機會,將內存由原來的128M升級到512M(普通內存),并且在系統CMOS設置中選擇裝入(Load)最優參數設置,對內存每個單元進行檢測。怪異服務器故障出現了,當我開機后,內存檢測正常,但是屏幕提示須重新SETUP,按指定的[F2]鍵后卻死機。我裝個內存條招誰惹誰了,怎么會死機?而且內存檢測正常啊?
服務器故障處理
服務器出了故障就要解決,哪怕是怪異服務器故障。按照縮小故障源的思路,換回原來的內存條,逐步去掉各個部分(軟驅、硬盤、光驅等),可是這個怪異服務器故障依然存在。分析可能與系統SETUP設置有關,特別是關于對內存每個單元進行檢測的設置。于是,拔出電池,對電池插腳短接放電,沒有奏效。看來,這個怪異服務器故障還真是頑固。后來,找到主板清除CMOS跳線設置,將插腳線由1-2改到2-3一會兒,然后恢復原位,開機正常(編者提示:不要輕易拔出電池,而是要找CMOS清除跳線)。再次將內存升級,調整CMOS SETUP設置,特別注意到對內存的檢測,設置為檢測到每兆,至此系統完全恢復正常。
服務器故障經驗
后來我一分析,這個怪異服務器故障發生的根本原因是服務器的內存缺省設置為ECC(帶校驗),由于使用普通不帶校驗的內存,而系統中設置每個單元都進行檢測,所以導致了上面的故障。排除的方法是清除CMOS設置,調整有關參數設置。另外,CMOSSETUP裝入最優參數設置通常有2種:一種是BIOS優化參數,這種參數穩定性最好;另一種是SETUP優化參數,優化整個系統,但是需要系統支持,其穩定性不能保證最好。所以,當系統出現故障時,不妨先將穩定性最好的參數裝入,解決問題后再行恢復。