Nagios是一種開源軟件網(wǎng)絡監(jiān)視工具。這個軟件工具是免費的、功能強大的和有靈活性的。學習和應用這個軟件比較困難,但是,這個軟件能夠減少跟蹤你的機構(gòu)的IT基礎設施的工作狀況所需要的大量的時間。
我在這個分為兩部分的講座的第一部分主要介紹Nagios的有用性和結(jié)構(gòu)。在第二部分,我將介紹一些配置的例子并提出一些忠告。
要理解Nagios的有用性,考慮一下由一個或者更多的管理員負責的一個典型的IT基礎設施。甚至一家小公司也有許多硬件,這些硬件上運行許多服務和軟件。大型企業(yè)也許有數(shù)百臺或者數(shù)千臺硬件設備在運行。大型企業(yè)也許都有非集中管理的業(yè)務。這就意味著這些非集中管理的IT基礎設施不能在物理上看到其中許多機器。
一般來說,每一臺硬件設備都有一套獨特的軟件產(chǎn)品在上面運行。面對需要監(jiān)視的多種硬件和軟件,管理員不可能關注到每一個具體的物品。在這種情況下,默認的方式就是在發(fā)生服務中斷的時候迅速做出反應。更糟糕的情況是在最終用戶提出投訴的時候才知道發(fā)生了問題。
除了明顯的公共關系問題之外,發(fā)現(xiàn)故障再進行處理本身就存在效率不高的問題。如果早一些發(fā)現(xiàn)問題,也許幾分鐘就可以排除故障。如果發(fā)現(xiàn)得晚,排除故障就可能非常消耗時間。例如,一個數(shù)據(jù)庫的存儲空間用完了。如果在硬盤的最后一個字節(jié)的存儲空間用完之前進行維護就很容易。如果等到由于不能寫入記錄數(shù)據(jù)而造成系統(tǒng)停機之后再進行維護就比較困難。
因此,有一個能夠提供幫助的自動化的工具對于系統(tǒng)管理員來說是非常有用的。這些工具采用網(wǎng)絡管理軟件通用的名稱,所有的工具都有如下的功能:
·不斷跟蹤在基礎設施中運行的所有的服務和機器。
·在小故障發(fā)展成為大故障之前報警。
·從一個中心位置實施管理,減少物理接觸每一臺設備的需求。
·提供一個顯示整個系統(tǒng)狀態(tài)和突出問題的可視化的表現(xiàn)方式。
阻礙網(wǎng)絡管理軟件更廣泛應用的兩個主要問題是:
·價格非常昂貴。
·對于指定環(huán)境的配置需要大量的時間。
Nagios是一種開源軟件的網(wǎng)絡管理工具。這就解決了價格昂貴的問題。這個軟件也需要大量的配置時間。不過,有一些建議可以減輕配置的負擔。這些建議將在以后的文章中介紹。
Nagios的結(jié)構(gòu)
Nagios應用軟件在一臺中心服務器上運行,這個中心服務器可以采用Linux或者Unix操作系統(tǒng)。每一臺需要監(jiān)視的硬件都運行一個與中心服務器進行通信的Nagios軟件的后臺程序。中心服務器根據(jù)讀取的配置文件中的指令與遠程的守護程序進行聯(lián)系,并且指示遠程的守護程序進行必要的檢查。雖然這個應用程序必須在Linux或者Unix操作系統(tǒng)上運行,但是,遠程機器可以是任何能夠與其進行通信的硬件。
根據(jù)遠程機器的應答,Nagios將根據(jù)配置以合適的行動進行回應。根據(jù)需要進行的遠程測試的類型,Nagios將通過本地的機器進行測試(例如,檢查一臺具體的值是否加入到數(shù)據(jù)庫中)。如果檢查返回的值不正確,Nagios將通過一種或者多種方式報警。這也是根據(jù)配置采取的行動。
現(xiàn)在,讓我們進入第二講。我將提供一些配置Nagios工具軟件的例子。
翻譯:東緣