Nagios是一種開源軟件網絡監視工具。這個軟件工具是免費的、功能強大的和有靈活性的。學習和應用這個軟件比較困難,但是,這個軟件能夠減少跟蹤你的機構的IT基礎設施的工作狀況所需要的大量的時間。
我在這個分為兩部分的講座的第一部分主要介紹Nagios的有用性和結構。在第二部分,我將介紹一些配置的例子并提出一些忠告。
要理解Nagios的有用性,考慮一下由一個或者更多的管理員負責的一個典型的IT基礎設施。甚至一家小公司也有許多硬件,這些硬件上運行許多服務和軟件。大型企業也許有數百臺或者數千臺硬件設備在運行。大型企業也許都有非集中管理的業務。這就意味著這些非集中管理的IT基礎設施不能在物理上看到其中許多機器。
一般來說,每一臺硬件設備都有一套獨特的軟件產品在上面運行。面對需要監視的多種硬件和軟件,管理員不可能關注到每一個具體的物品。在這種情況下,默認的方式就是在發生服務中斷的時候迅速做出反應。更糟糕的情況是在最終用戶提出投訴的時候才知道發生了問題。
除了明顯的公共關系問題之外,發現故障再進行處理本身就存在效率不高的問題。如果早一些發現問題,也許幾分鐘就可以排除故障。如果發現得晚,排除故障就可能非常消耗時間。例如,一個數據庫的存儲空間用完了。如果在硬盤的最后一個字節的存儲空間用完之前進行維護就很容易。如果等到由于不能寫入記錄數據而造成系統停機之后再進行維護就比較困難。
因此,有一個能夠提供幫助的自動化的工具對于系統管理員來說是非常有用的。這些工具采用網絡管理軟件通用的名稱,所有的工具都有如下的功能:
·不斷跟蹤在基礎設施中運行的所有的服務和機器。
·在小故障發展成為大故障之前報警。
·從一個中心位置實施管理,減少物理接觸每一臺設備的需求。
·提供一個顯示整個系統狀態和突出問題的可視化的表現方式。
阻礙網絡管理軟件更廣泛應用的兩個主要問題是:
·價格非常昂貴。
·對于指定環境的配置需要大量的時間。
Nagios是一種開源軟件的網絡管理工具。這就解決了價格昂貴的問題。這個軟件也需要大量的配置時間。不過,有一些建議可以減輕配置的負擔。這些建議將在以后的文章中介紹。
Nagios的結構
Nagios應用軟件在一臺中心服務器上運行,這個中心服務器可以采用Linux或者Unix操作系統。每一臺需要監視的硬件都運行一個與中心服務器進行通信的Nagios軟件的后臺程序。中心服務器根據讀取的配置文件中的指令與遠程的守護程序進行聯系,并且指示遠程的守護程序進行必要的檢查。雖然這個應用程序必須在Linux或者Unix操作系統上運行,但是,遠程機器可以是任何能夠與其進行通信的硬件。
根據遠程機器的應答,Nagios將根據配置以合適的行動進行回應。根據需要進行的遠程測試的類型,Nagios將通過本地的機器進行測試(例如,檢查一臺具體的值是否加入到數據庫中)。如果檢查返回的值不正確,Nagios將通過一種或者多種方式報警。這也是根據配置采取的行動。
現在,讓我們進入第二講。我將提供一些配置Nagios工具軟件的例子。
翻譯:東緣