大約有20%以上的NetBackup備份/恢復失敗是由通訊故障引起的,而不是NetBackup自身的問題。而且在處理這些故障時,用戶往往忽略通訊問題的可能。這是因為一般的應用系統在安裝NetBackup之前已經有業務系統(如,Oracle)在正常運行;用戶一般會進行簡單的名字解析配置, 并使用ping 命令驗證通過。但事實上,上述這些并不能完全保證NetBackup備份/恢復任務 正常運行, 因為:
· NetBackup進程流較一般應用程序更為復雜,要求精心規劃和實施名字解析、端口使用及防火墻策略。
· 備份應用會產生海量猝發網絡流量,要求更為健壯的網絡環境。
癥狀常見的通訊問題可能表現為:
· 同一個客戶端,文件系統備份正常,數據庫備份失敗。
· 新加的Media Server或Client,不能正常工作。
· 備份任務掛起。 常見的通訊問題引起的NetBackup錯誤代碼有:23、24、25、40、41、42等。
要深入分析并解決備份和恢復中的通訊問題,必須深入了解NetBackup的進程流,但如果遵循一些簡單有效的原則,就可以避免、解決大部分的通訊問題。
正確設置NetBackup通訊相關項
首先,要正確設置NetBackup通訊相關項,包括:
1. 確認NetBackup主機名稱。
a. NetBackup主機名可以從hostname (短名)、FQDN (Fully Qualified Domain Name,正式域名、長名 )及 virtual name (集群網絡資源名)中選擇。
b. 一旦確定,堅持統一在所有NetBackup場合(Policy, Server Lists)使用,并保持大小寫一致。
2. 確保每個需要服務器權限的NetBackup主機,出現在Server List中并且名稱無誤。
a. 對于Unix/Linux主機,Server List在/usr/openv/netbackup/bp.conf 配置文件的最前端。
b. 對于Windows主機,Server List在注冊表項HKEY_LOCAL_MACHINE\SOFTWARE\VERITAS\NetBackup\CurrentVersion\Config\Server中
3. 確定NetBackup主機與其它主機通訊時所使用的端口范圍(Port Range)。建議使用默認值:
a. 偵聽端口:13724,1556
b. 向外通訊源端口范圍:512-65535
4. 指定NetBackup通訊用網絡接口,即,Required Interface。當一臺NetBackup主機有多個網絡接口及IP地址時,推薦設置一個固定IP地址由于與其它主機通訊。
a. 對于Unix/Linux主機,在bp.conf中加入一行:REQUIRED_INTERFACE = ip地址或網卡主機名 (所謂網卡主機名可以是現有hostname, FQDN, virtual name,也可以是一個任意名字,該名稱要通過etc/hosts 或 DNS 解析為指定NetBackup通訊用IP地址)
b. 對于Windows主機,可以在注冊表中設置該項:HKEY_LOCAL_MACHINE\SOFTWARE\VERITAS\NetBackup\CurrentVersion\Config\ REQUIRED_INTERFACE
5. 檢查通訊超時設置:
a. Client Read Timeout,這是一個客戶端屬性,缺省值為300秒,對于數據庫備份建議則加到900以上。
b. Client Connection Timeout,這是一個服務器屬性,應當隨著Client Read Timeout的增加而增加。
檢查操作系統及網絡設備的通訊設置
然后,檢查操作系統及網絡設備的通訊設置
1. 確定IP地址 ,包括:
a. 主機是否有多個網卡
b. 主機是否有多個IP地址,和網卡如何對應,是否有浮動IP
2. 檢查名字解析 (etc/hosts, NIS, DNS)
a. 推薦使用本地文件 etc/hosts 作為首選方法,把所有NetBackup主機包含在內,并保持在所有主機上解析一致
b. 如果使用DNS/NIS/WINS ,可以將其作為第二解析方法,同時特別注意要正確設置反向解析。檢查命令為:
i. nslookup –qt=ptrip_address
ii. hostip_address
c. 如果存在名稱和IP地址的多對多關系,建議添加一個NetBackup專用別名,并解析為NetBackup專用IP地址。例如,指明為ClientA, NetBackup專用IP地址為10.10.10.1,則可以可以:
i. 在etc/hosts中加入“10.10.10.1 ClientA ClientA_NBU”
ii. 在 bp.conf中設置“REQUIRED_INTERFACE = ClientA_NBU”
d. 不能忽略回環地址解析,確保 etc/hosts 文件的第一行是“127.0.0.1 Localhost”。
3. 確保網卡與其直接連接的交換機端口工作模式相同(全雙工、半雙工、自動協商),建議使用全雙工。
4. 檢查防火墻設置 ,如果NetBackup使用缺省端口通訊,對于任意一個NetBackup主機,防火墻可以如下設置:
a. 開放其它所有NetBackup主機的使用端口范圍512-65535到 該主機的偵聽端口的內向通訊(Inbound Calls)。
i. NetBackup客戶端的偵聽端口是13724(Vnetd)
ii. NetBackup服務器的偵聽端口是13724和1556(PBX)
b. 開放每一臺NetBackup主機的使用端口范圍512-65535到其它所有NetBackup主機的13724 /1556偵聽端口的外向通訊(Outbound Calls)。 注意:防火墻有多種形式,除專用硬件防火墻外,還可以是策略設置復雜的第三層交換機/路由器或者運行在主機的軟件防火墻。常用通訊檢查工具/命令
1. Ping,用來 檢查IP層通訊
2. telnethost_name port_name 檢查TCP層通訊
a. etc/hosts 定義hostname
b. etc/services 定義port name
3. bpclntcmd 檢查NetBackup應用層通訊
4. AppCritical 網絡診斷工具SAS
a. 下載地址http://www.apparentnetworks.com/sas/330/
b. 運行后需要把生成的xml文件發送給Symantec,來生成測試報告。注意報告中的兩個重要指標不能太高:
i. 丟包率
ii. 重發率
常用通訊相關日志
如果不能獨立解決問題,可以收集如下日志信息,提供給Symantec 技術支持工程師分析:
– bpcd (客戶端NetBackup Communication Daemon)
– bprd (Master server端NetBackup Request Manager)
– OS system log(如Event log, Syslog, Messages)
– Hardware logs (網絡交換機或路由器日志 )
原文鏈接:http://storage.it168.com/a2011/0328/1171/000001171196_all.shtml