大約有20%以上的NetBackup備份/恢復(fù)失敗是由通訊故障引起的,而不是NetBackup自身的問題。而且在處理這些故障時,用戶往往忽略通訊問題的可能。這是因為一般的應(yīng)用系統(tǒng)在安裝NetBackup之前已經(jīng)有業(yè)務(wù)系統(tǒng)(如,Oracle)在正常運行;用戶一般會進行簡單的名字解析配置, 并使用ping 命令驗證通過。但事實上,上述這些并不能完全保證NetBackup備份/恢復(fù)任務(wù) 正常運行, 因為:
· NetBackup進程流較一般應(yīng)用程序更為復(fù)雜,要求精心規(guī)劃和實施名字解析、端口使用及防火墻策略。
· 備份應(yīng)用會產(chǎn)生海量猝發(fā)網(wǎng)絡(luò)流量,要求更為健壯的網(wǎng)絡(luò)環(huán)境。
癥狀常見的通訊問題可能表現(xiàn)為:
· 同一個客戶端,文件系統(tǒng)備份正常,數(shù)據(jù)庫備份失敗。
· 新加的Media Server或Client,不能正常工作。
· 備份任務(wù)掛起。 常見的通訊問題引起的NetBackup錯誤代碼有:23、24、25、40、41、42等。
要深入分析并解決備份和恢復(fù)中的通訊問題,必須深入了解NetBackup的進程流,但如果遵循一些簡單有效的原則,就可以避免、解決大部分的通訊問題。
正確設(shè)置NetBackup通訊相關(guān)項
首先,要正確設(shè)置NetBackup通訊相關(guān)項,包括:
1. 確認NetBackup主機名稱。
a. NetBackup主機名可以從hostname (短名)、FQDN (Fully Qualified Domain Name,正式域名、長名 )及 virtual name (集群網(wǎng)絡(luò)資源名)中選擇。
b. 一旦確定,堅持統(tǒng)一在所有NetBackup場合(Policy, Server Lists)使用,并保持大小寫一致。
2. 確保每個需要服務(wù)器權(quán)限的NetBackup主機,出現(xiàn)在Server List中并且名稱無誤。
a. 對于Unix/Linux主機,Server List在/usr/openv/netbackup/bp.conf 配置文件的最前端。
b. 對于Windows主機,Server List在注冊表項HKEY_LOCAL_MACHINE\SOFTWARE\VERITAS\NetBackup\CurrentVersion\Config\Server中
3. 確定NetBackup主機與其它主機通訊時所使用的端口范圍(Port Range)。建議使用默認值:
a. 偵聽端口:13724,1556
b. 向外通訊源端口范圍:512-65535
4. 指定NetBackup通訊用網(wǎng)絡(luò)接口,即,Required Interface。當一臺NetBackup主機有多個網(wǎng)絡(luò)接口及IP地址時,推薦設(shè)置一個固定IP地址由于與其它主機通訊。
a. 對于Unix/Linux主機,在bp.conf中加入一行:REQUIRED_INTERFACE = ip地址或網(wǎng)卡主機名 (所謂網(wǎng)卡主機名可以是現(xiàn)有hostname, FQDN, virtual name,也可以是一個任意名字,該名稱要通過etc/hosts 或 DNS 解析為指定NetBackup通訊用IP地址)
b. 對于Windows主機,可以在注冊表中設(shè)置該項:HKEY_LOCAL_MACHINE\SOFTWARE\VERITAS\NetBackup\CurrentVersion\Config\ REQUIRED_INTERFACE
5. 檢查通訊超時設(shè)置:
a. Client Read Timeout,這是一個客戶端屬性,缺省值為300秒,對于數(shù)據(jù)庫備份建議則加到900以上。
b. Client Connection Timeout,這是一個服務(wù)器屬性,應(yīng)當隨著Client Read Timeout的增加而增加。
檢查操作系統(tǒng)及網(wǎng)絡(luò)設(shè)備的通訊設(shè)置
然后,檢查操作系統(tǒng)及網(wǎng)絡(luò)設(shè)備的通訊設(shè)置
1. 確定IP地址 ,包括:
a. 主機是否有多個網(wǎng)卡
b. 主機是否有多個IP地址,和網(wǎng)卡如何對應(yīng),是否有浮動IP
2. 檢查名字解析 (etc/hosts, NIS, DNS)
a. 推薦使用本地文件 etc/hosts 作為首選方法,把所有NetBackup主機包含在內(nèi),并保持在所有主機上解析一致
b. 如果使用DNS/NIS/WINS ,可以將其作為第二解析方法,同時特別注意要正確設(shè)置反向解析。檢查命令為:
i. nslookup –qt=ptrip_address
ii. hostip_address
c. 如果存在名稱和IP地址的多對多關(guān)系,建議添加一個NetBackup專用別名,并解析為NetBackup專用IP地址。例如,指明為ClientA, NetBackup專用IP地址為10.10.10.1,則可以可以:
i. 在etc/hosts中加入“10.10.10.1 ClientA ClientA_NBU”
ii. 在 bp.conf中設(shè)置“REQUIRED_INTERFACE = ClientA_NBU”
d. 不能忽略回環(huán)地址解析,確保 etc/hosts 文件的第一行是“127.0.0.1 Localhost”。
3. 確保網(wǎng)卡與其直接連接的交換機端口工作模式相同(全雙工、半雙工、自動協(xié)商),建議使用全雙工。
4. 檢查防火墻設(shè)置 ,如果NetBackup使用缺省端口通訊,對于任意一個NetBackup主機,防火墻可以如下設(shè)置:
a. 開放其它所有NetBackup主機的使用端口范圍512-65535到 該主機的偵聽端口的內(nèi)向通訊(Inbound Calls)。
i. NetBackup客戶端的偵聽端口是13724(Vnetd)
ii. NetBackup服務(wù)器的偵聽端口是13724和1556(PBX)
b. 開放每一臺NetBackup主機的使用端口范圍512-65535到其它所有NetBackup主機的13724 /1556偵聽端口的外向通訊(Outbound Calls)。 注意:防火墻有多種形式,除專用硬件防火墻外,還可以是策略設(shè)置復(fù)雜的第三層交換機/路由器或者運行在主機的軟件防火墻。常用通訊檢查工具/命令
1. Ping,用來 檢查IP層通訊
2. telnethost_name port_name 檢查TCP層通訊
a. etc/hosts 定義hostname
b. etc/services 定義port name
3. bpclntcmd 檢查NetBackup應(yīng)用層通訊
4. AppCritical 網(wǎng)絡(luò)診斷工具SAS
a. 下載地址http://www.apparentnetworks.com/sas/330/
b. 運行后需要把生成的xml文件發(fā)送給Symantec,來生成測試報告。注意報告中的兩個重要指標不能太高:
i. 丟包率
ii. 重發(fā)率
常用通訊相關(guān)日志
如果不能獨立解決問題,可以收集如下日志信息,提供給Symantec 技術(shù)支持工程師分析:
– bpcd (客戶端NetBackup Communication Daemon)
– bprd (Master server端NetBackup Request Manager)
– OS system log(如Event log, Syslog, Messages)
– Hardware logs (網(wǎng)絡(luò)交換機或路由器日志 )
原文鏈接:http://storage.it168.com/a2011/0328/1171/000001171196_all.shtml