大約有20%以上的NetBackup備份/恢復(fù)失敗是由通訊故障引起的,而不是NetBackup自身的問題。而且在處理這些故障時(shí),用戶往往忽略通訊問題的可能。這是因?yàn)橐话愕膽?yīng)用系統(tǒng)在安裝NetBackup之前已經(jīng)有業(yè)務(wù)系統(tǒng)(如,Oracle)在正常運(yùn)行;用戶一般會(huì)進(jìn)行簡單的名字解析配置, 并使用ping 命令驗(yàn)證通過。但事實(shí)上,上述這些并不能完全保證NetBackup備份/恢復(fù)任務(wù) 正常運(yùn)行, 因?yàn)椋?/b>
· NetBackup進(jìn)程流較一般應(yīng)用程序更為復(fù)雜,要求精心規(guī)劃和實(shí)施名字解析、端口使用及防火墻策略。
· 備份應(yīng)用會(huì)產(chǎn)生海量猝發(fā)網(wǎng)絡(luò)流量,要求更為健壯的網(wǎng)絡(luò)環(huán)境。
癥狀常見的通訊問題可能表現(xiàn)為:
· 同一個(gè)客戶端,文件系統(tǒng)備份正常,數(shù)據(jù)庫備份失敗。
· 新加的Media Server或Client,不能正常工作。
· 備份任務(wù)掛起。 常見的通訊問題引起的NetBackup錯(cuò)誤代碼有:23、24、25、40、41、42等。
要深入分析并解決備份和恢復(fù)中的通訊問題,必須深入了解NetBackup的進(jìn)程流,但如果遵循一些簡單有效的原則,就可以避免、解決大部分的通訊問題。
正確設(shè)置NetBackup通訊相關(guān)項(xiàng)
首先,要正確設(shè)置NetBackup通訊相關(guān)項(xiàng),包括:
1. 確認(rèn)NetBackup主機(jī)名稱。
a. NetBackup主機(jī)名可以從hostname (短名)、FQDN (Fully Qualified Domain Name,正式域名、長名 )及 virtual name (集群網(wǎng)絡(luò)資源名)中選擇。
b. 一旦確定,堅(jiān)持統(tǒng)一在所有NetBackup場合(Policy, Server Lists)使用,并保持大小寫一致。
2. 確保每個(gè)需要服務(wù)器權(quán)限的NetBackup主機(jī),出現(xiàn)在Server List中并且名稱無誤。
a. 對(duì)于Unix/Linux主機(jī),Server List在/usr/openv/netbackup/bp.conf 配置文件的最前端。
b. 對(duì)于Windows主機(jī),Server List在注冊(cè)表項(xiàng)HKEY_LOCAL_MACHINE\SOFTWARE\VERITAS\NetBackup\CurrentVersion\Config\Server中
3. 確定NetBackup主機(jī)與其它主機(jī)通訊時(shí)所使用的端口范圍(Port Range)。建議使用默認(rèn)值:
a. 偵聽端口:13724,1556
b. 向外通訊源端口范圍:512-65535
4. 指定NetBackup通訊用網(wǎng)絡(luò)接口,即,Required Interface。當(dāng)一臺(tái)NetBackup主機(jī)有多個(gè)網(wǎng)絡(luò)接口及IP地址時(shí),推薦設(shè)置一個(gè)固定IP地址由于與其它主機(jī)通訊。
a. 對(duì)于Unix/Linux主機(jī),在bp.conf中加入一行:REQUIRED_INTERFACE = ip地址或網(wǎng)卡主機(jī)名 (所謂網(wǎng)卡主機(jī)名可以是現(xiàn)有hostname, FQDN, virtual name,也可以是一個(gè)任意名字,該名稱要通過etc/hosts 或 DNS 解析為指定NetBackup通訊用IP地址)
b. 對(duì)于Windows主機(jī),可以在注冊(cè)表中設(shè)置該項(xiàng):HKEY_LOCAL_MACHINE\SOFTWARE\VERITAS\NetBackup\CurrentVersion\Config\ REQUIRED_INTERFACE
5. 檢查通訊超時(shí)設(shè)置:
a. Client Read Timeout,這是一個(gè)客戶端屬性,缺省值為300秒,對(duì)于數(shù)據(jù)庫備份建議則加到900以上。
b. Client Connection Timeout,這是一個(gè)服務(wù)器屬性,應(yīng)當(dāng)隨著Client Read Timeout的增加而增加。
檢查操作系統(tǒng)及網(wǎng)絡(luò)設(shè)備的通訊設(shè)置
然后,檢查操作系統(tǒng)及網(wǎng)絡(luò)設(shè)備的通訊設(shè)置
1. 確定IP地址 ,包括:
a. 主機(jī)是否有多個(gè)網(wǎng)卡
b. 主機(jī)是否有多個(gè)IP地址,和網(wǎng)卡如何對(duì)應(yīng),是否有浮動(dòng)IP
2. 檢查名字解析 (etc/hosts, NIS, DNS)
a. 推薦使用本地文件 etc/hosts 作為首選方法,把所有NetBackup主機(jī)包含在內(nèi),并保持在所有主機(jī)上解析一致
b. 如果使用DNS/NIS/WINS ,可以將其作為第二解析方法,同時(shí)特別注意要正確設(shè)置反向解析。檢查命令為:
i. nslookup –qt=ptrip_address
ii. hostip_address
c. 如果存在名稱和IP地址的多對(duì)多關(guān)系,建議添加一個(gè)NetBackup專用別名,并解析為NetBackup專用IP地址。例如,指明為ClientA, NetBackup專用IP地址為10.10.10.1,則可以可以:
i. 在etc/hosts中加入“10.10.10.1 ClientA ClientA_NBU”
ii. 在 bp.conf中設(shè)置“REQUIRED_INTERFACE = ClientA_NBU”
d. 不能忽略回環(huán)地址解析,確保 etc/hosts 文件的第一行是“127.0.0.1 Localhost”。
3. 確保網(wǎng)卡與其直接連接的交換機(jī)端口工作模式相同(全雙工、半雙工、自動(dòng)協(xié)商),建議使用全雙工。
4. 檢查防火墻設(shè)置 ,如果NetBackup使用缺省端口通訊,對(duì)于任意一個(gè)NetBackup主機(jī),防火墻可以如下設(shè)置:
a. 開放其它所有NetBackup主機(jī)的使用端口范圍512-65535到 該主機(jī)的偵聽端口的內(nèi)向通訊(Inbound Calls)。
i. NetBackup客戶端的偵聽端口是13724(Vnetd)
ii. NetBackup服務(wù)器的偵聽端口是13724和1556(PBX)
b. 開放每一臺(tái)NetBackup主機(jī)的使用端口范圍512-65535到其它所有NetBackup主機(jī)的13724 /1556偵聽端口的外向通訊(Outbound Calls)。 注意:防火墻有多種形式,除專用硬件防火墻外,還可以是策略設(shè)置復(fù)雜的第三層交換機(jī)/路由器或者運(yùn)行在主機(jī)的軟件防火墻。常用通訊檢查工具/命令
1. Ping,用來 檢查IP層通訊
2. telnethost_name port_name 檢查TCP層通訊
a. etc/hosts 定義hostname
b. etc/services 定義port name
3. bpclntcmd 檢查NetBackup應(yīng)用層通訊
4. AppCritical 網(wǎng)絡(luò)診斷工具SAS
a. 下載地址http://www.apparentnetworks.com/sas/330/
b. 運(yùn)行后需要把生成的xml文件發(fā)送給Symantec,來生成測試報(bào)告。注意報(bào)告中的兩個(gè)重要指標(biāo)不能太高:
i. 丟包率
ii. 重發(fā)率
常用通訊相關(guān)日志
如果不能獨(dú)立解決問題,可以收集如下日志信息,提供給Symantec 技術(shù)支持工程師分析:
– bpcd (客戶端NetBackup Communication Daemon)
– bprd (Master server端NetBackup Request Manager)
– OS system log(如Event log, Syslog, Messages)
– Hardware logs (網(wǎng)絡(luò)交換機(jī)或路由器日志 )
原文鏈接:http://storage.it168.com/a2011/0328/1171/000001171196_all.shtml