復(fù)制網(wǎng)頁(或者叫重復(fù)內(nèi)容網(wǎng)頁)指的是兩個或多個網(wǎng)頁內(nèi)容相同,或非常相似。
一般來說,搜索引擎不喜歡復(fù)制內(nèi)容網(wǎng)頁,他們會盡量判斷哪一個是原始版本,然后把其他的復(fù)制網(wǎng)頁忽略不計。
有兩點值得注意:
1)復(fù)制網(wǎng)頁的判斷并沒有一個比例。比如說一個網(wǎng)頁上有60%或80%的內(nèi)容和其他網(wǎng)頁相同,就被列為復(fù)制網(wǎng)頁,如果真有一個比例那就簡單多了。
2)復(fù)制網(wǎng)頁并不會帶來懲罰。搜索引擎會丟掉其他的復(fù)制網(wǎng)頁,但不會懲罰搜索引擎認(rèn)為的原始出處。
不過這就有可能對真正原始出處產(chǎn)生懲罰。比如搜索引擎判斷錯誤,把原始出處當(dāng)成復(fù)制的,而把復(fù)制的當(dāng)成原始出處。
復(fù)制內(nèi)容網(wǎng)頁的出現(xiàn)一般有這些可能性:
1)網(wǎng)址規(guī)范化問題所產(chǎn)生的。
2)代理商和零售商的網(wǎng)站經(jīng)常從產(chǎn)品生產(chǎn)商的網(wǎng)站上抄下產(chǎn)品信息。這倒沒什么不對,一般產(chǎn)品生產(chǎn)商也都同意,但是絕大部分代理商,零售商,批發(fā)商都會直接copy,而不做改動。所以這些電子商務(wù)網(wǎng)站上充斥著大量復(fù)制內(nèi)容網(wǎng)頁。
3)打印版本。很多網(wǎng)站提供更適于打印的版本,如果沒有用robots.txt文件,那么這些打印版本網(wǎng)頁就可能會變成復(fù)制網(wǎng)頁。
4)網(wǎng)頁內(nèi)容由RSS生成。有很多網(wǎng)站,尤其是新聞類網(wǎng)站,都是用其他網(wǎng)站的RSS feed來生成網(wǎng)站內(nèi)容的,這些內(nèi)容在原始出處和很多其他網(wǎng)站上都已經(jīng)出現(xiàn)了。
5)電子商務(wù)網(wǎng)站使用Session ID。搜索引擎蜘蛛在不同時間訪問網(wǎng)頁的時候,被給了不同的Session ID,但實際上網(wǎng)頁內(nèi)容是一樣的。不過由于Session ID的參數(shù)不同,就被當(dāng)成了不同的網(wǎng)頁。
6)網(wǎng)頁實質(zhì)內(nèi)容太少。每個網(wǎng)頁上都不可避免的有通用的部分,比如導(dǎo)航條,版權(quán)聲明等等。如果網(wǎng)頁的正文部分太少,數(shù)量還抵不上這些通用部分,就有可能被認(rèn)為是復(fù)制內(nèi)容網(wǎng)頁。
7)文章抄襲轉(zhuǎn)載等。有的時候是其他人抄襲了你的網(wǎng)站內(nèi)容,有的時候是善意的轉(zhuǎn)載,有的時候是作者自愿的向不同的網(wǎng)站發(fā)送文章,這些都有可能造成復(fù)制內(nèi)容網(wǎng)頁。
8)鏡象網(wǎng)站。鏡象網(wǎng)站曾經(jīng)很流行,當(dāng)一個網(wǎng)站太忙太慢的時候,用戶可以通過替代鏡象來看內(nèi)容或下載,這也有造成復(fù)制內(nèi)容網(wǎng)頁的風(fēng)險。
9)產(chǎn)品或服務(wù)類型之間區(qū)別比較小。比如有的網(wǎng)站把自己的產(chǎn)品或服務(wù)按地區(qū)進行分類,但實際上提供給每個地區(qū)的產(chǎn)品或服務(wù)都是一樣的。在這些按地區(qū)分類的網(wǎng)頁上,只是把地名改了改,其他內(nèi)容全都一樣。