首先,我們應該知道什么情況會(huì )產(chǎn)生重復內容?
1、 重復更新內容:這是網(wǎng)站編輯在上傳文章的過(guò)程中多次上傳同一篇文章所致,歸根到底是沒(méi)有寫(xiě)重復標題驗證功能。
2、網(wǎng)站內容多為采集,這種網(wǎng)站內容重復會(huì )被當做采集站直接被百度處理掉,百度新的綠蘿算法就是專(zhuān)門(mén)打擊采集站點(diǎn)的。
3、列表翻頁(yè)和內容分頁(yè):列表翻頁(yè)和內容分頁(yè)標題相同,也會(huì )被判定為相同內容。
4、 多處調用同一篇內容:動(dòng)態(tài)地址偽靜態(tài)會(huì )產(chǎn)生兩個(gè)不同URL但內容相同的情況,同一級欄目互相調用文章也會(huì )產(chǎn)生這樣的情況。
5、網(wǎng)站的固定版塊出現次數太多,很多網(wǎng)站的右側總是固定放一些版塊或欄目,這些欄目的內容從來(lái)不進(jìn)行更新,或者各個(gè)頁(yè)面的右側都是前篇一律的內容,就會(huì )造成頁(yè)面重復度高。
6、未設置404錯誤頁(yè)面,當我們刪除某一個(gè)頁(yè)面的時(shí)候,一定要用404狀態(tài)碼給予用戶(hù)和蜘蛛一定的提示,如果代碼設置錯誤,那么刪除的頁(yè)面在蜘蛛那里是假想存在的,由此一來(lái)就會(huì )多次收錄。
7、生成的RSS訂閱。關(guān)于RSS訂閱大家都很熟悉,對于一些大型新聞網(wǎng)站或是個(gè)人博客之類(lèi)的網(wǎng)站都會(huì )利用RSS訂閱來(lái)生成個(gè)人站點(diǎn)的內容,然而這些個(gè)人站點(diǎn)的內容必然會(huì )被他人轉載,這就會(huì )造成原始源信息和其他網(wǎng)站內容造成重合,蜘蛛重復收錄也就成了可能。
其次,知道了網(wǎng)站重復內容的產(chǎn)生,那么我們應該如何正確處理重復內容呢?
1、減少采集內容的頻率,增加原創(chuàng )內容。
這點(diǎn)很容易理解,世上沒(méi)有不勞而獲的東西,如果網(wǎng)站的發(fā)展要依靠采集的話(huà),那么這個(gè)網(wǎng)站也就沒(méi)有了繼續生存下去的希望。對于網(wǎng)站內容多為采集或簡(jiǎn)單偽原創(chuàng )的網(wǎng)站,建議增加原創(chuàng )文章的內容,寧可百度收錄少一些,也不要讓百度把之前收錄的文章吐出來(lái)。
2、網(wǎng)站固定欄目?jì)热蓦S機展示
可以根據正文的關(guān)鍵詞,隨機調用右側欄目的文章內容,讓每一個(gè)頁(yè)面都有不一樣的內容,避免大量頁(yè)面相似度高的情況出現。
3、減少無(wú)效或是重復的URL。
在我們從網(wǎng)站開(kāi)始的建設過(guò)程當中就盡可能的使URL統一,切勿使用動(dòng)態(tài)頁(yè)面進(jìn)行連接,因為就蜘蛛的角度想問(wèn)題,它是不喜歡動(dòng)態(tài)頁(yè)面的。
4、頁(yè)面設置獨立的Meta標簽
關(guān)鍵詞、標簽、描述,每一個(gè)頁(yè)面都需要不同,可以采用手動(dòng)修改,或者根據一定的規則設置。
5、減少無(wú)效內容之間的鏈接。
很多時(shí)候我們會(huì )對之前的網(wǎng)站結構或是內容頁(yè)進(jìn)行修改,無(wú)形中就會(huì )遺留下一部分被刪除的內容,對于這些東西大家要及時(shí)的清理,利用管理員工具去掉這些無(wú)效的鏈接,以免蜘蛛重復抓取,從而形成類(lèi)似于狀態(tài)碼200的情況。
6、設置404頁(yè)面
告知用戶(hù)和搜索引擎某些頁(yè)面不存在了,防止搜索引擎收錄大量死鏈。