導讀:首先我們要了解什么是robots文件,比如,在安徽人才庫的首頁網(wǎng)址后面加入“/robots.txt”,即可打開該網(wǎng)站的robots文件,如圖所示,文件里顯示的內容是要告訴搜索引擎哪些網(wǎng)頁希望被抓取,哪些不希望被抓取。因為網(wǎng)站中有一些無關緊要的網(wǎng)頁,如“給我留言”或“聯(lián)系方式”等網(wǎng)頁,他們并不參與SEO排名,只是為了給用戶看,此時可以利用robots文件把他們屏蔽,即告訴搜索引擎不要抓取該頁面。
robots 主動告訴搜索引擎 蜘蛛抓取 百度蜘蛛 教程
蜘蛛抓取網(wǎng)頁的精力是有限的,即它每次來抓取網(wǎng)站,不會把網(wǎng)站所有文章、所有頁面一次性全部抓取,尤其是當網(wǎng)站的內容越來越多時,它每次只能抓取一部分。那么怎樣讓他在有限的時間和精力下每次抓取更多希望被抓去的內容,從而提高效率呢?
這個時候我們就應該利用robots文件。小型網(wǎng)站沒有該文件無所謂,但對于中大型網(wǎng)站來說,robots文件尤為重要,因為這些網(wǎng)站數(shù)據(jù)庫非常龐大,蜘蛛來時,要像對待好朋友一樣給它看最重要的東西,因為這個朋友精力有限,每次來都不能把所有的東西看一遍,所以就需要robots文件屏蔽一些無關緊要的東西。由于種種原因,某些文件不想被搜索引擎抓取,如處于隱私保護的內容,也可以用robots文件把搜索引擎屏蔽。
當然,有些人會問,如果robots文件沒用好或出錯了,會影響整個網(wǎng)站的收錄,那為什么還有這個文件呢?這句話中的“出錯了”是指將不該屏蔽的網(wǎng)址屏蔽了,導致蜘蛛不能抓取這些頁面,這樣搜索引擎就不會收錄他們,那何談排名呢?所以robots問價的格式一定要正確。下面我們一起來了解robots文件的用法:
1.“user-agent:*disallow:/”表示“禁止所有搜索引擎訪問網(wǎng)站的任何部分”,這相當于該網(wǎng)站在搜索引擎里沒有記錄,也就談不上排名。
2.“user-agent:*disallow:”表示“允許所有的robots訪問”,即允許蜘蛛任意抓取并收錄該網(wǎng)站。這里需要注意,前兩條語法之間只相差一個“/”。
3.“user-agent:badbot disallow:/”表示“禁止某個搜索引擎的訪問”。
4.“user-agent:baiduspider disallow:user-agent:*disallow:/”表示“允許某個搜索引擎的訪問”。這里面的“baiduspider”是百度蜘蛛的名稱,這條語法即是允許百度抓取該網(wǎng)站,而不允許其他搜索引擎抓取。