robots在英語之中的意思是機器人,Robots協議(也稱為爬蟲協議、機器人協議等)全稱是“網絡爬蟲排除標準”(Robots Exclusion Protocol),網站通過Robots協議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。Robots協議的本質是網站和搜索引擎爬蟲的溝通方式,用來指導搜索引擎更好地抓取網站內容,而不是作為搜索引擎之間互相限制和不正當競爭的工具。
當搜索引擎在訪問一個站點時,首先檢索的將是該站點根目錄下面的robots.txt文件(如果沒有我們可以建立一個空白的文本文檔,命名為robots.txt放在網站的根目錄下即可?。绻宋募嬖?,那么搜索引擎將率先訪問并識別此文件的規則,它會按照此文件里面的規則進行爬??!下面詳細敘述一下相關語法:
1、允許所有搜索引擎訪問網站的所有部分:
User-agent:*
Disallow:
2、禁止所有搜索引擎訪問網站的所有部分:
User-agent:*
Disallow:/
3、如果不需要某一個搜索引擎抓取的話,比如百度,禁止百度索引我們的網站
User-agent:Baiduspider
Disallow:/
注:如果我們需要禁止Google索引我們的網站,就把User-agent:蜘蛛名字改成 谷歌的Googlebot即可!
4、如果我們禁止除Google外的一切搜索引擎索引我們的網站
User-agent:Googlebot
Disallow:
User-agent:*
Disallow:/
5、如果我們需要禁止蜘蛛訪問某一個目錄,比如禁止login、newtravel等目錄被索引
User-agent:*
Disallow:/login/
Disallow:/newtravel/
6、如果我們允許蜘蛛訪問網站某個目錄中的某些特定網址
User-agent:*
Allow:/login/my
Allow:/newtravel/html
Disallow:/login/
Disallow:/newtravel/
7、很多網站的robots.txt里的Disallow或者Allow里面會有很多的符號,比如星號、問 號什么的,如果使用“*”號,主要是限制訪問某個后綴的域名,比如禁止訪問/html/ 目錄下的所有以“.htm”為后綴的URL(包含子目錄)
User-agent:*
Disallow:/html/*.htm
8、使用“$”符號是僅允許訪問某目錄下某個后綴的文件
User-agent:*
Allow:.asp$
Disallow:/
9、如果是禁止搜索引擎索引網站中所用動態的頁面(這里演示的是以“?”號為域名, 例如:index.asp?id=1)
User-agent:*
Disallow:/*?*
10、為了節省服務器資源,需要禁止各類蜘蛛來索引網站的圖片,除了使用常見的 “Disallow:/images/”這樣直接屏蔽圖片文件夾的方式以外,還可以采取直接屏蔽圖片 后綴名的方式。如果我們禁止百度搜索引擎索引我們網站的圖片:
User-agent:Baiduspider
Disallow:.jpg$
Disallow:.jpeg$
Disallow:.gif$
Disallow:.png$
11、僅允許百度抓取網站上的“JPG”格式的文件
User-agent:baiduspider
Allow:.jpg$
Disallow:jpeg$
Disallow:gif$
Disallow:png$
12、僅僅禁止百度抓取網站上的“JPG”格式的文件
User-agent:Baiduspider
Disallow:.jpg$
更多詳細幫助,參考閱讀
贊
1
有一點幫助
0
沒有幫助
參與評論