【資料圖】
1、robots.txt文件的格式User-agent: 定義搜索引擎的類型Disallow: 定義禁止搜索引擎收錄的地址Allow: 定義允許搜索引擎收錄的地址我們常用的搜索引擎類型有:google蜘蛛:googlebot百度蜘蛛:baiduspideryahoo蜘蛛:slurpalexa蜘蛛:ia_archivermsn蜘蛛:msnbotaltavista蜘蛛:scooterlycos蜘蛛:lycos_spider_(t-rex)alltheweb蜘蛛:fast-webcrawlerinktomi蜘蛛: slurprobots.txt文件的寫法User-agent: * 這里的*代表的所有的搜索引擎種類,*是一個通配符Disallow: /admin/ 這里定義是禁止爬尋admin目錄下面的目錄Disallow: /require/ 這里定義是禁止爬尋require目錄下面的目錄Disallow: /require/ 這里定義是禁止爬尋require目錄下面的目錄Disallow: /ABC 這里定義是禁止爬尋ABC整個目錄Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的所有以".htm"為后綴的URL(包含子目錄)。
2、Disallow: /*?* 禁止訪問網站中所有的動態頁面Disallow: .jpg$ 禁止抓取網頁所有的.jpg格式的圖片Disallow:/ab/adc.html 禁止爬去ab文件夾下面的adc.html所有文件User-agent: * 這里的*代表的所有的搜索引擎種類,*是一個通配符Allow: /cgi-bin/ 這里定義是允許爬尋cgi-bin目錄下面的目錄Allow: /tmp 這里定義是允許爬尋tmp的整個目錄Allow: .htm$ 僅允許訪問以".htm"為后綴的URL。
3、Allow: .gif$ 允許抓取網頁和gif格式圖片robots.txt文件用法舉例例1. 禁止所有搜索引擎訪問網站的任何部分User-agent: *Disallow: /實例分析:淘寶網的 Robots.txt文件User-agent: BaiduspiderDisallow: /很顯然淘寶不允許百度的機器人訪問其網站下其所有的目錄。
4、例2. 允許所有的robot訪問 (或者也可以建一個空文件 “/robots.txt” file)User-agent: *Disallow:例3. 禁止某個搜索引擎的訪問User-agent: BadBotDisallow: /例4. 允許某個搜索引擎的訪問User-agent: baiduspiderDisallow: User-agent: *Disallow: 。
本文到此分享完畢,希望對大家有所幫助。