【技巧】robots.txt禁止機器人搜尋你的網站進行收錄

在我們架站的過程中,一定會有一些目錄不希望被GOOGLE、YAHOO、百度、Bing等搜尋網站能查詢到這些資訊,而我們就可以運用robots.txt去禁止其中或全部的網站去抓取你的資訊進行收錄。


 
STEP1: 建立robots.txt,輸入規則。(檔名一定要小寫)
STEP2: 上傳並放在 根目錄 下。 (只能放在根目錄)
 
規則:robot.txt規則,主要是User-Agent、Disallow、Allow這三個命令。
(1) User-Agent:
代表搜尋網站機器人的名稱。如果其值為「*」,表示以下指令針對所有機器人。
Googlebot (GOOGLE機器人)、Slurp (Yahoo.bing機器人)、Baiduspider (百度機器人)
(2) Disallow:
不允許搜索的目錄。如果其值為「/」,表示所有目錄。
如果想要針對wp-admin這個目錄的話,應填入「/wp-admin/」。
(3 ) Allow:
允許搜索 不允許搜索目錄中的某個目錄。
其意味著 想要讓 wp-admin目錄裡的web這個目錄 被搜索,其值為「/wp-admin/web/」。
 
完整範例:
[A] 不允許任何機器人搜尋 目錄blog

User-Agent: *
Disallow: /blog/

 
[B] 不允許任何機器人搜尋 任何資料

User-Agent: *
Disallow: /

 
[C] 不允許任何機器人搜尋 目錄blog,但可以搜尋blog裡的class目錄

User-agent: *
Disallow: /blog/
Allow: /blog/class/

 
[D] 不允許任何機器人搜尋 以.php為檔案的頁面

User-Agent: *
Disallow: /*.php$

 
[E] 不允許百度機器人搜尋 所有頁面,但允許其他機器人搜尋所有頁面

User-agent: Baiduspider
Disallow: /
User-agent: *
Disallow: