【技巧】robots.txt禁止機器人搜尋你的網站進行收錄

在我們架站的過程中,一定會有一些目錄不希望被GOOGLE、YAHOO、百度、Bing等搜尋網站能查詢到這些資訊,而我們就可以運用robots.txt去禁止其中或全部的網站去抓取你的資訊進行收錄。




 

STEP1: 建立robots.txt,輸入規則。(檔名一定要小寫)

STEP2: 上傳並放在 根目錄 下。 (只能放在根目錄)

 

規則:robot.txt規則,主要是User-Agent、Disallow、Allow這三個命令。

(1) User-Agent:
代表搜尋網站機器人的名稱。如果其值為「*」,表示以下指令針對所有機器人。
Googlebot (GOOGLE機器人)、Slurp (Yahoo.bing機器人)、Baiduspider (百度機器人)

(2) Disallow:
不允許搜索的目錄。如果其值為「/」,表示所有目錄。
如果想要針對wp-admin這個目錄的話,應填入「/wp-admin/」。

(3 ) Allow:
允許搜索 不允許搜索目錄中的某個目錄。
其意味著 想要讓 wp-admin目錄裡的web這個目錄 被搜索,其值為「/wp-admin/web/」。

 

完整範例:

[A] 不允許任何機器人搜尋 目錄blog

 

[B] 不允許任何機器人搜尋 任何資料

 

[C] 不允許任何機器人搜尋 目錄blog,但可以搜尋blog裡的class目錄

 

[D] 不允許任何機器人搜尋 以.php為檔案的頁面

 

[E] 不允許百度機器人搜尋 所有頁面,但允許其他機器人搜尋所有頁面