【技巧】robots.txt禁止機器人搜尋你的網站進行收錄

在我們架站的過程中，一定會有一些目錄不希望被GOOGLE、YAHOO、百度、Bing等搜尋網站能查詢到這些資訊，而我們就可以運用robots.txt去禁止其中或全部的網站去抓取你的資訊進行收錄。

STEP1: 建立robots.txt，輸入規則。(檔名一定要小寫)
STEP2: 上傳並放在根目錄下。 (只能放在根目錄)

規則：robot.txt規則，主要是User-Agent、Disallow、Allow這三個命令。
(1) User-Agent：
代表搜尋網站機器人的名稱。如果其值為「*」，表示以下指令針對所有機器人。
Googlebot (GOOGLE機器人)、Slurp (Yahoo.bing機器人)、Baiduspider (百度機器人)
(2) Disallow：
不允許搜索的目錄。如果其值為「/」，表示所有目錄。
如果想要針對wp-admin這個目錄的話，應填入「/wp-admin/」。
(3 ) Allow：
允許搜索不允許搜索目錄中的某個目錄。
其意味著想要讓 wp-admin目錄裡的web這個目錄被搜索，其值為「/wp-admin/web/」。

完整範例：
[A] 不允許任何機器人搜尋目錄blog

User-Agent: *
Disallow: /blog/

[B] 不允許任何機器人搜尋任何資料

User-Agent: *
Disallow: /

[C] 不允許任何機器人搜尋目錄blog，但可以搜尋blog裡的class目錄

User-agent: *
Disallow: /blog/
Allow: /blog/class/

[D] 不允許任何機器人搜尋以.php為檔案的頁面

User-Agent: *
Disallow: /*.php$

[E] 不允許百度機器人搜尋所有頁面，但允許其他機器人搜尋所有頁面

User-agent: Baiduspider
Disallow: /
User-agent: *
Disallow:

展開文章／收合

相關