[SEO] 關於 robots 檔以及 meta robots 標籤

搜尋引擎在造訪網站時,會先找出網站根目錄下的 robots.txt 這個檔案,這個檔案可讓搜尋引擎禁止抓取網站某些內容或指定允許抓取某些內容。若 robots.txt 檔不存在或是空的檔案的話,就意味著允許搜尋引擎抓取網站所有內容。

// 例1: robots 檔:(意思是禁止所有搜尋引擎抓取任何內容)
User-agent: *
Disallow: /

User-agent: 是指定某種搜尋引擎,* 代表所有搜尋引擎。
若要指定百度蜘蛛的話,則用:

User-agent: Baiduspider

若要指定 Google 蜘蛛的話,則用:

User-agent: Googlebot

Disallow: 告訴蜘蛛不要抓取某些檔案或目錄。

// 例2: robots.txt 檔,將阻止所有蜘蛛抓取 /cgi-bin/ 和 /tmp/ 兩個目錄下的內容及檔案/aa/index.html:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /aa/index.html
// 例3: robots.txt 檔,允許所有搜尋引擎抓取任何內容:
User-agent: *
Disallow: 
// 例4: robots.txt 檔,禁止除百度外的所有搜尋引擎抓取任何內容:
User-agent: Baiduspider
Disallow: 

User-agent: *
Disallow: /

Allow: 告訴搜尋引擎應該要抓取某些檔案,可與Disallow搭配使用:

// 例5: robots.txt 檔,使搜尋引擎不抓取 /ab/ 目錄下其他目錄和檔案,但允許抓取其中 /cd/ 目錄下的內容:
User-agent: *
Disallow: /ab/
Allow: /ab/cd/

$萬用字元,比對 URL 結尾的字元:

// 例6: robots.txt 檔,允許搜尋引擎抓取以.htm為結尾的 URL:
User-agent: *
Allow: .htm$
// 例7: robots.txt 檔,禁止百度抓取所有 .jpg 的文件:
User-agent: Baiduspider
Disallow: .jpg$

*萬用字元,告訴搜尋引擎比對任意一段字元:

// 例8: robots.txt 檔,禁止搜尋引擎抓取所有 htm 檔:
User-agent: *
Disallow: /*.htm

Sitemap:指定 XML 網站地圖的所在位置(必須是完整的 URL):

// 例9: robots.txt 檔,指定 sitemap 檔所在 URL:
User-agent: *
Disallow: /*.htm
Sitemap: http://www.example.com/sitemap.xml

要注意的是,被 robots.txt 檔禁止抓取的 URL 還是可能出現在搜尋結果中,因為只要有任何外部連結有指向該 URL ,那麼搜尋引擎還是會知道這個 URL 的存在,雖然不會抓取頁面內容,但是還是會以其它形式顯示在搜尋結果中:

  • 只顯示 URL,但沒有標題、描述。
  • 顯示開放目錄或雅虎等重要目錄收錄的標題和描述。
  • 導入連結的文字顯示為標題和描述。

要想使 URL 完全不出現在搜尋結果中,還需要使用頁面上的 meta robots 標籤


meta robots

meta robots 標籤是頁面 <head> 區域 <meta> 標籤的一種,用於告訴搜尋引擎禁止索引本頁內容。

最簡單的格式為:

<!-- 禁止所有搜尋引擎索引本頁面,也禁止追蹤本頁面上的連結 -->
<meta name="robots" content="noindex,nofollow">
<!-- 另一個例子:禁止索引本頁面,但允許搜尋引擎追蹤頁面上的連結 -->
<meta name="robots" content="noindex">

Google、雅虎都支援的 meta robots 如下:

  • noindex:告訴搜尋引擎不要索引本頁面。
  • nofollow:告訴搜尋引擎不要追蹤本頁面上的連結。
  • nosnippet:告訴搜尋引擎不要在搜尋結果中顯示說明文字。
  • noarchive:告訴搜尋引擎不要顯示快照。
  • noodp:告訴搜尋引擎不要使用開放目錄中的標題和說明。

至於百度的官方說法是目前只支 nofollow 和 noarchive。

meta robots標籤內容可以寫在一起,以逗號間隔,中間有無空格皆可。不區分大小寫。


nofollow的使用

這裡所說的 nofollow 與上面所提不同,這裡是指用在一般連結上的 nofollow,例:

<a href="http://www.example.com/" rel="nofollow">這裡是連結文字</a>

連結的 nofollow 屬性,只適用於本連結,意義是在告訴搜尋引擎這個連結不是經過站長自己編輯的,所以這個連結不是一個信任投票,搜尋引擎看到這個標籤就不會追蹤爬行連結,也不傳遞連結權重和連結文字。

您可在此處留言

搶先留言!

Notify of
avatar