五分鐘學會SEO的robots meta與robots.txt

 

 

搞不清楚SEO優化中的robots meta與robots.txt?別怕,今天用淺顯易懂的文字讓你懂!

 

 

甚麼狀況下該使用 robots meta 與 robots.txt

robots meta 對 SEO 的操作上也是很重要。robots meta 與 robots.txt 都能向搜尋引擎宣告如何處理網頁。前者為阻止搜尋引擎索引你的頁面 (但搜尋引擎還是有抓取你的網站資料) ; robots.txt 則是全面阻止搜尋引擎抓取你的資料 (搜尋引擎會自動略過你指定的網站)。

當然,大多數的狀況,你不會讓 robots.txt 來阻止搜尋引擎抓取辛苦建立的網站。但是以若這個網站對你的 SEO 有負面影響、或是私密性高的話,就可以用robots.txt 來阻擋搜尋引擎抓取,常見的情況如下所示:

1. 多年前有經過黑帽 SEO 手法,卻還沒處理的網頁、

2. 施工中未完成的網頁等

3. 網站或是公司內部系統的登入頁面

若你只是希望這個網頁不要出現在搜尋引擎結果中的話,那用 robots meta 即可。

如何設定網站 robots.txt

  • 【檔案存取位置】robots.txt 位於網站的根目錄下
  • 【作用】告訴搜尋引擎哪些網站內容不要進行存取,並且可以指定 sitemap 的位置。
  • 【路徑】如果你有建立並使用 robots.txt,則他的位置會是 http://網址/robots.txt,如果這個檔案不存在,則代表沒有使用 robots.txt。
  • 【宣告類型】有五種,如下所示:
    1. User-agent
      指定哪一種搜尋引擎的爬蟲,如 Google 的爬蟲 「googlebot」或是百度的爬蟲等等(* 號代表全部)
    2. Crawl-delay
      限制爬蟲抓取每一頁的秒數限制,但是該設定會被 Google 跳過不處理。因為 Google 在網站管理員中,就有爬取頻率的設定。
    3. Disallow
      輸入你不允許被爬取的 URL 路徑
    4. Allow
      輸入你允許被爬取的 URL 路徑
    5. Sitemap
      告知搜尋引擎的 Sitemap 網址
  • 以上五種宣告類型如何編輯? 常見的如以下所示:
    1. 拒絕所有的搜尋引擎爬蟲爬取你的網站:
      User-agent:*
      Disallow: /
    2. 允許全部的搜尋引擎爬蟲爬取你的網站:
      User-agent:*
      Disallow: /
    3. 拒絕 Google 的搜尋引擎爬蟲爬取 /wp-admin 目錄
      User-agent:*
      Disallow: /wp-admin/
    4. 只拒絕百度的搜尋引擎爬蟲,卻允許其他搜尋引擎 (如 Google、Yahoo、Yandax等等) 爬取
      User-agent:Baiduspider
      Disallow: /
      User-agent:*
      Allow: /
    5. 拒絕搜尋引擎爬取特定類型的檔案
      User-agent:*
      Disallow: /*.ini$
      Disallow: /*.jpg$
    6. 實際網站完整 robots.txt
      User-agent:*
      Crawl-delay: 7
      Disallow: /wp-admin/
      Disallow: /cgi-bin/
      Disallow: /readme.html/
      Disallow: /*.ini$ sitemap: http://codingbomb.com.tw/sitemap.xml

robots.txt-如何設定?

3.png

使用 Google Search Console 來檢查 robots.txt 是否設定正確

舊版的 Google 網站管理員 Search Console 中,有 robots.txt 測試工具,他會模擬 Google 搜尋引擎爬蟲來檢查你的 robots.txt 的正確性。

如何設定網站 robots meta

  • 【檔案存取位置】robots meta 宣告置於網頁 HTML 的 <head>與</head>之間
  • 【作用】宣告阻止搜尋引擎索引你的頁面 (但搜尋引擎還是有抓取你的網站資料) ,但是不引醒使用者瀏覽你的網頁
  • 【語法】 <META NAME=”屬性值#1″ CONTENT=”屬性值#2″>

屬性值#1,為指定哪種搜尋,常用語法如下:

  • robots:所有搜尋引擎的爬蟲
  • googlebot:GOOGLE 搜尋引擎的爬蟲
  • bingbot:Bing 搜尋引擎的爬蟲
  • slurp:Yahoo 搜尋引擎的爬蟲
  • Baiduspider:百度搜尋引擎的爬蟲
  • AhrefsBot:Ahrefs.com的爬蟲
  • MJ12Bot:Majestic.com的爬蟲

屬性值#2,為指定處理方式,常見代碼如下

  • noindex:不要索引本網頁
  • nofollow:不要跟隨本網頁內的連結頁面
  • noarchive:不要儲存庫存網頁
  • nosnippet:不要在搜尋結果顯示描述或是快照
  • none:等於 noindex 與 nofollow
  • noimageindex:不要索引本網頁的圖片,只適用於 Google
  • unavailable_after:date:在指定日期後停止索引本頁

 

原文出處:https://www.tedu.tw/blog/seo-robots-meta.html

 

延伸閱讀:

LINE台灣引進人工智慧Clova系統,幫你寫逐字稿

Google又用了新技術來取代cookies追蹤,一起來看看!

全球音樂串流平台龍頭:Spotify,自家開發人工智慧為大功臣

元宇宙也有翻譯蒟蒻了!Meta推全球語言都可翻譯的人工智慧

Google提出Android隱私沙盒,標榜保護用戶資料安全

所有的新創業者都需要SEO 的7 個理由!

SEO是什麼?跟AdWords差在哪?如何自學?

arrow
arrow

    Uder.chain 發表在 痞客邦 留言(0) 人氣()