網站的robots協議也可以叫做爬蟲協議,通過這些協議可以告訴搜索引擎蜘蛛網站的哪些內容可以抓取,哪些不能抓取。具體解釋可以參照百度百科。關于wordpress網站的robots協議,八貓做了詳細的梳理。這里感謝悅聽有聲站長的分享。
1.什么是robots協議
網站的robots協議也可以叫做爬蟲協議,通過這些協議可以告訴搜索引擎蜘蛛網站的哪些內容可以抓取,哪些不能抓取。具體解釋可以參照百度百科。關于用法,其實很簡單。寫好robots.txt寫好之后,把robots.txt協議上傳到網站的根目錄。這樣每次搜索引擎抓取的時候就會遵循robots.txt協議上的內容進行抓取。不過需要注意的是:
robots.txt在書寫的時候一定要謹慎,因為不夠謹慎的話導致網站收錄收到影響。比如下面這句:Disallow: /。Vevb.com
這個指的是不允許抓取網站上所有的內容。注意斜杠之前要有一個空格。包括其他的Disallow也是。一定要有空格,這個才是正確的robots寫法。
2.wordpress網站如何使用書寫robots協議
關于wordpress網站的robots協議,八貓做了如下匯總。這是悅聽有聲的站長分享出來的。簡單說下 User-agent: 搜索引擎的名稱。其他的可以具體看。
- User-agent: *
- Disallow: /wp-admin/
- Disallow: /wp-content/
- Disallow: /wp-includes/
- Disallow: /feed
- Disallow: comment-page-*
- Disallow: trackback
- Disallow: /?s=*
- Disallow: /*/?s=*
- Disallow: /?p=*
- Disallow: /?p=*&preview=true
- Disallow: /?page_id=*&preview=true
- Disallow: /wp-login.php
- User-agent: MJ12bot
- Disallow:/
- User-agent: Adsbot-Google
- Disallow: /
- User-agent: Feedfetcher-Google
- Disallow: /
- User-agent: Yahoo! Slurp
- Disallow: /
- User-agent: Yahoo! Slurp China
- Disallow: /
- User-agent: Yahoo!-AdCrawler
- Disallow: /
- User-agent: YoudaoBot
- Disallow: /
- User-agent: Sosospider
- Disallow: /
- User-agent: Sogou spider
- Disallow: /
- User-agent: Sogou web spider
- Disallow: /
- User-agent: MSNBot
- Disallow: /
新聞熱點
疑難解答
圖片精選