吳賢茂:robots.txt與sitemap的運用

日期：2013-08-09 閱讀：1895

首先我先講解一下什么是robots.txt

robots.txt是搜索引擎中訪問網站的時候要查看的第一個文件。Robots.txt文件告訴蜘蛛程序在服務器上什么文件是可以被查看的。

當一個搜索蜘蛛訪問一個站點時，它會首先檢查該站點根目錄下是否存在robots.txt，如果存在，搜索機器人就會按照該文件中的內容來確定訪問的范圍；如果該文件不存在，所有的搜索蜘蛛將能夠訪問網站上所有沒有被口令保護的頁面。

然而很多人都知道有robots這回事，卻不知道應該如何下手，今天我說下如何來寫robots.txt

首先你要想一下那些網站目錄是不想被搜索蜘蛛給抓取的，哪些是需要被抓取的，這個很重要，如果亂寫robots有可能會把屏蔽網站給搜索引擎收錄的。

robots.txt文件一定要寫在網站的根目錄上面，例如：

而不能這樣

記得一定要在根目錄就對了，然后里面的寫法有兩條

　User-Agent: 適用下列規則的漫游器

　Disallow: 要攔截的網頁

　User-Agent: Googlebot（baiduspider）這個就是谷歌（百度）的蜘蛛

　Disallow: /seo

這樣寫的意思就是說我不想google或者百度的蜘蛛來抓取我seo這個文件夾里面的東西，*的話就代表全部。

如果你建立一個空的或者不建立robots的話，該網站的全部內容都會搜索引擎所收錄，然后很多人就會問了，網站不是被收錄的越多越好嗎？

我就打個比方吧，你的網站生成靜態，然而之前的動態又還在，蜘蛛就是抓取兩個同時收錄，然后搜索引擎就會認為兩個標題相同的文章出現在同一網站的話就會認為你是在作弊了，有可能會被降權。

主要是因為很多網站的內容都沒有其他鏈接，為了把這些鏈接更好的連接起來，讓蜘蛛能抓取更多的資源。

如果是谷歌的話，大家可以注冊個管理員工具，生成的XML文件自己提交給谷歌，百度沒有管理員工具的話就可以通過在robots.txt里面寫Sitemap

寫法如下：

這三種形式都可以，一般自動都會生成xml，如果不會生成sitemap可以去網上找下工具或者使用一些開源的cms都會有自帶的!