robots.txt是一个纯文本文件,当网络蜘蛛来抓取网站的时候,首先就是访问这个网站的robot.txt文件。所以网站管理者都会在robots.txt文件中声明该网站中不想被robots访问的部分,或者只允许指定的搜索引擎收录指定的内容。很明显robot.txt对我们做seo来说是很重要的。
下面来看看应该怎么写robot.txt? 1、user-agent和Disallow是robot里面的俩个重要的函数。 2、robot.txt的编写及范本:
例如:
robots.txt文件用法举例
例1. 禁止所有搜索引擎访问网站的任何部分 下载该robots.txt文件 User-agent: * Disallow: / 例2. 允许所有的robot访问 (或者也可以建一个空文件 “/robots.txt”) User-agent: * Allow: / 例3. 仅禁止Baiduspider访问您的网站 User-agent: Baiduspider Disallow: / 例4. 仅允许Baiduspider访问您的网站 User-agent: Baiduspider Allow: /
User-agent: * Disallow: / 例5. 仅允许Baiduspider以及Googlebot访问 User-agent: Baiduspider Allow: /
User-agent: Googlebot Allow: /
User-agent: * Disallow: / 例6. 禁止spider访问特定目录 在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即robot不会访问这三个目录。需要注意的是对每一个目录必须分开声明,而不能写成 “Disallow: /cgi-bin/ /tmp/”。 User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /~joe/ 例7. 允许访问特定目录中的部分url User-agent: * Allow: /cgi-bin/see Allow: /tmp/hi Allow: /~joe/look Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /~joe/ 例8. 使用""限制访问url 禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。 User-agent: * Disallow: /cgi-bin/.htm 例9. 使用”$“限制访问url 仅允许访问以”.htm”为后缀的URL。 User-agent: * Allow: /.htm$ Disallow: / 例10. 禁止访问网站中所有的动态页面 User-agent: * Disallow: /?* 例11. 禁止Baiduspider抓取网站上所有图片 仅允许抓取网页,禁止抓取任何图片。 User-agent: Baiduspider Disallow: /.jpg$ Disallow: /.jpeg$ Disallow: /.gif$ Disallow: /.png$ Disallow: /.bmp$ 例12. 仅允许Baiduspider抓取网页和.gif格式图片 允许抓取网页和gif格式图片,不允许抓取其他格式图片 User-agent: Baiduspider Allow: /.gif$ Disallow: /.jpg$ Disallow: /.jpeg$ Disallow: /.png$ Disallow: /.bmp$ 例13. 仅禁止Baiduspider抓取.jpg格式图片 User-agent: Baiduspider Disallow: /*.jpg$