robots,什么是robots文件？

摘要应该是robots.txt文件吧, robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。robots.txt 是一

应该是robots.txt文件吧,

robots,什么是robots文件？插图

robots,什么是robots文件？插图1

robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。robots.txt 是一个纯文本文件robots，在这个文件中网站管理者可以声明该网站中不想被robots访问的部分，或者指定搜索引擎只收录指定的内容。

当一个搜索机器人robots（有的叫搜索蜘蛛或者爬虫）访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索引擎爬虫就会按照该文件中的内容来确定访问的范围；如果该文件不存在，那么搜索引擎爬虫就沿着链接抓取。

robots.txt 文件限制抓取网络的搜索引擎爬虫对您的网站的访问。这些搜索引擎爬虫是自动的，它们在访问任意网站的网页之前，都会查看是否存在阻止它们访问特定网页的 robots.txt 文件。（虽然某些搜索引擎爬虫可能会以不同的方式解释 robots.txt 文件中的指令，但所有正规的搜索引擎爬虫都会遵循这些指令。然而，robots.txt 不是强制执行的，一些垃圾信息发送者和其他麻烦制造者可能会忽略它。因此，我们建议对机密信息采用密码保护。）

只有当您的网站中包含您不想让搜索引擎编入索引的内容时，才需要使用 robots.txt 文件。如果您希望搜索引擎将网站上的所有内容编入索引，则不需要 robots.txt 文件（甚至连空的 robots.txt 文件也不需要）。

为了能使用 robots.txt 文件，您必须要有对您网站的根目录的访问权限（如果您不能确定是否有该权限，请与您的网络托管商核实）。如果您没有对网站的根目录的访问权限，可以使用robots元标记来限制访问。

请教robots怎么写呀？

　　”robots.txt”文件包含一条或更多的记录，这些记录通过空行分开（以CR,CR/NL, or NL作为结束符），每一条记录的格式如下所示：　　”:”。　　在该文件中可以使用#进行注解，具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始，后面加上若干Disallow行,详细情况如下：　　User-agent: 　　该项的值用于描述搜索引擎robot的名字，在”robots.txt”文件中，如果有多条User-agent记录说明有多个robot会受到该协议的限制，对该文件来说，至少要有一条User-agent记录。如果该项的值设为*，则该协议对任何机器人均有效，在”robots.txt”文件中，”User-agent:*”这样的记录只能有一条。　　Disallow: 　　该项的值用于描述不希望被访问到的一个URL，这个URL可以是一条完整的路径，也可以是部分的，任何以Disallow开头的URL均不会被robot访问到。例如”Disallow:/help”对/help.html 和/help/index.html都不允许搜索引擎访问，而”Disallow:/help/”则允许robot访问/help.html，而不能访问/help/index.html。任何一条Disallow记录为空，说明该网站的所有部分都允许被访问，在”/robots.txt”文件中，至少要有一条Disallow记录。如果”/robots.txt”是一个空文件，则对于所有的搜索引擎robot，该网站都是开放的。　　Allow: 　　该项的值用于描述希望被访问的一组URL，与Disallow项相似，这个值可以是一条完整的路径，也可以是路径的前缀，以Allow项的值开头的URL是允许robot访问的。例如”Allow:/hibaidu”允许robot访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一个网站的所有URL默认是Allow的，所以Allow通常与Disallow搭配使用，实现允许访问一部分网页同时禁止访问其它所有URL的功能。　　需要特别注意的是Disallow与Allow行的顺序是有意义的，robot会根据第一个匹配成功的Allow或Disallow行确定是否访问某个URL。　　使用”*”和”$”：　　robots支持使用通配符”*”和”$”来模糊匹配url：　　”$” 匹配行结束符。　　”*” 匹配0或多个任意字符。