微擎网站建设

Robot.txt用法详解及robot.txt问题汇总

Robot.txt用法详解及robot.txt问题汇总

  搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。

什么是Robot.txt?

  Robot.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。

Robot.txt放在哪里?

  Robot.txt放在网站的根目录,搜索引擎蜘蛛访问网站准备抓取网站信息的时候,搜索引擎蜘蛛会先检查网站根目录是否存在Robot.txt文件,如果存在就会根据Robot.txt文件限制的内容来访问抓取网站信息。

Robot.txt怎么用?Robot.txt语法是什么样的?Robot.txt文件怎么写?

这里我们先来看看百度百科的说法:

“robots.txt”文件包含一条或多条记录,这些记录通过空行分开(以CR、CR/NL、or NL作为结束符),每一条记录的格式如下所示:

“<field>:<optionalspace><value><optionalspace>”

在该文件中可以使用#进行注释,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow行,详细情况如下:

User-agent:

该 项的值用于描述搜索引擎机器人robot的名字。在“robots.txt”文件中,如果有多条 User-agent记录,说明有多个robot会受到该协议的约束。所以,“robots.txt”文件中至少要有一条User- agent记录。如果该项的值设为*(通配符),则该协议对任何搜索引擎机 器人均有效。在“robots.txt”文件 中,“User-agent:*”这样的记录只能有一条。

Disallow:

该项的值用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以 是部分的,任何以Disallow开头的URL均不会被robot访问到。例如:

“Disallow: /help” 对/help.html 和/help/index.html都不允许搜索引擎访问, 而“Disallow: /help/”则允许robot访问 /help.html,而不能访问/help/index.html。

任何一条Disallow记录为空,说明该网站的所有部分都允许被访问,在“/robots.txt”文件中,至少要有一条Disallow记录。如果“/robots.txt”是一个空文 件,则对于所有的搜索引擎robot,该网站都是开放的

  这里,来解释得通俗一点。

  对于Robot.txt文件要怎么用,我们只需要记住两个单词User-agent和Disallow。 User-agent的用法是“User-agent:搜索引擎蜘蛛名”,意思是Robot.txt文件里面的规则对User-agent:后面的搜索引擎蜘蛛有效,如果后面跟的是“*”,则表示对所有的搜索引擎蜘蛛都有效。注意这里的“:”是英文输入法状态下的。而且,Robots.txt文件中至少要有一条User-agent记录。

  例:

    User-agent:Baiduspider ,就是针对百度蜘蛛进行的协议约束。

  User-agent:* ,是指Robots.txt协议对任何搜索引擎蜘蛛都有效。

  Disallow,这项值是用来描述不希望被搜索机器人访问到网址。这个网址可以是完整的路径,也就是域名加上目录名或者文件名的格式,也可以是相对,也就是除去了域名,只有文件名或者目录名。注意:一个Disallow的对应一个文件或者目录,有多少个目录或者文件需要设置就写几个Disallow的。

  例:

  User-agent:* 

  Disallow:/help/

  Disallow:/style/

  Disallow:http://www.xxx.com/help/

  Disallow:/plus/ad_js.php

  Disallow:/include

  以上写法都是正确的,第一行表示是指Robots.txt协议对任何搜索引擎蜘蛛都有效;第二行表示禁止搜索引擎对help目录抓取;第四行与第二行的作用是一样的;第五行表示禁止对plus目录下的ad_js.php文件抓取;第六行表示禁止对include文件夹抓取。

  更多示例及解释如下:

  允许所有的robot访问

  User-agent: *

  Disallow:

  或者也可以建一个空文件 "/robots.txt" file

  禁止所有搜索引擎访问网站的任何部分

  User-agent: *

  Disallow: /

  禁止所有搜索引擎访问网站的几个部分(下例中的01、02、03目录)

  User-agent: *

  Disallow: /01/

  Disallow: /02/

  Disallow: /03/

  禁止某个搜索引擎的访问(下例中的BadBot)

  User-agent: BadBot

  Disallow: /

  只允许某个搜索引擎的访问(下例中的Crawler)

  User-agent: Crawler

  Disallow:

  User-agent: *

  Disallow: /

Robots META标签是什么?Robots META标签怎么用?

  Robots META标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots META标签也是放在页面的<head></head>中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。

Robots META标签的写法:

  Robots META标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiduSpider”。 content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。

  INDEX 指令告诉搜索机器人抓取该页面;

  FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;

  Robots Meta标签的缺省值是INDEX和FOLLOW,只有inktomi除外,对于它,缺省值是INDEX,NOFOLLOW。

  这样,一共有四种组合:     <META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">

  <META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">

  <META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">

  <META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">

其中

  <META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">可以写成<META NAME="ROBOTS" CONTENT="ALL">;

  <META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">可以写成<META NAME="ROBOTS" CONTENT="NONE">

  目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于Robots META标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE还增加了一个指令“archive”,可以 限制GOOGLE是否保留网页快照。例如:

  <META NAME="googlebot" CONTENT="index,follow,noarchive">

  表示抓取该站点中页面并沿着页面中链接抓取,但是不在GOOLGE上保留该页面的网页快照。

以上就是关于Robot.txt的详解和用法,对于自己写Robot.txt还有问题的SEOER,可以访问http://tool.chinaz.com/robots/ 在线生成Robot.txt文件。

浏览过本文章的用户还浏览过
  • 台湾不满菲律宾敷衍道歉启动护渔军演 军舰已越过对菲“暂定执法线”

    台湾不满菲律宾敷衍道歉启动护渔军演 军舰已越过对菲“暂定执法线”

    菲律宾总统就台湾渔民被射杀事件表示道歉 菲律宾总统发言人陈显达15日下午在一场临时记者会上宣读一份声明,声称菲总统阿基诺已任命马尼拉经济文化办事处主席佩雷斯作为他的私 [详细]

  • seo怎么优化?

    seo怎么优化?

    seo怎么优化?如何进行seo? 一眼望去,seo怎么优化是一个伪命题。seo优化的核心操作点应该是正确的seo技术加上严格的执行力,另外,心态不可或缺,坚持不可或缺。这个道理也很好懂 [详细]

  • 关于无线网络的知识

    关于无线网络的知识

    随着移动业务从窄带和语音业务发展到第三代网络,许多宽带无线接入技术应运而生。WiMAX等具有代表性的无线接入技术因其极高的带宽和出色的知识产权服务支持能力而吸引了全世界 [详细]

  • 百度网址提交:常见的百度收录提交入口有哪些?

    百度网址提交:常见的百度收录提交入口有哪些?

    任何一个网站上线,我们要做的第一件事儿,就是网站收录提交,通过网站收录入口,尝试让百度优先抓取与收录网站。 百度官方在这方面,提供了多种渠道收录网站,扶植新网站,能 [详细]

微信扫一扫

关注公众号送茶叶