关于我们 联系我们 加入收藏
首页 网站推荐 新闻中心 网站合作社 在线调查 互联网日报 互联网论坛 博客 流量通  
网站站长必须重视的robots.txt
文章摘要:
网站管理者似乎对robots.txt并没有引起多大重视,应一些朋友之请求,今天想通过这篇文章来简单谈 一下robots.txt的写作。 robots.txt基本介绍 robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分, 或者指定搜索引擎只收录指定...

网站管理者似乎对robots.txt并没有引起多大重视,应一些朋友之请求,今天想通过这篇文章来简单谈

一下robots.txt的写作。

robots.txt基本介绍

robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,

或者指定搜索引擎只收录指定的内容。

当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在

robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,

那么搜索机器人就沿着链接抓取。

另外,robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。

robots.txt写作语法

首先,我们来看一个robots.txt范例:http://www.beidou365.cn/robots.txt

访问以上具体地址,我们可以看到robots.txt的具体内容如下:

# Robots.txt file from http://www.beidou365.cn
# All robots will spider the domain

User-agent: *
Disallow:

以上文本表达的意思是允许所有的搜索机器人访问www.beidou365.cn站点下的所有文件。

具体语法分析:其中#后面文字为说明信息;User-agent:后面为搜索机器人的名称,后面如果是*,则泛

指所有的搜索机器人;Disallow:后面为不允许访问的文件目录。

下面,我将列举一些robots.txt的具体用法:

允许所有的robot访问

User-agent: *
Disallow:

或者也可以建一个空文件 “/robots.txt” file

禁止所有搜索引擎访问网站的任何部分

User-agent: *
Disallow: /

禁止所有搜索引擎访问网站的几个部分(下例中的01、02、03目录)

User-agent: *
Disallow: /01/
Disallow: /02/
Disallow: /03/

禁止某个搜索引擎的访问(下例中的BadBot)

User-agent: BadBot
Disallow: /

只允许某个搜索引擎的访问(下例中的Crawler)

User-agent: Crawler
Disallow:

User-agent: *
Disallow: /

另外,我觉得有必要进行拓展说明,对robots meta进行一些介绍:

Robots META标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关

键词等)一样,Robots META标签也是放在页面的<head></head>中,专门用来告诉搜索引擎ROBOTS

如何抓取该页的内容。

Robots META标签的写法:

Robots META标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引

擎写为name=”BaiduSpider”。 content部分有四个指令选项:index、noindex、follow、nofollow,

指令间以“,”分隔。

INDEX 指令告诉搜索机器人抓取该页面;

FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;

Robots Meta标签的缺省值是INDEX和FOLLOW,只有inktomi除外,对于它,缺省值是INDEX,NOFOLLOW。

这样,一共有四种组合:

<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>
<META NAME=”ROBOTS” CONTENT=”NOINDEX,FOLLOW”>
<META NAME=”ROBOTS” CONTENT=”INDEX,NOFOLLOW”>
<META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>

其中

<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>可以写成<META NAME=”ROBOTS” CONTENT=”

ALL”>;

<META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>可以写成<META NAME=”ROBOTS”

CONTENT=”NONE”>

目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于Robots META标签,目前支持的

并不多,但是正在逐渐增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE还增加了一个指令

“archive”,可以限制GOOGLE是否保留网页快照。例如:

<META NAME=”googlebot” CONTENT=”index,follow,noarchive”>

 

(互联网观察中心)
上一篇: 如何能够获得最简单最有效果的反向链接
热门专题
提升Alexa排名
热门专题
提升PR值
热门专题
百度搜索优化
热门专题
Google搜索优化
热门专题
提升流量
相关文章
·现在不常用的一个小方法增加你
·电子商务和品牌的网络推广的关
·低成本增加网站流量大法
·短期快速获得网站流量方法
·Web2.0—未来网络营销新
·如果利用Q群提升你的流量(实
·轻松提高网站流量
·08年比提高流量更重要的是什
·新站如何增加网站的外部连接
·站长写软文的意义
·其实菜鸟也能建好网站
·孙子兵法是做网站的宝典
·教你提高百度的排名
·一个菜鸟怎样用SEO做流量
·关键词排名与SEO真正的关系
·新手站长从确定关键词做起
·百度收录网站过程
·原创内容有多重要?
·关于百度所受的谩骂和百度自身
·网站优化的奇招妙技

热门文章
·搞笑图片网的推广方法
·不骗流量 教你怎么做流量
·如何增加PR值,如何提高PR
·多种网络营销方式
·新网站做宣传最好的八种方法
·做一个网站要怎么推广出去
·如何快速提高PR值的方法?
·日ip万以上网站 GG的月入
·上万流量的方法关键揭密
·百度的搜索优化实战案例


推荐下载
Alexa工具条 - 网站必备工具