七宝SEO七宝SEO七宝SEO

Robots文件怎么写,robots的作用详细介绍

  在接手一个网站时,无论做什么诊断分析,都少不了检查robots文件,为什么有的网站天天发文章却未见收录,很有可能是因为被robots文件里的规则屏蔽了。当我们查看网站的背景文件时,我们会发现有一个机器人。各种文件中的TXT文件。机器人文件在优化中起着重要作用,主要体现在网站的收集上。你对机器人协议有什么了解吗?那么什么是robots文件,它有什么作用?德州SEO本篇文章为你详细解答并教你如何写robots文件。

  1、robots.txt存储位置

  机器人文件必须更改为网站的根目录,因为搜索引擎会从根目录中抓取网页,蜘蛛在抓取网站内容时会首先检测到机器人文件,根据机器人文件的规则抓取网站的内容(即查看其他网站的机器人文件),站点,可以直接输入“域名/robots.txt”查看具体内容)。

  2、机器人与无跟随者的区别

  机器人和nofollower的本质区别在于nofollow只禁止蜘蛛跟踪当前网页上面的超链接,蜘蛛可能会抓取不通过其他路径跟踪的网页,另一方面,机器人禁止搜索引擎索引不允许的页面,也就是说,搜索引擎可以搜索不跟随者丢失的页面,但不能搜索机器人不允许的页面。

  3、机器人的语法规则

  sitemap指定站点地图的路径,useragent指定特定的搜索引擎spider(useragent:*,代表所有搜索引擎,useragent:googlebot指定搜索引擎spider)。允许:允许对路径进行爬网,不允许:禁止对路径进行爬网。您可以使用通配符disallow:/*。禁止蜘蛛爬行所有CSS文件。

  4、机器人的应用

  机器人禁止后台登录地址被搜索引擎包含,避免黑客利用搜索引擎的inulr命令查找网站的后台登录地址,提高网站的安全性。同时,蜘蛛可以被禁止抓取大容量的文件,以提高网站的访问速度。

robots文件怎么写

  一、robots文件简介

  简单来说就是一个以robots命名的txt格式的文本文件,是网站跟爬虫间的协议(你可以理解为搜索引擎蜘蛛抓取的规则),当搜索引擎发现一个新的站点时,首先会检查该站点是否存在robots文件,如果存在,搜索引擎则会跟据robots文件规定的规则来确定可以访问该站点的范围。

  二、robots文件的作用

  1.禁止搜索引擎收录网站,以保障网站的安全。比如一些网站是客户管理系统,只需要公司员工登录即可,属于并不想公开的私密信息,为了防止信息泄露就可以使用robots文件进行屏蔽抓取。

  2.网站内的部分目录或内容如果不希望搜索引擎抓取,如WordPress的后台文件wp-admin,管理仪表盘或其他页面,这些对搜索引擎无用的页面就可以借助robots文件来告诉搜索引擎不要抓取此目录下的内容,这样就可以让有限带宽的蜘蛛深入抓取更多需要被抓取收录的页面。

  3.屏蔽一些动态链接,统一网站链接类型,集中权重。

  三、robots文件写法

  1、首先先来了解下robots文件里的内容由那几部分构成:

  robots文件由User-agent和规定搜索引擎允许或禁止抓取的范围(Allow或Disallow)组成,在robots文件中还可以包括在sitemap文件的链接。举一个例子:

  User-agent:Baiduspider

  Allow:/wp-content/uploads/

  Disallow:/w?

  Sitemap:http:/www.seobti.com/sitemap.xml

  该例子中就包含有User-agent、Allow、Disallow、Sitemap等。下面具体来解释下各自代表的意思。

  User-agent:该项的值用于描述搜索引擎robot的名字。在robots.txt文件中,至少要有一条User-agent记录。如果该项的值设为*(即:“User-agent:*”),则对任何robot均有效。另外如果只针对百度搜索引擎,则该项的值为:Baiduspider(即:“User-agent:Baiduspider”)。

  Disallow:该项的值用于描述不希望被访问的一组url,这个值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被robot访问。

  举例说明:

  “Disallow:/help”禁止robot访问/help.html、/helpabc.html、/help/index.html,而“Disallow:/help/”则允许robot访问/help.html、/helpabc.html,不能访问/help/index.html。

  “Disallow:/”说明不允许搜索引擎robot访问该网站的所有url链接,需要注意的是robots.txt文件中,至少要有一条Disallow记录。

  Allow:该项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL是允许robot访问的。

  举例说明:

  “Allow:/hibaidu”允许robot访问/hibaidu.htm、/hibaiducom.html以及hibaidu这个目录内的所有内容,比如/hibaidu/com.html。

  一个网站的所有URL默认是Allow的,所以Allow通常与Disallow搭配使用,实现允许访问一部分网页同时禁止访问其它所有URL的功能。如:“Disallow:/uploads/Allow:/uploads/allimg/”只允许抓取/uploads/目录下的allimg文件。

  以上是sitemap组成常见的部分,为了让robots写法更准确,我们还可以使用借助“*”and“$”来更精确的制定搜索引擎抓取规则。

  “*”and“$”:robots文件中可以使用通配符“*”和“$”来模糊匹配url。“*”匹配0或多个任意字符,“$”匹配行结束符。

  举例说明:

  “Allow:/hibaidu可以写成Allow:/hibaidu*”,而Allow:/hibaidu$规定允许抓取的范围只限hibaidu这个目录及目录内的内容。其写法作用效果等同于Allow:/hibaidu/。

  Disallow:/*.asp$和Disallow:/*.asp两种写法,看似相似却规定的范围却大不相同。其中“Disallow:/*.asp$”指仅拦截以.asp结尾的网址,而“Disallow:/*.asp”则了拦截所有包含.asp的网址(可能有的.asp后还有一些参数),包括以.asp结尾的网址,也就是Disallow:/*.asp规定的范围包含了Disallow:/*.asp$的规定范围。

  2、格式

  在robots文件中,一个“User-agent”代表一条记录,且这样的记录可以包含一条或多条记录。如:

  一条记录

  User-agent:*

  Disallow:/template/

  #该协议只有一条记录,该协议对所有搜索引擎有效

  多条记录

  User-agent:Baiduspider

  Disallow:/w?

  Disallow:/client/

  User-agent:Googlebot

  Disallow:/update

  Disallow:/history

  User-agent:bingbot

  Disallow:/usercard

  #多条记录,针对不同的搜索引擎使用不同的协议

  解读:“User-agent:*”中的“*”是通配符的意思,也就是说该记录下的协议适用任何搜索引擎,而“User-agent:Baiduspider”中的“Baiduspider”是百度搜索引擎的爬取程序名称,也就是该协议只针对百度搜索引擎。

  一般来说,优化的对象如果只针对国内的用户,那么就可以使用多条记录的方式来限制国外搜索引擎的抓取,以此可以节省服务器部分资源,减小服务器压力。

  另外需要注意的是:robots.txt文件中只能有一条“User-agent:*”这样的记录。

  3、语法说明

  这里主要列举几个最常见的情况,如下图图2所示:

robots文件介绍

  4、robots的其他用法

  除了使用robots.txt来告知搜索引擎哪些页面能被抓取,哪些页面不能被抓取外,robots还有另外一些写法——Robots meta标签。

  Robots.txt文件主要是限制整个站点或者目录的搜索引擎访问情况,而Robots Meta标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots Meta标签也是放在页面中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。

  Robots Meta标签中没有大小写之分,name=“Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=“BaiduSpider”。

  content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。

  index指令告诉搜索机器人抓取该页面;

  follow指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;

  noindex命令:告诉搜索引擎不允许抓取这个页面

  nofollow命令:告诉搜索引擎不允许从此页找到链接、拒绝其继续访问。

  具体写法有以下四种:

  <meta name="robots"content="index,follow"><!--可以抓取并索引本页,同时还可以顺着本页的链接继续抓取下去-->

  <meta name="robots"content="noindex,follow"><!--不能索引本页但可以顺着本页的链接继续抓取下去-->

  <meta name="robots"content="index,nofollow"><!--可以索引本页但不允许抓取本页的链接-->

  <meta name="robots"content="noindex,nofollow"><!--既不能索引本页同时也不可以抓取本页的链接-->

  其中:

  <meta name="robots"content="index,follow">

  可以写成

  <meta name="robots"content="all">

  而

  <meta name="robots"content="noindex,nofollow">

  可以写成

  <meta name="robots"content="none">

  另外著名搜索引擎GOOGLE还增加了一个指令“archive”,可以限制GOOGLE是否保留网页快照。例如:

  <meta name="googlebot"content="index,follow,noarchive">

  需要注意的是并不是所有的搜索引擎都支持Robots meta标签写法。

  四、使用robots文件需要注意的一些事项

  1、robots文件应放在网站根目录,链接地址为:www.xxx.com/robots.txt

  2、鉴于不希望搜索引擎收录网站的隐私文件,可以使用robots文件来禁止抓取,但这样却正好可以被黑客所利用,所以robots文件并不能保证网站的隐私,因此在robots规则时,可以使用“*”来模糊匹配。如:Disallow:/my*

  3、“Disallow:/help”与“Disallow:/help/”规定的抓取范围有所不同,“/help”包含“/help.html、/help*.html、/help/index.html”等页面,而“/help/”不包含“/help.html、/help*.html”等页面。


未经允许不得转载:七宝SEO » Robots文件怎么写,robots的作用详细介绍