七宝SEO七宝SEO七宝SEO

Robots文件有什么用?robots怎么写

  robots介绍

  Robots是翻译过来是机器人的意思,但在网页中是网站跟搜索引擎爬虫(搜索蜘蛛)的协议,用robots.txt文件来告诉爬虫允许爬取的范围。爬虫访问网站时会第一时间检测网站是否含有robots.txt文件,如有则访问,并以该文件的说明爬取指定范围的文件。因此robots.txt是爬虫来到网站后第一个要爬取的文件。

  正因为robots.txt对搜索蜘蛛的作用,如此我们可以使用robots.txt对蜘蛛进行限制和规范,让搜索引擎蜘蛛爬取更有价值的页面,提高蜘蛛的爬取效率,节约蜘蛛资源。

  要知道搜索引擎不会随便浪费程序到处爬行,对于每个网站所派出的蜘蛛数量是有限的,特别是新站蜘蛛会更少,同时蜘蛛的数量是根据网站的页面量级来进行匹配的,网站页面量级越高,搜索引擎匹配的蜘蛛数量越多。因此我们更加不能浪费蜘蛛,让其爬取一些无意义的页面纯属浪费,使用robots.txt文件进行限制则变得非常有必要了。

  说这么多就是表示robots.txt文件的重要性,我们应该做好robots.txt的编写,这对seo非常有意义,那么robots.txt该怎么写呢?具体的规则怎么操作,下面七宝SEO为大家进行详细说明。

  Robots.txt协议文件有什么用?

  搜索引擎访问一个网站的时候,最先访问的文件就是robots.txt。她告诉搜索引擎蜘蛛,哪些网站页面可以被抓取,哪些禁止抓取。表面来看,这个功能作用有限。从搜索引擎优化的角度来看,可以通过屏蔽页面,达到集中权重的作用,这,也是优化人员最为看重的地方。

  (1)引导搜索引擎蜘蛛抓取指定内容或栏目。比如,有的网站部分内容,只有注册会员后,登陆会员功能才能看到更多内容。

  (2)网站改版或者url需要重写优化的时候屏蔽对搜索引擎不友好的链接。

  (3)屏蔽死链接、404页面;

  (4)屏蔽无内容页面、无价值页面;

  (5)屏蔽重复页面,如搜索结果页、评论页面等;

  (6)屏蔽任何不想收录页面;

  (7)引导蜘蛛抓取网站地图

  网站设置robots.txt可以集权到网站重要页面,保护网站安全。

Robots文件有什么用?

  网站设置robots.txt的几个原因

  1:设置访问权限保护网站安全。

  2:禁止搜索引擎爬取无效页面,集中权值到主要页面

  前提条件

  百度声明:robots工具目前支持48k的文件内容检测,请保证您的robots.txt文件不要过大,目录最长不超过250个字符。所以url不能太长,文件不能太大,48kb绰绰有余了。

  放置位置:robots.txt通常位于网站根目录,可以直接访问,如:http://www.sevenseo.cn/robots.txt

  会使用到的几个格式:

  User-agent: 这里放搜索蜘蛛名称

  Disallow:这里放不允许蜘蛛爬取的文件或目录

  Allow:这里放允许蜘蛛爬取的文件或目录(一般都是默认允许所以不写,特殊情况下才使用)

  “*”,星号通配符,便是泛指,进行模糊匹配

  “$”,这个符号是结束符

  “/”,开头斜杠一般指的首页或是网站根目录

  下面进行robots.txt写法实例说明

  1、禁止所有蜘蛛爬行

  user-agent:*

  Disallow: /

  如图淘宝禁止蜘蛛访问后,蜘蛛啥也抓不到。

robots怎么写

  2、禁止某个搜索蜘蛛/仅禁止某个蜘蛛访问

  user-agent:googlebot

  Disallow: /

  说明:表示不允许谷歌蜘蛛进行爬行,其它蜘蛛默认允许。

  3、仅允许某个蜘蛛访问

  user-agent:baiduspider

  Allow: /

  user-agent:*

  Disallow: /

  说明:表示仅允许百度蜘蛛访问,先允许后禁止所有蜘蛛,上下顺序可以交换。

  4、禁止蜘蛛访问某个特定目录

  user-agent:*

  Disallow: /123/

  Disallow: /456/

  说明:表示不允许所有蜘蛛访问123,456这两个目录,包括目录文件下的文件,每个目录都需要分开写。

  5、禁止蜘蛛访问以某个形式形成的文件

  user-agent:*

  Disallow: /123

  说明:表示禁止所有蜘蛛访问以123形式存在的文件,包括目录,一般多指目录,这种写法还是很少,存在歧义。

  6、禁止蜘蛛访问某个特定页面

  user-agent:*

  Disallow: /789.html

  说明:表示禁止所有蜘蛛访问789.html这个页面。

  7、放出某个被禁止访问文件下的部分文件

  user-agent:*

  Disallow: /123/

  Allow: /123/img/

  说明:上述写法本身已经禁止所有蜘蛛访问123目录,但是对于123目录下的img目录(包括此目录下的文件)单独允许蜘蛛访问。

  8、允许蜘蛛访问某个文件下的特定文件

  user-agent:*

  Disallow: /123/

  Allow: /123/*.html

  说明:表示禁止所有蜘蛛访问123目录,但对于123目录下的所有html文件允许访问。

  9、禁止蜘蛛访问某个文件下的特定文件

  user-agent:*

  Disallow: /123/*.html

  说明:仅禁止所有蜘蛛访问123目录下的所有html文件,其它文件照常访问。

  10、禁止蜘蛛访问动态页面

  user-agent:*

  Disallow:/*?*

  说明:用通配符表达不管问号前后是什么,只要带了问号参数的都直接禁止所有蜘蛛访问。有的时候有些人会专门刷你的问号主域页面,来做泛目录或寄生虫或搜索留痕,可以使用这个方法进行屏蔽,则蜘蛛不会在抓取也不会再收录,避免屏蔽漏掉应该再加一个,如下:

  user-agent:*

  Disallow:/*?*

  Disallow:/?*

  说明:不管问号前后是什么,或是单独问号后面是什么,都禁止所有蜘蛛抓取。

  11、禁止抓取某种特定文件

  user-agent:*

  Disallow:/*.jpg$

  Disallow:/*.css$

  Disallow:/*.js$

  说明:禁止所有蜘蛛访问jpg格式的图片、css样式表以及js文件,如要屏蔽所有图片,则将所有图片格式一个个列出即可。

  12、加入蜘蛛地图或页面地图文件

  user-agent:*

  sitemap:http://www.sevenseo.cn/sitemap.xml

  Sitemap:http://www.sevenseo.cn/sitemap.html

  说明:允许所有蜘蛛访问蜘蛛地图以及网站页面地图,加入地图有利于蜘蛛快速进行抓取,提高发现页面url的抓取途径。

  提示:

  一般来说网站程序文件,模板文件,数据文件可以进行屏蔽,如/bin/,/php/,/include/,/template/,/data/。

  网站后台文件也可以进行屏蔽,但要用通配符,以免被有心人利用,如:/houtai/,写成/h*i/,只要网站没有以这种开头和结尾的目录就可以使用这种,如存在歧义,则修改,如/ho*i/。

  robots.txt不是绝对,在多数情况下,文件里禁止爬行的文件都不会被访问,也不会被收录,但也存在被收录的情况,所以不要太绝对化。

robots文件的作用

  哪些时候需要使用该协议

  1:无用页面,很多网站都有联系我们,用户协议等页面,这些页面相对于搜索引擎优化来讲,作用不大,此时需要使用Disallow命令禁止这些页面被搜索引擎抓取。

  2:动态页面,企业类型站点屏蔽动态页面,有利于网站安全。且多个网址访问同一页面,会造成权重分散。因此,一般情况下,屏蔽动态页面,保留静态或伪静态页面。

  3:网站后台页面,网站后台也可以归类于无用页面,禁止收录有百益而无一害。


未经允许不得转载:七宝SEO » Robots文件有什么用?robots怎么写