经典重庆

标题: Robots规则常见误区及Google百度Robots工具的使用 [打印本页]

作者: 另一种静    时间: 2016-1-17 22:09
标题: Robots规则常见误区及Google百度Robots工具的使用
  关于robots.txt文件关于网站的作用咱们都知道,可是经过调查发现,有些兄弟关于robots.txt文件的规矩还是有必定的误区。
          比方有许多人这么写:
          User-agent: *
          Allow: /
          Disallow: /mulu/
          不知道咱们有没有看出来,这个规矩其实是不起作用的,
柳州桑拿 第一句Allow: / 指的是答应蜘蛛匍匐一切内容,第二句Disallow: /mulu/指的是制止/mulu/下面的一切内容。
          表面上看这个规矩想到达的意图是:答应蜘蛛匍匐除了/mulu/以外的网站一切页面。可是搜索引擎蜘蛛履行的规矩是从上到下,这么会形成第二句指令失效。
          准确的规矩应当是:
          User-agent: *
          Disallow: /mulu/
          Allow: /
          也即是先履行制止指令,再履行答应指令,这么就不会失效了。另外关于baidu蜘蛛来说,还有一个简单犯的过错,那即是Disallow指令和Allow指令以后要以斜杠/开头,所以有些人这么写:Disallow: *.html 这么对baidu蜘蛛来说是过错的,应当写成:Disallow: /*.html 。
          有时分咱们写这些规矩可能会有一些没有注意到的疑问,如今能够经过baidu站长东西(zhanzhang.baidu.com)和Google站长东西来测验。相对来说baidu站长东西robots东西相对粗陋一些:
          
          
          
          baiduRobots东西只能检查每一行指令是不是符合语法规矩,可是不检查实际作用和抓取逻辑规矩。
          相对来说Google的Robots东西好用许多,如图:
          
          在谷歌站长东西里的名称是抓取东西的权限,并陈述Google抓取网站页面的时分被拦截了多少个网址。
          
          还能够在线测验Robots修正后的作用,当然这儿的修正只是测**,如果没有疑问了,
http://www.guangxisangna.net能够生成robots.txt文件,或许把指令代码复制到robots.txt文本文档中,上传到网站根目录。
          
          Google的测验跟baidu有很大的差异,它能够让你输入某一个或许某些网址,测验Google蜘蛛是不是抓取这些网址。
          
          测验结果是这些网址被Google蜘蛛抓取的情况,这个测验关于Robots文件对某些特定url的规矩是不是有用。而两个东西结合起来当然更好了,这下应当完全理解robots应当怎样写了吧。






欢迎光临 经典重庆 (http://bbs.jdcq.net/) Powered by Discuz! X3.1