Robots规则常见误区及Google百度Robots工具的使用

另一种静 · 发表于 2016-1-17 22:09

登陆享受更多浏览权限哟~

您需要登录才可以下载或查看，没有帐号？入驻经典

x

　　关于robots.txt文件关于网站的作用咱们都知道，可是经过调查发现，有些兄弟关于robots.txt文件的规矩还是有必定的误区。
      　　比方有许多人这么写：
      　　User-agent: *
      　　Allow: /
      　　Disallow: /mulu/
      　　不知道咱们有没有看出来，这个规矩其实是不起作用的，柳州桑拿第一句Allow: / 指的是答应蜘蛛匍匐一切内容，第二句Disallow: /mulu/指的是制止/mulu/下面的一切内容。
      　　表面上看这个规矩想到达的意图是：答应蜘蛛匍匐除了/mulu/以外的网站一切页面。可是搜索引擎蜘蛛履行的规矩是从上到下，这么会形成第二句指令失效。
      　　准确的规矩应当是：
      　　User-agent: *
      　　Disallow: /mulu/
      　　Allow: /
      　　也即是先履行制止指令，再履行答应指令，这么就不会失效了。另外关于baidu蜘蛛来说，还有一个简单犯的过错，那即是Disallow指令和Allow指令以后要以斜杠/开头，所以有些人这么写：Disallow: *.html 这么对baidu蜘蛛来说是过错的，应当写成：Disallow: /*.html 。
      　　有时分咱们写这些规矩可能会有一些没有注意到的疑问，如今能够经过baidu站长东西(zhanzhang.baidu.com)和Google站长东西来测验。相对来说baidu站长东西robots东西相对粗陋一些：
      　　
      　　
      　　
      　　baiduRobots东西只能检查每一行指令是不是符合语法规矩，可是不检查实际作用和抓取逻辑规矩。
      　　相对来说Google的Robots东西好用许多，如图：
      　　
      　　在谷歌站长东西里的名称是抓取东西的权限，并陈述Google抓取网站页面的时分被拦截了多少个网址。
      　　
      　　还能够在线测验Robots修正后的作用，当然这儿的修正只是测**，如果没有疑问了， http://www.guangxisangna.net能够生成robots.txt文件，或许把指令代码复制到robots.txt文本文档中，上传到网站根目录。
      　　
      　　Google的测验跟baidu有很大的差异，它能够让你输入某一个或许某些网址，测验Google蜘蛛是不是抓取这些网址。
      　　
      　　测验结果是这些网址被Google蜘蛛抓取的情况，这个测验关于Robots文件对某些特定url的规矩是不是有用。而两个东西结合起来当然更好了，这下应当完全理解robots应当怎样写了吧。

经典重庆

Robots规则常见误区及Google百度Robots工具的使用

登陆享受更多浏览权限哟~

浏览过的版块