蜘蛛爬行网站时,首先便会先看一下是否存在robots.txt,如果存在,便会先从这里下手,然后根据robots.txt的指引一步步爬下去。所以说,robots.txt对于网站的重要性是不言而喻的,很多站长也通过设置robots.txt来人为地引导蜘蛛爬行一些目录,忽略一些目录。
那么对于robots.txt的写法,网上搜索一下,能发现很多关于robots.txt如何写的文章,对于这些文章是否有效,新锐并没有一一去实践,这里要给大家介绍的是一点robots.txt定义时的一些注意事项,大家在写robots.txt需要更加注意。
Robots.txt编写的开放性问题
很多站长,尤其是新手站长对于Robots.txt的理解过于片面,他们认为既然Robots.txt可以规定蜘蛛的访问途径,那我们何必不开放,把所有文件都设置成可访问,这样一来网站的收录量不久立即上升了,其实问题远远没有我们想象的简单,大家都知道网站中一些固定的文件是不必传送给搜索引擎访问的,如果我们把网站“全方位开放”,后果就是加大网站服务器负载,降低访问速度,减缓蜘蛛的爬行率,对于网站收录没有一点用处,所以对于固定不需要访问的文件,我们直接Disallow掉就可以了。
一般情况下,网站不需要访问的文件有后台管理文件、程序脚本、附件、数据库文件、等等。
Robots.txt的就近原则
举个最简单的例子,如果你想让自己a文件中的b.html被抓取,那么你怎么编写呢?是
Allow:/a/b.html Disallow:/a/ 还是Disallow:/a/ Allow:/a/b.html这样?
在Robots.txt编写规则中,它并不执行树状分析结构,换句话说编写时并不应该把母文件夹放在最前,而是遵循一种就近原则,如果我们把母文件夹放在前面,蜘蛛会认为这个途径被封闭了,不能访问,而我们最终的目的却是访问,这样一来,目标和实际就大相迳庭了。
Robots.txt编写的细节性问题
1.反斜杠的插入
还是以Disallow:/a/b.html为例,在编写该语句的时候,如果忘记加入了反斜杠,则是对全部内容进行开放,这与编写语句的想法相悖,因为反斜杠的意义是根目录。
2.空格的出现
空格的出现就很好理解了,因为搜索引擎对于这个特殊符号的出现并不识别,它的加入只会使语句失去应有的效用。
每个人都有自己的隐私,网站也是这样,网站中也有不希望被蜘蛛看到的东西,有效的利用Robots.txt可以更好地告诉蜘蛛哪里该去,哪里不该去,但是一定要注意Robots.txt的规范性,一点小差别,对你的网站造成的可能就是非常大的影响。