刚写了一篇文回忆了新站长们优化过程中容易犯下的小错误,中间提到了robots.txt机器人协议,不禁就想跟大家讨论一下robots.txt机器人协议的使用技巧。网站优化是个长期的工作,同时也是一个互动的工作,闭门造车的站长不会是一个好站长,所以希望大家能多多交流。不足之处,请斧正。
废话不多说,咱们开始进入正题。robots.txt机器人协议大家都知道是为了规范蜘蛛爬行而设定的,大家一般会在其中常规性的禁止蜘蛛爬行data、tmp这些目录,也会禁止其爬行会员、订单、库存等等模块。但除了这些常规用法之外,robots.txt机器人协议对我们优化工作其实,还有很多小技巧可以配合使用,让我们的网站优化工作更好进行。
一、通过禁止爬行动态页或某些页面,减少重复收录
首先就是很多人都知道的禁止蜘蛛爬行动态页,减少整个网站的重复收录问题。好处就是利于整个网站内容页面的权重集中,不容易因为重复收录导致内容页面权重分散等等。这是这个技巧对与常规网站的一般意义,但是对于商城站、资讯站、问答站等大型网站,这种规范意义却是十分大的。
1、商城、B2B等大型网站条件过滤页
在商城、B2B等大型网站中,常常会涉及到条件过滤的问题,即通过删选产品的规格、品牌等会出现大量相似页面。假如这个问题不能有效解决就会造成网站大量相似内容被重复收录等等,一般而言这种问题可以通过运用应针对行的进行一些URL屏蔽工作,或者考虑采用ajax形式。但效果而言,没有直接使用robots.txt机器人协议效果好,推荐还是在URL静态化规则做好的基础上通过robots.txt禁止抓取动态页面来进行处理。
2、资讯站评论页面
资讯站页面评论跟条件过滤页相似,也需要通过robots.txt配合URL规则设置屏蔽掉动态页面,防止重复收录等问题。
3、其他类似情况
在B2B、招聘、威客网站当中也会有类似的问题,这些情况都可以使用robots.txt来有效的规范蜘蛛爬行,从而规避重复收录等等。
二、诱导蜘蛛爬行重要页面,提高蜘蛛爬行效率
这个小技巧主要是配合网站地图和聚合页标签使用,为的是给这些重要页面提供更多入口方便蜘蛛爬行。网站地图、聚合页标签伪装的列表页等等是蜘蛛爬行最为快捷方便的地方,通过robots.txt协议中Allow命令的使用,让蜘蛛优先爬行这些页面,自然收录情况也就更好。
三、调整网站权重分配
通过robots.txt协议可以有效的调整网站的整体权重,配合nofflow标签等使用将权重导向网站的重点栏目或者重点页面,达到合理分配整站权重的作用。
四、擦边球做法
在提高网站相关度的一种首发中,就是利用robots.txt协议。其在根目录中防置大量的TXT文档,在TXT文档中嵌入大批量的关键词,然后通过robots.txt诱导蜘蛛去爬行这些目录。当然这里不是让大家也这么做,毕竟黑帽手段不长久,咱们说的是安全的小技巧。
这里不知道有没有站长的网站被挂马过,特别是被寄生虫肆虐过的站长更是很悲愤吧。不过咱们换个思路看,寄生虫这种方法,也未尝不是我们做网页收录的一个好办法。即通过设计一些页面模版,然后通过程序批量生成大量页面,将这些页面按照规则放置到对应的新目录中,通过robots.txt诱导蜘蛛爬行,收录效果也很不错。当然,这种手段做的话,页面模版必须做的很优秀才可以,不然将会很大的影响用户体验,希望站长们注意。
PS:如果您不懂怎么写robots.txt文件,可以选择站长工具网的在线生成工具:https://tool.zzvips.com/t/robots/