或者

屏蔽蜘蛛抓取的五个办法

作者:dengying 浏览:3306 发布时间:2015-06-17
编辑 分享 评论 0

  

    怎样屏蔽蜘蛛的抓取,我们常用的办法有两个,一个是编辑robots.txt文件,另外一个是在不想被收录的页面头部放置META NAME="ROBOTS"标签。

  所谓的robots.txt文件,是每一个搜索引擎到你的网站之后要寻找和访问的第一个文件,robots.txt是你对搜索引擎制定的一个如何索引你的网站的规则。通过这个文件,搜索引擎就可以知道在你的网站中,哪些文件是可以被索引的,哪些文件是被拒绝索引的。

  绝大多数站长都知道,网站能够在搜索引擎里获得很好的排名是非常重要的,于是很多站长竭尽讨好搜索引擎之能事,恨不得把搜索引擎的蜘蛛当成皇上来看待,希望能够获得蜘蛛的赏识,从而提升网站的排名,可是事实上,即使把蜘蛛伺候好了,也不能够获得很好的排名,这是为什么呢?因为蜘蛛并没有人类的情感,即时你把它当成皇上他也对你毫无怜悯,该怎样就怎样,所以在网站优化方面,并不是对蜘蛛越好优化效果就越好,而是要懂得取舍!要学会屏蔽一些蜘蛛的技巧!比如除了限制蜘蛛在ADMIN和DATA上的爬行,还可以在其他的目录上适当的屏蔽蜘蛛,也是非常有好处的,下面就来分析几种屏蔽蜘蛛的技巧!

  一:图片和模板目录都可以进行屏蔽

  因为目前很多站长都是在互联网上找相同的图片和套用现成的模板,这些模板和图片已经在互联网泛滥了,此时你还让你的网站被蜘蛛再次爬行这些老掉牙的东西,自然会让蜘蛛非常的反感,从而让你的网站贴上模仿作弊的标签,想要获得搜索引擎的青睐反而是更加困难,所以IMAGES目录通常可以屏蔽!

  二:缓存目录可以屏蔽,防止重复索引

  蜘蛛是非常贪婪的,只要你给他喂食,它是不管真实还是虚幻都照单全收,比如网站的缓存目录里面的内容,蜘蛛也会照样来进行索引,这势必和网站里面的内容出现了重复,如果出现重复的数量过多,那么百度的算法机制就会认为你的网站在作弊,从而甚至提升你网站的权重,给网站带来极大的影响,通常每种建站程序的缓存目录是不一样的,要根据不同的建站程序来屏蔽相应的缓存目录是很有必要的!

  三:CSS目录及部分RSS页需要屏蔽

  CSS目录对于蜘蛛而言是完全无用的,抓取后反而会影响搜索引擎算法的判断,所以可以通过ROBOTS.TXT文件来进行屏蔽,另外很多建站程序的RSS页也是一种内容的重复,抓取后也会造成搜索引擎的误判断,这两个方面的内容都需要屏蔽!这种屏蔽看起来是对蜘蛛的大不敬,实际上却如良药苦口利于病!忠言逆耳利于行!

  四:如果有双页面,那么优先屏蔽动态页面

  一般而言,网站的静态页面是很容易被搜索引擎收录,通常蜘蛛抓取和收录是两回事,网站除了静态页面之外,大部分网站还存在着动态的页面,比如“www.XXXX/1.html这两个指的是同一个页面,如果不进行屏蔽的话,势必造成两个页面同时被蜘蛛抓取,可是到了搜索引擎算法判断的时候,因为发现了两个一样的页面,就会认为你网站存在作弊的嫌疑,所以加大对你网站的考察力度,从而影响到网站的排名,所以正确的做法是优先屏蔽网站的动态页面!

  五:服务器屏蔽

  许多空间商为了减少服务器负担,故意屏蔽蜘蛛抓取,导致网站无法被搜索引擎收录,在这里我们也可以设置利用服务器屏蔽搜索器的抓取。主要原理是分析网站日志,找到搜索引擎抓取的IP,然后对其IP进行屏蔽。但是这种方法并不是很实用,毕竟不能屏蔽单页面和修改都不是很灵活。具体方法需要参考服务器设置。


词条统计

  • 浏览次数:3306
  • 编辑次数:0次历史版本
  • 最近更新:2015-06-17
  • 创建者:dengying
  • 相关词条

    相关问答

    相关百科

    相关资讯