或者

爬虫抓取方式分类说明

作者:dengying 浏览:1927 发布时间:2015-05-25
编辑 分享 评论 0

  

    一个网站想被搜索引擎(百度、谷歌等)收录,是靠索引爬虫抓取的。那么爬虫是怎么抓取的呢?下面跟大家解说一下:

  爬虫的抓取方式一般可以分为累积式抓取和增量式抓取两种。

  累积式抓取是指从某一个时间点开始,通过遍历的方式抓取系统所能允许存储和处理的所有网页。在理想的软硬件环境下,经过足够的运行时间,累积式抓取可以保证取到相当规模的网页集合。但由于Web数据的动态特性,已抓取的网页可能出现更新或死链的情况,因此积累式抓取到的网页集合事实上并无法与真实环境中网络数据保持一致。

  增量式抓取是指在具有一定量规模的网页集合的基础上,采用更新数据的方式选取已在集合中的过时网页进行抓取,以保证所抓取的数据与真实网络数据足够接近。进行增量式抓取的前提是,系统已经抓取了足够数量的网页,并具有这些页面被抓取的时间信息


词条统计

  • 浏览次数:1927
  • 编辑次数:0次历史版本
  • 最近更新:2015-05-25
  • 创建者:dengying
  • 相关词条

    相关问答

    相关百科

    相关资讯