或者

CND加速器对蜘蛛抓取会有影响?

作者:dengying 浏览:1972 发布时间:2015-05-20
编辑 分享 评论 0

  

    百度的官方文档里有过说明CDN的动态IP会引起爬虫的抓取下降;确实这次通过自己的网站实践到网站抓取量确实受到CDN的影响。

  1、动态IP会影响爬虫的抓取;

  2、如果CDN对爬虫没有影响,CDN的商家不会推出搜索引擎线路的服务;

  3、换域名的DNS并不难,为什么不换呢;

  4、从1万多降到1000多,已经很能说明问题了;

  5、百度的抓取机制是:第一次访问后,为了快速抓取,会把域名对应IP给缓存起来,第二次就不访问域名的DNS解析了,直接访问缓存的IP;CDN的ip节点是动态变化的,这就会造成第二次访问了原先的IP,会报错

  6、用户访问的时候:浏览器通过DNS查找用户输入网址对应的服务器IP地址。如果IP存在尝试与服务器建立TCP连接。

  7、爬虫访问的时候:通过第一次缓存的域名对应IP的关系,直接访问,而不经过DNS查询;这样就可能出错,因为第一次访问的IP和第二次访问的IP是不一样的,就会抓取不了;

  而用户访问是每次都查询了DNS解析,所以不会出错;造成的情况就是,用户访问没问题,爬虫抓取会报错;


词条统计

  • 浏览次数:1972
  • 编辑次数:0次历史版本
  • 最近更新:2015-05-20
  • 创建者:dengying
  • 相关词条

    相关问答

    相关百科

    相关资讯