或者

搜索引擎蜘蛛的三个特性

作者:dengying 浏览:3358 发布时间:2015-05-21
编辑 分享 评论 0

  

    1、抓取网页覆盖率

  对于现在的搜索引擎来说,还没有哪个搜索引擎能抓取互联网上出现的所有网页,所有搜索引擎只能索引互联网的一部分而已,这里就有一个概念——“暗网”,暗网是指目前搜索引擎蜘蛛按照常规方式很难抓取到的互联网页面,蜘蛛是依赖页面中的链接发现新的页面,进而抓取索引,但是很多页面内容是以数据库方式存储的。这样蜘蛛很难或无法抓取这些信息,结果就是用户也无法在搜索引擎搜索得到这些信息。

  2、抓取网页的重要性

  蜘蛛抓取了很多内容,也及时更新了,但如果抓取的都是一些低质量内容,那肯定是不行的。尽管要多抓勤抓,但是每个网页重要性差异很大,这就是矛盾的地方,搜索引擎蜘蛛不仅要干得多、干得快、还要干得好。所以必然会优先照顾部分能经常提供高质量内容的网站,特别是定时定量更新的,这样才能最大程度上保证优质内容不被漏掉,这也可以说是没办法的办法。如果搜索引擎蜘蛛抓回的网页大都是比较重要的网页,则可说其在抓取网页重要性方面做得很好。

  3、抓取网页时效性

  说到用户的搜索体验,网页的时效性相对覆盖率句更加直观了,比如你在搜索结果搜索到了一个结果,当你点击后页面是不存在的,作何感想搜索引擎是在努力避免这些的,所以蜘蛛抓取网页时效性同样是一个重要考核点。互联网信息比较多,蜘蛛抓取一轮需要较长的时间周期,这个时间内之前建立索引的很多网页可能已经发生变化或者被删除,这就导致搜索结果中有一部分是过期的数据。


词条统计

  • 浏览次数:3358
  • 编辑次数:0次历史版本
  • 最近更新:2015-05-21
  • 创建者:dengying
  • 相关词条

    相关问答

    相关百科

    相关资讯