或者

搜索引擎是如何处理并且删除重复网页的

作者:dengying 浏览:2133 发布时间:2015-06-10
编辑 分享 评论 0

  因为互联网上有大约22%的内容是相同的,一旦你的文章发表在网上,就有可能会被转载,而一般判断帮你的网页为转载,那么搜索引擎一般会从三个时间段来删除你的网页:

  (1)抓取页面的时候删除,这样可以减少搜索引擎带宽以及减少存储数量;

  (2)收录之后删除重复网页;

  (3)用户检索时候进行再次删除;增加准确性,耗费时间;

  内容重复的4种类型:

  1.如果2篇文章内容和格式上毫无差别,则这种重复叫做“完全重复页面”

  2.如果2篇文章内容相同,但是格式不同,则叫做“内容重复页面”

  3.如果2篇文章有部分重要的内容相同,并且格式相同,则称为“布局重复页面”

  4.如果2篇文章有部分重要的内容相同,但是格式不同,则称为“部分重复页面”

  删除重复网页对于搜索引擎有很多好处:

  1.如果这些重复网页并从搜索引擎数据库中去掉,就能节省一部分存储空间,提高检索的质量。

  2.为了提高网页的搜集速度,搜索引擎会对以往搜集信息的分析,预先发现重复网页,在今后的网页搜集过程中就可以避开这些网页,这就是为什么总转载的网站排名不高的原因了。

  3.对某个镜像度较高的网页,搜索引擎会赋予它较高的优先级,当用户搜索时就会赋予它较高的权重。

  4. 近似镜像网页的及时发现有利于改善搜索引擎系统的服务质量,也就是说如果用户点击了一个死链接,那么可以将用户引导到一个相同页面,这样可以有效的增加用户的检索体验。

  通用去重算法框架

  对于网页去重任务,具体可以采取的技术手段五花八门,各有创新和特色,但是如果仔细研究,其实大致都差不多。

  上图给出了通用算法框架的流程图,对于给定的文档,首先要通过一定特抽取手段,从文档中抽取出一系列能够表征文档主题内容的特征集合。这一步骤往往有其内在要求,即尽可能保留文档重要信息,删除无关信息。之所以要删除部分信息,主要是从计算速度的角度考虑,一般来说,删除的信息越多,计算速度会越快。

  这就是为什么你想做的关键字总没有排名,反而不想做的关键词却能排名靠前的原因之一,搜索引擎把它认为不重要的词语删除了。


词条统计

  • 浏览次数:2133
  • 编辑次数:0次历史版本
  • 最近更新:2015-06-10
  • 创建者:dengying
  • 相关词条

    相关问答

    相关百科

    相关资讯