或者

网页查重技术简单介绍

作者:dengying 浏览:2035 发布时间:2015-06-24
编辑 分享 评论 0

  

    对于搜索引擎来说,重复的网页内容是非常有害的。重复网页的存在意味着这些网页就要被搜索引擎多处理一次。更有害的是搜索引擎的索引制作中可能会在索引库里索引两份相同的网页。当有人查询时,在搜索结果中就会出现重复的网页链接。所以无论是从搜索体验还是系统效率检索质量来说这些重负网页都是有害处的。

  网页查重技术起源于复制检测技术,即判断一个文件内容是否存在抄袭、复制另外一个或多个文件的技术。

  网页和简单的文档不同,网页的特殊属性具有内容和格式等标记,因此在内容和格式上的相同相似构成了4种网页相似的类型。

  1、两个页面内容格式完全相同。

  2、两个页面内容相同,但格式不同。

  3、两个页面部分内容相同并且格式相同。

  4、两个页面部分重要相同但格式不同。


词条统计

  • 浏览次数:2035
  • 编辑次数:0次历史版本
  • 最近更新:2015-06-24
  • 创建者:dengying
  • 相关词条

    相关问答

    相关百科

    相关资讯