或者

百度VIP大讲堂北京站课堂笔记详细版

作者:浅色记忆 浏览:87 发布时间:2017-09-08
分享 评论 0

一、站点结构

  1、逻辑清晰的链接层次结构

  A、以首页为根节点的树状连通图

  B、避免过于扁平化的结构

  C、避免孤岛链接

  首页-频道-索引-内容页

  注意: 不利于spider抓取的情况

  1、通过query(搜索)检索得到的内页。

  2、需要相应设置才能访问内页的情况

  ………………………………………………

  2、PC/移动适配

  1)建立适配:PC与移动端URL,有规则级的对应关系,且相互关联

  2)不建议做法

  A、单一域名下多种配置方式

  B、把移动站作为PC下一级目录,如: 3w。a.com/m/

  3、数据主动提交

  新产出链接与发生变化的资源链接应及时提交(避免死链)

  4、避免目录被黑或售卖

  二、页面结构

  1、不建议使用js加载页面内容

  1)内容放置js中,影响索引

  2)链接和锚文本的链接

  注: 1)索引页js渲染点击事件才发生链接

  2)显示一部分,点击加载全文/下拉

  2、移动友好性标准

  3、索引页友好性

  1)排版布局:

  A、按发布时间顺序、忌时间错乱(置顶内容可模块化处理)

  B、不要漏链(孤岛)

  2)内容质量

  A、只包括同主题内容页

  B、保持与内容同步更新

  C、避免交叉泛滥索引页

  4、索引页翻页友好性(PC端)

  1)1 2 3 顺序排序

  如果可能,尽量列举全部翻页,至少保留最近一段时间的所有内容

  2)不友好做法

  A、仅有上一页、下一页

  B、URL以页数控制,不要用URL起始数量

  C、翻页后链URL与翻页页码关联

  5、索引页翻页友好性(移动端)

  A、采用PC端翻页建议

  B、采用下拉动作触发加载,下拉次数上限为3次

  C、针对百度UA特殊处理,返回更完整的翻页内容

  注意: 不友好做法

  无限下拉、点击加载更多

  三、抓取限制

  1、避免预期以外的封禁

  1)UA/IP封禁

  A、建站模板中包含的封禁信息,被迁移

  B、服务器自动封禁策略

  C、网站所在空间服务商封禁IP

  2、建议

  服务器设置排查,确保robots、UA、IP设置是否符合预期

  3、死链接反馈

  对于百度蜘蛛的抓取,返回404等明确状态码

  ………………………………………………

  深度解读百度抓取提升神器-链接提交

  高级工程师 刘立

  1、主动提交(实时提交)原理

  传统: 网站发布新页面-等待百度爬虫逐层遍历发现-百度爬虫发现网页

  实时: 网站发布新页面-百度爬虫发现网页

  2、大量提交垃圾和重复页面的站点,限制提交或关闭