或者

分析揭破百度标题规则优先级

作者:冬瓜神祇 浏览:120 发布时间:2017-08-29
分享 评论 0

关于百度标题各个规则优先级的梳理,以 pc 端为例。

服务器

1. 百度蜘蛛判断网页编码字符集
2. 抓取网页标题,部分繁简转换
3. 部分全角标点符号转换半角标点符号
4. 阿拉丁结果(sp)、最新相关信息(中间页)等优先级高于过滤重复标点符号
5. 把连续重复超过 3 次的部分标点符号替换为 3 次

客户端

1. 选择何种编码的百度搜索(UTF-8, GB2312, Big5, etc.)
2. 搜索框输入查询字符串
3. “百度一下”替换不同编码,并将部分全角符号替换为半角符号及安全过滤
4. HTML 实体转换
5. 是否开启不纠错策略 f=12&nojc=0(开),f=13&nojc=1(闭)

服务器

1. 编码转换
2. F2-78 参数所指策略
3. 标题前后缀
4. 分词技术
5. 匹配飘红
6. 计算可展现字数
7. 各种截断

客户端

1. 展现在用户眼前的可见标题(3-64 字节)
2. 点击标题

服务器

1. 用户点击过的标题以 4-65 字节长度存入数据库

1.2 平板电脑

www.baidu.com/s?dsp=ipad&wd=ipad Pad 版

百度 Pad 版研究不多,新买了一块 iPad mini 2 测试 Pad 版搜索结果标题长度,大致和 pc 端规则一致。