或者

关键词布局如何利用截断与分词技术

作者:冬瓜神祇 浏览:112 发布时间:2017-08-29
分享 评论 0

百度搜索 林依晨订婚,林依晨 和 订婚 是分开飘红的,可以推测百度事先已经分过词,飘红后再计算分开的每个词汇字数是否超出了 64 字节。

案例 5

小学作文_小学作文大全_小学作文题目_素材_百度文库作文库_百度文库 //网页

网上没有找到百度网页搜索分词的源代码,用百度音乐前端的 Chinese Segment (基础语料分词示例)勉强代替。

分词结果

小学 作文 _ 小学 作文 大全 _ 小学 作文 题目 _ 素材 _ 百度 文库 作 文库 _ 百度 文库
小学作文_小学作文大全_小学作文题目_素材_百度文库作..._百度文库 //serp

分词后的截断并非机械地按照超过 63 字节上限加省略符号,而是计算到第 50 个字节 作,虽然后面还有内容,但省略符号占 3 字节,_百度文库占 9 字节,若再加一个汉字,(50+3+9+2) = 64  就超出 63 字节上限,便去掉 文库,在第 50 个字节 作 这儿截断。

//拼接title$data['offsetInfo']['title'] = "\2".$queryInfo['wordNoSyntax']."\3_百度文库";百度文库的标题长度,末尾的 _百度文库 是占用9字节的标题所以文库的标题长度只要超过 54 字节就会出现省略号...