或者

如何写robots.txt文件才能集中网站权重

作者:逐梦网络 浏览:158 发布时间:2017-04-27
分享 评论 0

一:什么是robots协议

robots协议(也称为爬虫协议、爬虫规则、机器人协议等)也就是robots.txt,网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不希望被抓取。

• Robots协议是网站国际互联网界通行的道德规范,其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。

• 因其不是命令,是一种单方面协议,故需要搜索引擎自觉遵守。

二:robots.txt放置位置

robots.txt文件应该放置在网站根目录下。

例如,当spider访问一个网站(比如 http://www.taobao.com)时,首先会检查该网站中是否存在http://www.taobao.com/robots.txt这个文件,如果 Spider找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。

三:robots.txt文件的写法

操作步骤:

1.新建一个文本文档,命名为robots.txt

2.开始写robots

User-agent: *   (*针对所有搜索引擎)

Disallow: /     (禁止爬取所有页面,/代表目录)

Disallow: /admin/ (禁止抓取admin目录)

Disallow: /admin (禁止抓取包含admin的路径)

Allow: /admin/s3.html    (允许抓取admin目录下s3.html文件)

一个“/”表示路径,两个“/”表示文件夹

Allow: /admin/php/  (允许抓取admin下面的php文件的所有内容)

Disallow: /.css$ (禁止抓取所有带.css的文件)

sitemap:***

注意:

• 冒号后面有空格,空格后面都有/(都要以/开头),开头第一个字母大写

• 因为搜索引擎蜘蛛来抓取网站的时候最先看的就robots文件,我们把网站地图的地址放到robots协议中有利于搜索引擎蜘蛛的抓取,从而提高网站的收录。