提问者:月亮弯弯 | 分类:其他 | 浏览552次 | 悬赏分:0积分 2016-04-27 11:02:48
这个问题我一直不解,可能是因为我不会设置robots.txt文件的原因。其他人都说可以用robots去屏蔽不想被搜索引擎抓取的页面,但我很迷糊,到底哪些是不想被抓取的页面,都有哪些呢?
我要回答
之前就发现不少企业网站和个人网站都没有设置robots.txt文件,也了解了下,部分原因是因为他们不懂怎么去设置robotsl.txt文件,当然也和他们不愿意学习所造成的一部分因素。那么,我这里简单的说下吧: ①:网站程序安装后自带的数据文件夹,例如隐私数据、用户信息、管理后台页面等,可以看些帝国CMS自带的robots文件默认设置,你也可以看下DZ论坛的。 ②:屏蔽掉动态URL,这个是我们最经常做的,如果我们做了伪静态以后,不希望动态URL被抓取,就可以对动态URL做屏蔽抓取。 ③:网站改版或出于某种原因突然删除很多页面造成大量死链,这个时候会对网站造成很大的影响,很多站长第一反应就是找到死链并删除,那么这里就可以通过robots去屏蔽这些死链,理论上来说百度不会突然发现网站上有太多的死链,或者两者同时进行。当然,站长最好把自己站内的死链处理干净。