SEO网站优化:网站Robots文件优化
本文由 金楠 于 2017-2-6 16:55 发布在 SEO网站优化 阅读:3847
网站Robots文件是一个文本文件,一般以robots.txt形式,存放在网站根目录下。如新浪博客的robots文件:http://blog.sina.com.cn/robots.txt。大部分搜索引擎在抓取网站内容时,都会先在根目录寻找是否有robots.txt文件,因为Robots就是网站和搜索引擎的一个协议。网站不希望搜索引擎抓取的内容,搜索引擎是不会抓取的,而网站需要抓取的内容可以写出来,也可以不写。
就在笔者写到Robots这节时,百度的工程师赵明华称,360综合搜索违背Robots协议,肆意抓取百度数据。这里我们暂不谈360搜索,是否有违背Robots协议的行为,先来看下百度Robots文件是怎么写的?它是怎么禁止别的搜索引擎收录它的数据?如下:
User-agent: Baiduspider
Disallow: /baidu
Disallow: /s?
User-agent: Googlebot
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
User-agent: MSNBot
重复部分被省略......
User-agent: Baiduspider-image
重复部分被省略......
User-agent: YoudaoBot
重复部分被省略......
User-agent: Sogou web spider
重复部分被省略......
User-agent: Sogou inst spider
重复部分被省略......
User-agent: Sogou spider2
重复部分被省略......
User-agent: Sogou blog
重复部分被省略......
User-agent: Sogou News Spider
重复部分被省略......
User-agent: Sogou Orion spider
重复部分被省略......
User-agent: JikeSpider
重复部分被省略......
User-agent: Sosospider
重复部分被省略......
User-agent: *
Disallow: /
说明:由于篇幅原因,这里将代码中与第一项Googlebot相同部分省略。Robots文件中每一项之间用空行隔开。
User-agent:用户代理,用户信息的标示。即为此访问用户是谁,一般写漫游器的名称,这里针对搜索引擎,就是填写蜘蛛机器人的名称。例如上面代码中的Baiduspider、Googlebot、MSNBot、Sogou web spider、Sosospider、YoudaoBot等,他们分别代表百度蜘蛛、谷歌机器人、MSN机器人、搜狗蜘蛛、搜搜蜘蛛、有道机器人。希望阻止哪个搜索引擎爬行收录,就写上相应蜘蛛的名字。
Disallow:拒绝收录,即要阻止搜索引擎抓取的内容。可以写文件的名称,也可以是整个目录。例如Disallow: /shifen/,即不允许收录shifen目录下的内容。百度这里还写了个Disallow: /baidu?和Disallow: /s?代码,它的意思是禁止收录查询的内容,因为百度搜索结果地址为http://www.baidu.com/baidu?和http://www.baidu.com/s?开头。所以百度为了防止,自己收录自己的查询结果,也更防止其他搜索引擎检索它的收录和排名结果。
Allow:允许收录,即同意搜索引擎检索和收录的内容。这里需要说的是,即使把网站全部内容写上,搜索引擎也不一定会全部收录,这里只是告诉搜索引擎这些内容,是允许被收录的。因为默认的情况下,搜索引擎即认为允许被收录,所以写上Allow和不写是没差别的,它的写法和Disallow是一样的。
在Robots文件中还有一些通配符:*、$等字符,$应放在尾部。他们有替代和类的意思,即表示某一类的文件,例如 /*?* 、.png$等,意思是动态页面和所有png格式的图片。
那么我们可以利用上述指令,完成网站收录与禁止收录的Robots协议。
User-agent: *
allow: /
以上为允许所有搜索引擎收录所有页面。
User-agent: *
Disallow: /
以上为禁止所有搜索引擎收录所有页面。
User-agent: *
Disallow: /*?*
Disallow: .png$
Disallow:/about.html
以上为禁止所有搜索引擎收录所有动态页面、png格式图片和说明页面。
网站内允许收录和禁止的页面,通过Robots文件可以与搜索引擎达成协议。我们可以利用这个协议,将我们非目标的页面,进行禁止收录,从而减少权重的分散。在Robots文件中,可以一次性禁止收录4.8.2说到的页面,如关于我们,版权申明,帮助等内容。
本文节选自金楠所著《SEO搜索引擎实战详解》一书,更多内容可关注金楠博客或者选择购买本书。
相关阅读:点击看看吧!
seo网站优化频道:http://www.jonanseo.com/sort/1
软文营销频道:http://www.jonanseo.com/sort/2
互联网产品频道:http://www.jonanseo.com/sort/4
互联网思维频道:http://www.jonanseo.com/sort/5
本文为金楠博客原创文章,转摘请注明出处。
发表评论: