SEO网站优化:网站Robots文件优化

本文由 金楠 于 2017-2-6 16:55 发布在  SEO网站优化    阅读:3301      

  网站Robots文件是一个文本文件,一般以robots.txt形式,存放在网站根目录下。如新浪博客的robots文件:http://blog.sina.com.cn/robots.txt。大部分搜索引擎在抓取网站内容时,都会先在根目录寻找是否有robots.txt文件,因为Robots就是网站和搜索引擎的一个协议。网站不希望搜索引擎抓取的内容,搜索引擎是不会抓取的,而网站需要抓取的内容可以写出来,也可以不写。

  就在笔者写到Robots这节时,百度的工程师赵明华称,360综合搜索违背Robots协议,肆意抓取百度数据。这里我们暂不谈360搜索,是否有违背Robots协议的行为,先来看下百度Robots文件是怎么写的?它是怎么禁止别的搜索引擎收录它的数据?如下:

User-agent: Baiduspider

Disallow: /baidu

Disallow: /s?

User-agent: Googlebot

Disallow: /baidu

Disallow: /s?

Disallow: /shifen/

Disallow: /homepage/

Disallow: /cpro

User-agent: MSNBot

重复部分被省略......

User-agent: Baiduspider-image

重复部分被省略......

User-agent: YoudaoBot

重复部分被省略......

User-agent: Sogou web spider

重复部分被省略......

User-agent: Sogou inst spider

重复部分被省略......

User-agent: Sogou spider2

重复部分被省略......

User-agent: Sogou blog

重复部分被省略......

User-agent: Sogou News Spider

重复部分被省略......

User-agent: Sogou Orion spider

重复部分被省略......

User-agent: JikeSpider

重复部分被省略......

User-agent: Sosospider

重复部分被省略......

User-agent: *

Disallow: /

说明:由于篇幅原因,这里将代码中与第一项Googlebot相同部分省略。Robots文件中每一项之间用空行隔开。

User-agent:用户代理,用户信息的标示。即为此访问用户是谁,一般写漫游器的名称,这里针对搜索引擎,就是填写蜘蛛机器人的名称。例如上面代码中的BaiduspiderGooglebotMSNBotSogou web spiderSosospiderYoudaoBot等,他们分别代表百度蜘蛛、谷歌机器人、MSN机器人、搜狗蜘蛛、搜搜蜘蛛、有道机器人。希望阻止哪个搜索引擎爬行收录,就写上相应蜘蛛的名字。

Disallow:拒绝收录,即要阻止搜索引擎抓取的内容。可以写文件的名称,也可以是整个目录。例如Disallow: /shifen/,即不允许收录shifen目录下的内容。百度这里还写了个Disallow: /baidu?和Disallow: /s?代码,它的意思是禁止收录查询的内容,因为百度搜索结果地址为http://www.baidu.com/baidu?http://www.baidu.com/s?开头。所以百度为了防止,自己收录自己的查询结果,也更防止其他搜索引擎检索它的收录和排名结果。

Allow:允许收录,即同意搜索引擎检索和收录的内容。这里需要说的是,即使把网站全部内容写上,搜索引擎也不一定会全部收录,这里只是告诉搜索引擎这些内容,是允许被收录的。因为默认的情况下,搜索引擎即认为允许被收录,所以写上Allow和不写是没差别的,它的写法和Disallow是一样的。

Robots文件中还有一些通配符:*$等字符,$应放在尾部。他们有替代和类的意思,即表示某一类的文件,例如 /*?* .png$等,意思是动态页面和所有png格式的图片。

那么我们可以利用上述指令,完成网站收录与禁止收录的Robots协议。

User-agent: *

allow: /

以上为允许所有搜索引擎收录所有页面。

User-agent: *

Disallow: /

以上为禁止所有搜索引擎收录所有页面。

User-agent: *

Disallow: /*?*

Disallow: .png$

Disallow:/about.html

以上为禁止所有搜索引擎收录所有动态页面、png格式图片和说明页面。

网站内允许收录和禁止的页面,通过Robots文件可以与搜索引擎达成协议。我们可以利用这个协议,将我们非目标的页面,进行禁止收录,从而减少权重的分散。在Robots文件中,可以一次性禁止收录4.8.2说到的页面,如关于我们,版权申明,帮助等内容。

 

  本文节选自金楠所著《SEO搜索引擎实战详解》一书,更多内容可关注金楠博客或者选择购买本书。

  相关阅读:点击看看吧!

  seo网站优化频道:http://www.jonanseo.com/sort/1

  软文营销频道:http://www.jonanseo.com/sort/2

  互联网产品频道:http://www.jonanseo.com/sort/4

  互联网思维频道:http://www.jonanseo.com/sort/5

  本文为金楠博客原创文章,转摘请注明出处。

 


发表评论:

请勾选我再发表评论!

金楠互联网之路  |  手机版  |  RSS  |  金楠简介  |  联系金楠  |  免费培训QQ群

All Rights Reserved. Powered by 金楠互联网之路  |  网站地图  |   蜀ICP备2024052279号