您现在的位置是: 首页> 学无止境> SEO> SEO
网站robots.txt文件的作用及robots写法详解
张伟江2019-07-22 17:38【SEO】9110人已围观
简介一般情况,网站的根目录都会有一个robots.txt文件,是一个纯文本文档。那这个robots.txt文件是什么,有什么作用呢?robots.txt怎么写?下面深山给您一个个讲解。
robots文件是什么?
robots.txt文件是存放与网站根目录下的一个txt格式的文本文档,叫做robot协议,也可以简单的理解为爬虫协议、蜘蛛协议等,是网站与搜索引擎爬虫之间的一个协议。
协议是什么意思?计议、协商、商议。那搜索引擎爬虫是做什么的?是抓取我们网站内容的。robots文件就好似网站和爬虫之间签订的一份协议,告诉它我网站的内容,哪些你可以抓取收录,哪些你不能碰!
robots文件有什么作用?
1.保护我们网站的隐私内容不被爬虫抓取,表面透露隐私内容。例如:用户数据、管理员信息等。
2.我们可以利用好robots文件来做好网站的SEO优化工作,比如清理网站死链的时候可以把死链接写进robots文件,再或者可以将网站地图写进robots方便爬虫一次性抓取网站内容等等。
robots.txt文件基本介绍
1. 自定义搜索引擎爬虫
User-agent: 表示定义哪个搜索引擎,在robots.txt文件的第一行
- User-agent: * 所有蜘蛛
- User-agent: Baiduspider,自定义百度蜘蛛
- User-agent: Googlebot,自定义谷歌蜘蛛
常见搜索引擎爬虫(蜘蛛)名称:
- 百度蜘蛛:Baiduspider
- 谷歌蜘蛛:Googlebot
- 360蜘蛛:360Spider
- 搜狗蜘蛛:Sogou News Spider
- 必应蜘蛛:bingbot
- SOSO蜘蛛:Sosospider
这类自定义蜘蛛的写法可参考淘宝和百度等:https://www.taobao.com/robots.txt,https://www.baidu.com/robots.txt
2.禁止访问
Disallow: 表示禁止访问。
3.允许访问
Allow: 表示允许+访问。
通过以上三个命令,可以组合多种写法,允许哪个搜索引擎访问或禁止哪个页面,具体写法请继续浏览!
robots文件书写注意事项:
1.robots文件的后缀必须是.txt;
2.robots文件必须全小写字母命名,并且存放在网站的根目录下面;
3.在写robots文件的时候,Disallow、Allow、Sitemap等词首字母必须大写,后面的字母则要小写。
4.特别注意,在书写robots事,应用英文状态下的冒号,并且冒号后面必须有一个英文状态下的空格。
robots.txt写法详解
1.允许所有搜索引擎访问所有目录
User-agent: *
Allow: /
PS:这里的*表示所有。
2.禁止所有搜索引擎访问所有目录
User-agent: *
Disallow: /
3.禁止爬虫访问网站中的某些目录:
User-agent: *
Disallow: /college
禁止爬虫访问/college开头的所有文件,如http://www.zhangweijiang.com/college/、http://www.zhangweijiang.com/college/1.html、http://www.zhangweijiang.com/college/1.html等都不能被抓取
User-agent: *
Disallow: /college/
禁止爬虫访问/college/目录下面的所有文件。
4.禁止爬虫访问某一类文件:
User-agent: *
Disallow: /*.css$ 禁止访问所有css结尾的文件
Disallow: /*.js$ 禁止访问所有js结尾的文件
Disallow: /*.php$ 禁止访问所有php结尾的文件
Disallow: /123/*.jpg$ 禁止访问/123/目录下的jpg结尾的文件
PS:*表示所有,$表示结尾,上面的汉字不用写进robots去!!!
5.禁止访问网站中的动态页面:
User-agent: *
Disallow: /*?*
Disallow: /123/*?* 禁止访问/123/目录下的动态页面
PS:?表示动态路径,*表示所有。
6.禁止访问某些字母开头的目录
可以巧用这个技巧来隐藏我们网站的一些目录,例如网站后台。假设www.vipshan.com的后台目录是/abcdef/可以这样写:
User-agent: *
Disallow: /abc*
PS:这样可以就表示所有abc开头的目录都不能访问,所以要注意一下不要禁止了需要被抓取的栏目。
7.禁止访问和允许访问同时存在的情况
假设/123/这个栏目下有1.html、2.html、3.html这样三个文件,我要允许访问1.html而其他的要禁止,可以这样写:
User-agent: *
Allow: /123/1.html
Disallow: /123/
8.自定义搜索引擎:
用User-agent:来定义搜索引擎,*表示所有
百度爬虫名字:11Baiduspider
谷歌爬虫名字:Googlebot(列举两个,其他的名称自己搜下)
User-agent: Baiduspider表示自定义百度蜘蛛
User-agent: Googlebot表示自定义谷歌蜘蛛
这个我就不列举了,大家可以直接参考百度或者淘宝这类大网站的robots的写法就ok了。
9.最后是网站xml地图
Sitemap: http://www.vipshan.com/sitemap.xml
- END -
文章评论 共有 0 条评论
本栏推荐
标签云
猜你喜欢
打赏本站
- 如果你觉得本站很棒,可以通过扫码支付打赏哦!
- 微信扫码:你说多少就多少~
- 支付宝扫码:你说多少就多少~
发表评论 取消回复