您现在的位置是：首页> 学无止境> SEO> SEO

网站robots.txt文件的作用及robots写法详解

张伟江136659942042019-07-22 17:38【SEO】9855人已围观

简介一般情况，网站的根目录都会有一个robots.txt文件，是一个纯文本文档。那这个robots.txt文件是什么，有什么作用呢？robots.txt怎么写？下面深山给您一个个讲解。

robots文件是什么？

robots.txt文件是存放与网站根目录下的一个txt格式的文本文档，叫做robot协议，也可以简单的理解为爬虫协议、蜘蛛协议等，是网站与搜索引擎爬虫之间的一个协议。

协议是什么意思？计议、协商、商议。那搜索引擎爬虫是做什么的？是抓取我们网站内容的。robots文件就好似网站和爬虫之间签订的一份协议，告诉它我网站的内容，哪些你可以抓取收录，哪些你不能碰！

robots文件有什么作用？

1.保护我们网站的隐私内容不被爬虫抓取，表面透露隐私内容。例如:用户数据、管理员信息等。

2.我们可以利用好robots文件来做好网站的SEO优化工作，比如清理网站死链的时候可以把死链接写进robots文件，再或者可以将网站地图写进robots方便爬虫一次性抓取网站内容等等。

robots.txt文件基本介绍

1. 自定义搜索引擎爬虫

User-agent: 表示定义哪个搜索引擎，在robots.txt文件的第一行

User-agent: * 所有蜘蛛
User-agent: Baiduspider，自定义百度蜘蛛
User-agent: Googlebot，自定义谷歌蜘蛛

常见搜索引擎爬虫（蜘蛛）名称：

百度蜘蛛：Baiduspider
谷歌蜘蛛：Googlebot
360蜘蛛：360Spider
搜狗蜘蛛：Sogou News Spider
必应蜘蛛：bingbot
SOSO蜘蛛：Sosospider

这类自定义蜘蛛的写法可参考淘宝和百度等：https://www.taobao.com/robots.txt，https://www.baidu.com/robots.txt

2.禁止访问

Disallow: 表示禁止访问。

3.允许访问

Allow: 表示允许+访问。

通过以上三个命令，可以组合多种写法，允许哪个搜索引擎访问或禁止哪个页面，具体写法请继续浏览！

robots文件书写注意事项:

1.robots文件的后缀必须是.txt；

2.robots文件必须全小写字母命名，并且存放在网站的根目录下面；

3.在写robots文件的时候，Disallow、Allow、Sitemap等词首字母必须大写，后面的字母则要小写。

4.特别注意，在书写robots事，应用英文状态下的冒号，并且冒号后面必须有一个英文状态下的空格。

robots.txt写法详解

1.允许所有搜索引擎访问所有目录

User-agent: *
Allow: /

PS:这里的*表示所有。

2.禁止所有搜索引擎访问所有目录

User-agent: *
Disallow: /

3.禁止爬虫访问网站中的某些目录:

User-agent: *
Disallow: /college

禁止爬虫访问/college开头的所有文件，如http://www.zhangweijiang.com/college/、http://www.zhangweijiang.com/college/1.html、http://www.zhangweijiang.com/college/1.html等都不能被抓取

User-agent: *
Disallow: /college/

禁止爬虫访问/college/目录下面的所有文件。

4.禁止爬虫访问某一类文件:

User-agent: *
Disallow: /*.css$ 禁止访问所有css结尾的文件
Disallow: /*.js$  禁止访问所有js结尾的文件
Disallow: /*.php$ 禁止访问所有php结尾的文件
Disallow: /123/*.jpg$ 禁止访问/123/目录下的jpg结尾的文件

PS:*表示所有，$表示结尾，上面的汉字不用写进robots去！！！

5.禁止访问网站中的动态页面:

User-agent: *
Disallow: /*?*
Disallow: /123/*?* 禁止访问/123/目录下的动态页面

PS:？表示动态路径，*表示所有。

6.禁止访问某些字母开头的目录

可以巧用这个技巧来隐藏我们网站的一些目录，例如网站后台。假设www.vipshan.com的后台目录是/abcdef/可以这样写:

User-agent: *
Disallow: /abc*

PS:这样可以就表示所有abc开头的目录都不能访问，所以要注意一下不要禁止了需要被抓取的栏目。

7.禁止访问和允许访问同时存在的情况

假设/123/这个栏目下有1.html、2.html、3.html这样三个文件，我要允许访问1.html而其他的要禁止，可以这样写:

User-agent: *
Allow: /123/1.html
Disallow: /123/

8.自定义搜索引擎:

用User-agent:来定义搜索引擎，*表示所有

百度爬虫名字:11Baiduspider

谷歌爬虫名字:Googlebot（列举两个，其他的名称自己搜下）

User-agent: Baiduspider表示自定义百度蜘蛛

User-agent: Googlebot表示自定义谷歌蜘蛛

这个我就不列举了，大家可以直接参考百度或者淘宝这类大网站的robots的写法就ok了。

9.最后是网站xml地图

Sitemap: http://www.vipshan.com/sitemap.xml

- END -

点赞(0) 打赏

文章评论共有 0 条评论

暂无评论

发表评论取消回复

点击排行

网站robots.txt文件的作用及robots写法详解

本栏推荐

标签云

站点信息

建站时间：2018年10月24日
网站程序：fastadmin
文章统计：302篇文章
标签管理：标签云
统计数据：百度统计
微信号：zwj982215226

打赏本站

如果你觉得本站很棒，可以通过扫码支付打赏哦！
微信扫码：你说多少就多少~
支付宝扫码：你说多少就多少~

您现在的位置是：首页> 学无止境> SEO> SEO

网站robots.txt文件的作用及robots写法详解

robots文件是什么？

robots文件有什么作用？

robots.txt文件基本介绍

robots文件书写注意事项:

robots.txt写法详解

相关文章

文章评论共有 0 条评论

发表评论取消回复

点击排行

本栏推荐

标签云

猜你喜欢

站点信息

打赏本站

您现在的位置是： 首页> 学无止境> SEO> SEO

网站robots.txt文件的作用及robots写法详解

robots文件是什么？

robots文件有什么作用？

robots.txt文件基本介绍

robots文件书写注意事项:

robots.txt写法详解

相关文章

文章评论 共有 0 条评论

发表评论 取消回复

点击排行

本栏推荐

标签云

猜你喜欢

站点信息

打赏本站

您现在的位置是：首页> 学无止境> SEO> SEO

文章评论共有 0 条评论

发表评论取消回复