robots文件的写法解析

2023-05-25

一、什么是robots.txt文件?

robots.txt文件是搜索引擎在访问你的网站前，会查看的一个文件，它会告诉搜索引擎哪些内容可以访问，哪些内容不可以访问，当它要访问一个网站时会先检查是否存在robots.txt，如果有会按照这个命令进行访问有权限的内容。

二、为什么要写robots?

网站为了SEO的优化，robots.txt会屏蔽掉一些不想被抓取的内容，可以保护网站的安全，也可以节省一些流量，对蜘蛛也会方便一些，引导蜘蛛爬网站地图。

三、robots的基本写法与步骤

1、允许所有搜索引擎访问

User-agent: *

Disallow:

或者

User-agent: *

Allow: /

（也可以直接建一个空文件 “robots.txt”然后放到网站的根目录。User-agent: 是定义搜索引擎，“*”是表示所有。）

2、禁止所有搜索引擎访问

User-agent: *

Disallow: /

或者

User-agent: *

allow:

（Disallow: /表示禁止访问，Allow: /表示允许访问，需要注意的是，/前面有个英文状态下的空格。）

3、禁止所有搜索引擎访问网站中的几个文件夹，我以a、b、c目录来代替

User-agent: *

Disallow: /a/

Disallow: /b/

Disallow: /c/

如果是允许，则是

Allow: /a/

Allow: /b/

Allow: /c/

4、禁止某个搜索引擎的访问，我用w来代替

User-agent: w

Disallow: /

或

User-agent: w

Disallow: /d/*.htm

在Disallow:后面加 /d/*.htm的意思是禁止访问/d/目录下的所有以”.htm”为后缀的URL，包含子目录。

5、只允许某个搜索引擎的访问，我用Baiduspider为例

User-agent: Baiduspider

Disallow:

在Disallow：后面不加任何东西，Baiduspider表示百度蜘蛛，Googlebot表示谷歌蜘蛛，意思是仅允许Baiduspider访问该网站。

6、使用”$”限制访问url

User-agent: *

Allow: .htm$

Disallow: /

意思是仅允许访问以”.htm”为后缀的URL

7、禁止访问网站中所有的动态页面

User-agent: *

Disallow: /*?*

8、禁止搜索引擎F抓取网站上所有图片

User-agent: F

Disallow: .jpg$

Disallow: .jpeg$

Disallow: .gif$

Disallow: .png$

Disallow: .bmp$

意思是只允许引擎抓取网页，禁止抓取任何图片(严格来说，是禁止抓取jpg、jpeg、gif、png、bmp格式的图片。)

9、只允许搜索引擎E抓取网页和.gif格式图片

User-agent: E

Allow: .gif$

Disallow: .jpg$

Disallow: .jpeg$

Disallow: .png$

Disallow: .bmp$

上面的意思是只允许抓取网页和gif格式图片，不允许抓取其他格式图片。

四、robots注意事项

robots.txt必须放置在一个站点的根目录下，而且文件名必须全部小写。在写robots.txt文件时User-agent、Disallow、Allow、Sitemap这些词第一个字母要大写，后面的字母小写，”:“后面是英文状态下的空格。站长想查看网站robots.txt文件是否生效，可以在百度统计中查看。

网站优化

robots文件的写法解析

新闻资讯

最新资讯

最新案例

关于我们

新闻资讯

客户案例

产品展示

关注公众号

小程序