搜索引擎robots协议怎么写利于seo优化？什么是网站robots呢？

2023-05-25

robots语法

用几个最常见的情况，直接举例说明：

1. 允许所有搜索引擎收录本站：robots.txt为空就可以，什么都不要写。

2. 禁止所有搜索引擎收录网站的某些目录：

User-agent: *

Disallow: /目录名1/

Disallow: /目录名2/

Disallow: /目录名3/

3. 禁止某个搜索引擎收录本站，例如禁止百度：

User-agent: Baiduspider Disallow: /

4. 禁止所有搜索引擎收录本站：

User-agent: *

Disallow: /

网站为什么要做robots协议？

如果网站存在重要文件不允许公开的，那么就需要限制搜索引擎抓取。当网站蜘蛛过多，也会导致服务器宕机，这时就需要屏蔽限制一些不需要的蜘蛛。robots书写建议

少用disallow，多用allow。disallow用多了对搜索引擎蜘蛛不友好。

robots为搜索引擎协议，通过robots文件可以规定各大搜索引擎蜘蛛可以抓取网站哪些页面，不可以抓取哪些页面。用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限，也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。

当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

什么是robots？如何设置robots？

robots是位于网站根目录的一个TXT文本文件，主要的作用是告诉搜索引擎那些页面可以抓取，那些页面不可以抓取。

robots是网站和搜索引擎爬虫之间的协议，当搜索引擎爬虫爬取一个网站之前，第一先访问该网站有没有robots协议，如果有按照设置的robots协议进行对网站的抓取，如果没有默认网站所有页面都可以被抓取。

搜索引擎通过一个程序（搜索引擎蜘蛛），自动获取互联网上数亿的网页，经过分析和对比，筛选出质量优质的网页，进行收录和索引，最后得到网页的排名，用户查询关键词就可以访问到被收录的网页。所以在网站的根目录创建一个robots协议用来告诉搜索引擎，网站这个页面可以被抓取，那个网页不让抓取。可以说robots协议是对搜索引擎蜘蛛的行为设定了要求。

robots注意事项

网站所有的内容都可以让搜索引擎抓取，我就不设置robots文件这是不对的，每次搜索引擎蜘蛛来到网站访问robots文件都会生成一个404页面，网页不存在，对网站有不好的影响。这种的可以在网站根目录放一个空的robots文件，什么都不写就可以了。设置所有网页都让搜索引擎抓取，可以增加收目率这个想法也是错误的，搜索引擎对html文件情有独钟，对JS、框架等文件很是排斥。网站的脚本文件、样式表等可以选择屏蔽，浪费服务器资源还得不到好处。蜘蛛抓取浪费服务器资源，在robots协议中屏蔽所有搜索引擎这样就把搜索引擎蜘蛛屏蔽了，搜索引擎蜘蛛不会抓取网站内的内容，也不会有收录robots文件需要放置到网站的根目录，url格式域名+robots.txtrobots文件可以放置网站地图的链接，搜索引擎蜘蛛每次到网站首先访问的就是robots文件，所以放上网站的网站地图，有利于搜索引擎蜘蛛发现更多的链接。robots文件必须是小写命名

robots协议的设置

robots文件的设置有两种参数，一个允许，一个拒绝。robots文件中有一条或多条声明，robots文件中可以用“#”进行注释。通常robots文件以一条或多条User-agent开始，之后有多行Disallow和多行Allow。

Disallow

该项的值是用于描述那条URL不被搜索引擎抓取，这里的url可以是完整的也可以是部分的。如：

Disallow：/，这个值说明网站不让搜索引擎抓取，

Disallow：/admin，这个值告诉搜索引擎不要抓网站admin文件夹里的所有文件，

Disallow：/admin/demo，该值告诉搜索引擎可以抓取admin文件夹但是不能抓取admin文件下的demo文件夹。如果该项的值为空，证明网站对搜索引擎开放。

Allow

Allow与Disallow相反，是希望被搜索引擎抓取的一组url链接，而这url也可以是完整或者部分。如：

Allow：/seojiaocheng，搜索引擎可以访问seojiaocheng.html或seojiaocheng/111.html等。

Allow通常和Disallow搭配使用的，同意访问部分网页并禁止访问其他网页URL链接。

通配符

User-agent、Disallow、Allow这三个的值可以使用通配符“*”和“$”来模糊匹配url地址

“*” 匹配0或者多个任意的字符

“$” 匹配行结束符

robots.txt语法教程

常见的有五种情况，以自己的实际需求设置

1、允许所有搜索引擎访问，robots为空，什么都不用写

2、禁止所有搜索引擎访问某些目录User-agent: *Disallow: /admin/Disallow: /js/Disallow: /css/

3、禁止百度访问User-agent: Baiduspider #百度蜘蛛Disallow: /

4、禁止搜索搜索引擎访问User-agent: * #用通配符表示Disallow: /

5、禁止所有搜索引擎访问图片User-agent: * #用通配符表示Disallow: .jpg$ #或者png等图片格式

robots文件在实际的运用是非常灵活，我们可以根据自己网站程序来设置。

网站优化

搜索引擎robots协议怎么写利于seo优化？什么是网站robots呢？

新闻资讯

最新资讯

最新案例

关于我们

新闻资讯

客户案例

产品展示

关注公众号

小程序