网站SEO的基础保障 robots.txt和robots meta标签

什么是robots

简单说就是robots可以告诉搜索引擎爬虫（如百度蜘蛛和谷歌bot）哪些页面能抓取哪些页面不能抓取，看似简单其实也不难，但确实容易被忽略。

网站robots的核心文件就是robots.txt，没错，就是一个文本文件而已，放在网站根目录下，而且文件名只能叫robots.txt，所有网站都一样；其次就是robots meta标签，放在网页的头部<head>标签内，一般很少用，用得好也不错，看自己需要吧，后面会详细介绍。

为什么要创建robots

或者说创建robots的好处：

一般网站中总会有些见不得人的东西，比如后台管理页面，用户个人信息以及订单页面，这些东西都比较敏感，那么我们就可以通过robots.txt禁止爬虫访问这些页面。
如果我们不对搜索引擎爬虫进行一些限制的话，爬虫会持续甚至胡乱的抓取网站内容，其中也包括了一些重复页面或测试页面，这样不利于SEO优化，还可能给网站服务器资源带来压力，甚至有些爬虫它来的话是有一定时效的，就像皇帝宠幸妃子，我只能来一会，你有话跟我说就挑重点的说，过一会我可要去下一家了，差不多就这意思，所以要通过robots.txt告诉爬虫可以优先抓取哪些页面你快去别耽误时间。
另外不同的搜索引擎都有各自的爬虫以及抓取习惯，我们可以通过robots.txt来集中统一管理，结合自身网站的运营需求来制定robots指令，达到更好的网站SEO优化效果。
最重要的一点，我们可以通过robots.txt告诉搜索引擎我们的网站地图sitemap的地址，上篇文章教大家的，这不就用上了。

为你的WordPress网站在线生成sitemap文件(网站地图)并实现自动更新更好的优化SEO

撸钱日记

25年11月28日
喜欢：0
浏览：213

怎样创建robots

电脑桌面空白处右键→新建文本文档，命名为robots.txt，编辑好指令之后保存通过FTP工具上传到网站根目录就行了。

如果你安装了宝塔面板，直接点击文件，进入你的网站根目录，点击新建→新建空白文本，命名为robots.txt，编辑好指令之后保存即可。

robots核心指令

User-agent：针对的搜索引擎爬虫，我们一般填“*”就行了，代表所有搜索引擎爬虫都遵循下面的指令行事；如需为特定的搜索引擎爬虫设置指令，可填入其专属的标识，比如百度为“Baiduspider”，谷歌为“Googlebot”，搜狗为“Sougouspider”，360为“360Spider”，必应为“Bingbot”。

Disallow：不希望爬虫访问的页面路径或文件类型，比如填“/admin”就代表禁止访问admin目录，填“/*.pdf$”代表禁止访问所有的pdf文件。

Allow：希望爬虫访问的页面路径，一般来说Disallow之外的所有页面都是可以访问的，这让Allow显得有点多余了，但其实不是的，因为Allow的优先级高于Disallow，比如我们用Disallow禁止访问了某个目录，但是我们可以用Allow允许这个目录下的某个子目录被访问。

Sitemap：告诉爬虫你的网站地图地址，相当于给爬虫请了个导游，让爬虫可以更高效的抓取你的网站内容，提高收录效率。

#：robots.txt文件中的注释，爬虫不会解析“#”后的内容，自己填了哪些指令，可以用“#”注释一下，方便后期维护。

另外，Baiduspider支持使用通配符”*”和”$”来模糊匹配url

“*” 匹配0或多个任意字符
“$” 匹配行结束符

robots指令使用示例

#允许所有搜索引擎访问网站的任何内容
User-agent: *
Allow: /  #相反则将Allow换成Disallow即可

Sitemap: https://你的域名/sitemap.xml

#只允许百度访问网站的任何内容，禁止其它搜索引擎访问
User-agent: Baiduspider  #如果你是做跨境电商的，可以将这里换成Googlebot
Allow: /

User-agent: *
Disallow: /
Sitemap: https://你的域名/sitemap.xml

User-agent: *  #允许所有搜索引擎爬虫访问
Disallow: /wp-admin  #禁止访问wp-admin目录
Allow: /wp-admin/admin-ajax.php  #但允许访问该目录下的admin-ajax.php文件
Disallow: /wp-content  #禁止访问wp-content目录
Allow: /wp-content/uploads  #但允许访问该目录下的uploads子目录
Disallow: /*.png$
Disallow: /*.gif$
Disallow: /*.bmp$
Allow: /*.jpg$  #仅允许抓取jpg格式的图片，禁止抓取如上格式的图片

Sitemap: https://你的域名/sitemap.xml

下面是我的robots.txt写法，有需要可以参考一下：

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /*?*
Allow: /wp-admin/admin-ajax.php

Sitemap: https://luqian.vip/sitemap.xml

关于Robots Meta标签

当需要对单个页面进行抓取控制时，robots meta标签比robots.txt更精准，其核心属性如下：

name=”robots“：针对所有爬虫；若需针对特定爬虫，可改为对应名称（如“name=”Baiduspider””）。
content属性值：
index：表示允许收录该页面（默认）；noindex：表示禁止收录该页面；
follow：表示允许爬虫跟踪页面内的链接（默认）；nofollow：表示禁止爬虫跟踪页面内的链接。

Robots Meta标签使用示例

<!-- 禁止所有爬虫收录该页面，但允许跟踪链接 -->
<meta name="robots" content="noindex, follow">

<!-- 禁止百度爬虫收录和跟踪链接 -->
<meta name="Baiduspider" content="noindex, nofollow">

这些东西基本上一看就懂，大家可以根据自身网站运营需要量身定制自己的robots.txt或robots meta标签，需要注意的是，创建并上传好robots.txt之后，我们应该使用robots文件检测工具来检测一下文件的有效性，比如我之前就是在“Disallow: /wp-admin”后面加了一个“/”，网上都是这么写“Disallow: /wp-admin/”，但是在我进行检测的时候发现wp-admin目录还是显示允许访问，然后我去掉了“/”再进行测试，就显示不允许了，所以说在网上学习一些东西的时候，应保持一个怀疑的态度，学习之后自己再去验证一下会更好！

温馨提醒：robots只是一份君子协议，百度、谷歌等搜索引擎爬虫一般都会遵守你设定的robots规则，但是对于一些恶意爬虫是没有任何约束力的。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}}已认证

为你的WordPress网站在线生成sitemap文件(网站地图)并实现自动更新更好的优化SEO

保姆级WordPress建站教程之怎样部署SSL证书并强制开启https访问

保姆级WordPress建站教程之怎样设置伪静态和固定链接

保姆级WordPress建站教程之宝塔面板一键部署和注册安装WordPress程序