🔥 撸钱日记创作者招募中,发布10+资源免费获得年度VIP! 详情咨询站长

网站SEO的基础保障 robots.txt和robots meta标签

什么是robots

简单说就是robots可以告诉搜索引擎爬虫(如百度蜘蛛和谷歌bot)哪些页面能抓取哪些页面不能抓取,看似简单其实也不难,但确实容易被忽略。

网站robots的核心文件就是robots.txt,没错,就是一个文本文件而已,放在网站根目录下,而且文件名只能叫robots.txt,所有网站都一样;其次就是robots meta标签,放在网页的头部<head>标签内,一般很少用,用得好也不错,看自己需要吧,后面会详细介绍。

为什么要创建robots

或者说创建robots的好处:

  • 一般网站中总会有些见不得人的东西,比如后台管理页面,用户个人信息以及订单页面,这些东西都比较敏感,那么我们就可以通过robots.txt禁止爬虫访问这些页面。
  • 如果我们不对搜索引擎爬虫进行一些限制的话,爬虫会持续甚至胡乱的抓取网站内容,其中也包括了一些重复页面或测试页面,这样不利于SEO优化,还可能给网站服务器资源带来压力,甚至有些爬虫它来的话是有一定时效的,就像皇帝宠幸妃子,我只能来一会,你有话跟我说就挑重点的说,过一会我可要去下一家了,差不多就这意思,所以要通过robots.txt告诉爬虫可以优先抓取哪些页面你快去别耽误时间。
  • 另外不同的搜索引擎都有各自的爬虫以及抓取习惯,我们可以通过robots.txt来集中统一管理,结合自身网站的运营需求来制定robots指令,达到更好的网站SEO优化效果。
  • 最重要的一点,我们可以通过robots.txt告诉搜索引擎我们的网站地图sitemap的地址,上篇文章教大家的,这不就用上了。

为你的WordPress网站在线生成sitemap文件(网站地图)并实现自动更新 更好的优化SEO

怎样创建robots

电脑桌面空白处右键→新建文本文档,命名为robots.txt,编辑好指令之后保存通过FTP工具上传到网站根目录就行了。

如果你安装了宝塔面板,直接点击文件,进入你的网站根目录,点击新建→新建空白文本,命名为robots.txt,编辑好指令之后保存即可。

robots核心指令

User-agent:针对的搜索引擎爬虫,我们一般填“*”就行了,代表所有搜索引擎爬虫都遵循下面的指令行事;如需为特定的搜索引擎爬虫设置指令,可填入其专属的标识,比如百度为“Baiduspider”,谷歌为“Googlebot”,搜狗为“Sougouspider”,360为“360Spider”,必应为“Bingbot”。

Disallow:不希望爬虫访问的页面路径或文件类型,比如填“/admin”就代表禁止访问admin目录,填“/*.pdf$”代表禁止访问所有的pdf文件。

Allow:希望爬虫访问的页面路径,一般来说Disallow之外的所有页面都是可以访问的,这让Allow显得有点多余了,但其实不是的,因为Allow的优先级高于Disallow,比如我们用Disallow禁止访问了某个目录,但是我们可以用Allow允许这个目录下的某个子目录被访问。

Sitemap:告诉爬虫你的网站地图地址,相当于给爬虫请了个导游,让爬虫可以更高效的抓取你的网站内容,提高收录效率。

#:robots.txt文件中的注释,爬虫不会解析“#”后的内容,自己填了哪些指令,可以用“#”注释一下,方便后期维护。

另外,Baiduspider支持使用通配符”*”和”$”来模糊匹配url

  • “*” 匹配0或多个任意字符
  • “$” 匹配行结束符

robots指令使用示例

#允许所有搜索引擎访问网站的任何内容
User-agent: *
Allow: /  #相反则将Allow换成Disallow即可

Sitemap: https://你的域名/sitemap.xml
#只允许百度访问网站的任何内容,禁止其它搜索引擎访问
User-agent: Baiduspider  #如果你是做跨境电商的,可以将这里换成Googlebot
Allow: /

User-agent: *
Disallow: /
Sitemap: https://你的域名/sitemap.xml
User-agent: *  #允许所有搜索引擎爬虫访问
Disallow: /wp-admin  #禁止访问wp-admin目录
Allow: /wp-admin/admin-ajax.php  #但允许访问该目录下的admin-ajax.php文件
Disallow: /wp-content  #禁止访问wp-content目录
Allow: /wp-content/uploads  #但允许访问该目录下的uploads子目录
Disallow: /*.png$
Disallow: /*.gif$
Disallow: /*.bmp$
Allow: /*.jpg$  #仅允许抓取jpg格式的图片,禁止抓取如上格式的图片

Sitemap: https://www.example.com/sitemap.xml

下面是我的robots.txt写法,有需要可以参考一下:

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /*?*
Allow: /wp-admin/admin-ajax.php

Sitemap: https://luqian.vip/sitemap.xml

关于Robots Meta标签

当需要对单个页面进行抓取控制时,robots meta标签比robots.txt更精准,其核心属性如下:

  • name=”robots:针对所有爬虫;若需针对特定爬虫,可改为对应名称(如“name=”Baiduspider””)。
  • content属性值
    index:表示允许收录该页面(默认);noindex:表示禁止收录该页面;
    follow:表示允许爬虫跟踪页面内的链接(默认);nofollow:表示禁止爬虫跟踪页面内的链接。

Robots Meta标签使用示例

<!-- 禁止所有爬虫收录该页面,但允许跟踪链接 -->
<meta name="robots" content="noindex, follow">

<!-- 禁止百度爬虫收录和跟踪链接 -->
<meta name="Baiduspider" content="noindex, nofollow">

这些东西基本上一看就懂,大家可以根据自身网站运营需要量身定制自己的robots.txt或robots meta标签,需要注意的是,创建并上传好robots.txt之后,我们应该使用robots文件检测工具来检测一下文件的有效性,比如我之前就是在“Disallow: /wp-admin”后面加了一个“/”,网上都是这么写“Disallow: /wp-admin/”,但是在我进行检测的时候发现wp-admin目录还是显示允许访问,然后我去掉了“/”再进行测试,就显示不允许了,所以说在网上学习一些东西的时候,应保持一个怀疑的态度,学习之后自己再去验证一下会更好!

网站SEO的基础保障 robots.txt和robots meta标签

温馨提醒:robots只是一份君子协议,百度、谷歌等搜索引擎爬虫一般都会遵守你设定的robots规则,但是对于一些恶意爬虫是没有任何约束力的。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给TA充电
共{{data.count}}人
人已充电
Wordpress撸知识网站SEO

为你的Wordpress网站在线生成sitemap文件(网站地图)并实现自动更新 更好的优化SEO

2025-11-28 14:35:07

撸资源电脑壁纸

女孩的瞳孔散发着光芒 4K超高清动态壁纸分辨率3840*2160视频素材下载

2025-10-27 20:06:17

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索