很多人问过我这个事。
今天就具体说说。
简单说,它就是一段代码。
你把它放到网站页面的head部分。
作用是指示搜索引擎怎么处理这个页面。
最常见的几个指令是:
代码看起来是这样的:
<meta name="robots"="index, nofollow">
“ko”在这里可以理解为“失效”或“被忽略”。
搜索引擎不一定会100%遵守你的帽子指令。
有几种情况它会直接无视你。
第一种,你的页面有很高的抓取价值。
比如很多权威网站都链接到了你这个页面。
即使你写了noindex,搜索引擎也可能认为这个页面应该被用户看到。
它依然可能收录。
第二种,指令存在冲突。
比如你在帽子标签里写noindex。
但同时又在sitemap里提交了这个页面。
或者通过其他方式强烈推荐这个页面。
搜索引擎收到混乱信号,可能选择忽略其中一个。
第三种,技术实现错误。
这是最普遍的原因。
代码写错了,放错位置了,或者被其他规则覆盖了。
我列几个常见的坑。
content里的逗号用了中文的,或者多个指令之间没加逗号。
正确的:content=
oindex, nofollow"
错误的:content="index nofollow" 或 content=
oindex, nofollow"
帽子标签必须放在页面的<head></head>区域内。
如果放到了<body>里,或者被某些JS动态加载,爬虫可能读不到。
虽然多数情况不敏感,但最好统一用小写。
name="Robots" 不如 name="robots"保险。
如果你在服务器端(如.htaccess或nginx配置)也设置了robots规则,
并且和页面里的帽子标签指令不同,以哪个为准?
通常,更具体的指令(页面级)会覆盖更通用的(网站级),但不绝对。
这里有个简单的对比表格。
| 你的指令 | 搜索引擎可能的行为 | 常见原因 |
|---|---|---|
| noindex | 依然收录并展示 | 页面有高权重外链,或与其他索引信号冲突 |
| nofollow | 依然跟踪链接并传递权重 | 链接价值极高,或搜索引擎判断链接为编辑性推荐 |
| noarchive | 依然显示快照 | 技术解析问题,或缓存未及时更新 |
| nosnippet | 依然生成摘要 | 页面元描述缺失,搜索引擎自动生成 |
不能光看代码写了就觉得没问题。
必须验证。
第一步,用搜索引擎的“URL检查”工具。
在百度搜索资源平台或Google Search Console里,
输入你的页面URL,查看“覆盖”或“索引”状态。
工具会明确告诉你它看到的指令是什么。
第二步,查看页面源代码。
在浏览器里右键点击页面,选“查看页面源代码”。
搜索“robots”这个词,看你的标签是否在head里,格式是否正确。
第三步,使用模拟抓取工具。
在搜索平台里都有“抓取”或“模拟”功能。
让搜索引擎的模拟爬虫去抓一下你的页面,
看它返回的响应里,head部分是否包含你的指令。
分情况处理。
如果你本意就是不想被收录,但被收录了。
首先确认代码无误且位置正确。
然后,去搜索平台提交“删除URL”请求。
同时,确保这个页面返回的HTTP状态码是200。
如果页面本身已经404了,搜索引擎最终也会删除,但慢一些。
如果你本意是想被收录,但发现爬虫好像没理你的index指令。
检查是否有其他因素阻止抓取。
比如robots.txt文件里是否有Disallow规则。
页面是否被大量JS渲染,导致爬虫看不到内容。
网站服务器是否稳定,抓取时是否经常超时。
很多人对nofollow有误解。
认为加了nofollow,搜索引擎就一定不跟踪这个链接。
不是的。
nofollow只是一个“建议”。
搜索引擎可能因为以下原因依然跟踪链接:
所以,如果你加nofollow是为了不传递权重,
不能100%依赖它。
最好的办法是从根本上就不放这个链接。
基于经验,给你几个具体操作步骤。
1. 保持指令单一和清晰。
不要既在robots.txt里禁止,又在帽子标签里允许。
统一在一个地方管理,建议用帽子标签做页面级精细控制。
2. 定期审计。
每个月用爬虫工具跑一下全站。
检查所有页面的帽子指令是否和预期一致。
特别是经过改版或内容迁移后。
3. 重要页面设置双重保障。
对于绝对不能收录的页面(如测试页、隐私数据页)。
除了设置noindex的帽子标签,
同时用密码保护起来,或者直接IP白名单访问。
这样最安全。
4. 关注官方文档和公告。
搜索引擎对指令的处理方式会变。
比如Google对nofollow的解读就更新过几次。
及时了解变化,调整你的做法。
本文由小艾于2026-04-28发表在爱普号,如有疑问,请联系我们。
本文链接:https://www.ipbcms.com/12875.html