## 先搞清楚什么是收录
网站被收录,就是搜索引擎把你的页面放进它的索引库。用户在搜索结果里能翻到你的页面,才算收录成功。
很多新手以为建好网站就自动被收录,这是错的。搜索引擎不会主动发现所有网站,尤其是新站,权重为零,抓取资源有限。
检查收录状态最简单的方法:在搜索引擎输入 `site:你的域名.com`。有结果就说明至少部分页面进了索引,没结果就是零收录。
## 收录的门槛到底是什么
搜索引擎决定是否收录一个页面,看三个核心指标。
**页面要有实质内容。** 空白页、只有图片没文字、文字少于300字、全是复制粘贴的内容,基本不会被收录。搜索引擎判断内容价值的底线是:这个页面能给用户提供独立信息。
**网站要有基本的信任度。** 新域名、没外链、没任何其他站指向你,搜索引擎会谨慎分配抓取额度。这不是惩罚,是资源分配策略。每天新产生的页面数量巨大,搜索引擎只会把抓取预算花在它认为值得的站上。
**技术层面不能有阻挡。** robots.txt 禁止抓取、meta robots 标签设为 noindex、服务器长期返回5xx错误码,这些都会直接阻断收录。
这三个条件缺一个,收录就卡住。
## 提交前必须完成的配置
动手提交之前,先把这几项搞定。很多人跳过这一步直接提交,结果等了两周没动静,回来查才发现基础配置有问题。
### robots.txt 检查
打开 `你的域名.com/robots.txt`,确认没有这行:
```
Disallow: /
```
这行的意思是禁止所有搜索引擎抓取整个网站。很多建站程序默认生成这个规则,上线时忘了改。
正确的写法至少是这样:
```
User-agent: *
Disallow:
```
或者只禁止不需要被抓的目录,比如后台路径:
```
User-agent: *
Disallow: /admin/
Disallow: /wp-admin/
```
### 页面 meta robots 确认
检查页面源码 head 区域,不能出现:
```html
```
noindex 就是明确告诉搜索引擎不要收录这个页面。有些模板默认给分类页、标签页加了这个标签,需要手动关闭。
### 生成并验证 sitemap
sitemap 是列出网站所有页面的 XML 文件,搜索引擎通过它了解网站结构。
大多数建站程序可以自动生成。WordPress 用 Yoast SEO 或 Rank Math 插件,打开 sitemap 功能就行。非 WordPress 站可以用在线工具生成,比如 xml-sitemaps.com,输入域名抓取后下载文件,上传到网站根目录。
生成后访问 `你的域名.com/sitemap.xml`,确认能正常打开,里面列出的 URL 都是返回 200 状态码的页面。
## 主动提交的四个渠道
配置没问题了,开始提交。以下四个渠道并行使用,效果叠加。
### 搜索引擎站长平台提交 sitemap
Google 用 Search Console,百度用百度搜索资源平台,Bing 用 Bing Webmaster Tools。
以 Google Search Console 为例:
1. 注册账号,添加网站属性,验证所有权(推荐 DNS 验证,在域名解析加一条 TXT 记录)
2. 左侧菜单找到"站点地图",输入 sitemap 文件地址,比如 `sitemap.xml`,点提交
3. 提交后状态显示"成功",表示 Google 已读取
百度资源平台流程类似,但验证方式推荐文件验证或 CNAME 验证,DNS 验证有时生效慢。
提交后不代表立刻收录,只是告诉搜索引擎"这里有内容等你抓"。
### URL 手动提交
站长平台都有 URL 提交工具。Google Search Console 顶部有"检查任何网址"输入框,输入 URL 后点"请求编入索引"。百度资源平台有"普通收录-手动提交",一次最多提交 20 条。
新站初期,重要页面建议手动提交一遍。不是每个页面都需要,首页、核心栏目页、几篇内容扎实的文章页优先。
### 主动推送 API
这是效率最高的方式。在网站后台对接搜索引擎提供的推送 API,页面发布或更新时自动通知搜索引擎。
百度资源平台提供推送接口,获取 token 后,每次发布内容时 POST 请求一次。WordPress 可以用插件实现,比如百度搜索推送插件,配置 token 后自动工作。
Google 虽然没有公开推送 API,但通过 Search Console 的 Indexing API 可以实现类似效果,只是有配额限制,每天 200 次。
### 利用第三方平台引蜘蛛
搜索引擎爬虫会高频抓取某些高权重网站。在这些网站留下你的链接,爬虫顺着链接爬到你的站。
具体做法:
- 在 GitHub 创建公开仓库,README 里放网站链接
- 在知乎、简书等平台发布内容,正文自然嵌入链接
- 提交网站到 dmoz 类开放目录(虽然数量不多,但爬虫会定期扫)
注意,这不是让你去垃圾留言。垃圾链接没用,甚至有害。是让你在高质量平台留下真实可访问的链接入口。
## 内容层面的收录加速
提交只是让搜索引擎知道你的存在,收不收录最终看内容质量。
### 单页面最低字数
根据多个站长平台的数据观察,正文少于 300 字的页面,收录率明显偏低。不是说 300 字以下绝对不收,但超过 500 字且有明确信息结构的页面,收录概率显著提升。
这里有个对比:
| 页面类型 | 正文字数 | 收录周期(新站) |
|---------|---------|----------------|
| 空白/占位页 | 0-100字 | 基本不收 |
| 简短介绍页 | 100-300字 | 2-4周或更久 |
| 标准文章页 | 500-1500字 | 1-2周 |
| 深度内容页 | 2000字以上 | 3-7天 |
字数不是唯一因素,但内容体量直接影响搜索引擎对页面价值的判断。
### 内容原创性
直接复制粘贴其他网站的内容,搜索引擎对比后会发现重复,降低收录优先级,甚至不收录。
不是说每个字都要自己写。产品参数、官方说明这些可以复用,但页面主体内容要有独立信息增量。最简单的做法:同一个话题,加上你自己的使用经验、操作过程、注意事项,这些就是增量。
### 更新频率
新站上线后,如果能保持每周至少更新 2-3 篇内容,搜索引擎会逐步提高抓取频率。长时间不更新,抓取频率会下降,新页面收录变慢。
更新不一定要发新文章。修改旧内容、补充新信息、优化排版,也算更新。搜索引擎会记录页面变化频率。
## 外链的作用和获取方式
外链是其他网站指向你的链接。搜索引擎把外链当作信任投票,外链越多、来源越权威,网站整体信任度越高,收录越快。
新站零外链时,搜索引擎会观望。哪怕只有一两个低权重外链,收录速度都可能明显加快。
获取初期外链的方法:
- 用自己的社交账号发布网站链接,比如 Twitter、微博、豆瓣个人页
- 在行业论坛的个人签名或资料页放置链接
- 找朋友或同行网站交换链接(内容相关最好,不相关也行,别找垃圾站)
- 写一篇有价值的文章,主动发给同领域博主,请求引用
初期不用追求高权重外链,先解决"有没有"的问题。有 5-10 个外链之后,搜索引擎对网站的抓取意愿会明显提升。
## 技术细节排查清单
如果提交后超过两周还没收录,逐项排查:
1. 服务器是否稳定:用在线工具检测最近 7 天 uptime,低于 99% 会影响抓取
2. 页面加载速度:Google PageSpeed Insights 跑一下,移动端分数低于 50 需要优化
3. DNS 解析是否正常:国内外 DNS 解析都要查,有些域名国外解析不了
4. 是否被惩罚:Search Console 的"手动操作"和"安全问题"栏目检查,有惩罚记录需要申诉
5. 域名历史:用 Wayback Machine 查域名之前是否做过违规内容,有黑历史会影响收录
6. HTTPS 证书是否有效:证书过期或配置错误,浏览器报安全警告,搜索引擎也会降低抓取
## 收录后的维护
页面收录不是终点。收录后如果内容过时、页面打不开、被判断为低质量,搜索引擎会从索引中移除。
保持收录状态的做法:
- 定期检查 Search Console 的"索引-页面"报告,看有没有被移除的页面
- 删除或修改页面时,做好 301 跳转,别让搜索引擎抓到 404
- 重要页面保持内容更新,至少每季度修订一次
收录是搜索引擎对你网站的基本认可,维持这个认可靠持续运营。

