聊架构之前,先明确一个被反复验证过的逻辑:搜索引擎赋予权重的单位不是页面,是路径。一个高权重网站的核心特征是让爬虫用最短的路径、最少的计算资源,抓取到所有有价值的内容,同时让链接权重沿着预设的树状结构高效传递。
下面从物理架构、逻辑层、链接策略三个维度拆解具体搭建方法。
一、物理架构:先解决抓取效率
物理层决定爬虫能不能顺畅地爬完你的网站。这部分出问题,后续所有优化都是空谈。
1. URL规范化要做绝对统一
每个页面只能有一个可访问的URL版本。这是最基础但最容易出纰漏的地方。
具体操作步骤:
- 选定一种首选域(带www或不带www),在DNS和服务器层面做301跳转
- 全站统一使用HTTPS,HTTP版本全部301到HTTPS
- URL末尾统一不加斜杠,或者统一加斜杠,选一个标准后全站301
- 所有URL统一小写,避免大小写混用产生重复页面
- 动态参数URL如果无法避免,在Search Console里配置URL参数处理规则
验证方法:用命令行工具发送请求,检查返回头。
curl -I http://example.com/page 应该返回301或直接跳转到你设定的标准URL。
2. 目录层级控制在3层以内
爬虫分配抓取预算时,层级越深分配到的权重越低。超过3层的目录,内页被收录的周期会明显拉长。
结构示例:
- 第一层:example.com/category/
- 第二层:example.com/category/subcategory/
- 第三层:example.com/category/subcategory/product/
第三层就是内容终点。如果产品详情页还需要翻页或筛选参数,用canonical标签指向主URL,不要让爬虫把抓取预算消耗在参数组合上。
3. XML Sitemap要分级提交
不要把所有URL塞进一个sitemap文件。按内容类型拆分,每个sitemap控制在5万条URL以内。
操作方式:
- 主sitemap索引文件提交到Search Console
- 按内容类型拆分子sitemap:产品页、文章页、分类页、标签页各一个文件
- 每个子sitemap里只包含该类型内容中需要被索引的URL
- 标签页、筛选结果页这类低质量聚合页,不要放进sitemap
这样做的好处是可以在Search Console里按sitemap查看索引率,快速定位哪类页面收录出了问题。
二、逻辑层:树状结构加主题隔离
逻辑结构决定权重怎么在页面之间流动。核心原则是树状层级加主题聚类,让每个分类成为一个独立的内容孤岛。
1. 分类体系设计:先做关键词聚类再定栏目
不要凭感觉建栏目。用关键词工具导出目标词库后,按搜索意图聚类,一个聚类对应一个栏目。
聚类操作步骤:
- 导出行业核心词及长尾词,量级至少2000词以上
- 按搜索意图分组:信息型、导航型、交易型分开
- 同一意图内按语义相关性聚类,每组控制在5-20个词
- 每个聚类建立一个分类目录,分类名称使用该组搜索量最高的词
表格对比两种分类方式的索引效果差异:
| 分类方式 | 爬虫抓取深度 | 内页收录率 | 栏目页排名能力 |
| 凭经验随意建栏目 | 2-3层后停止 | 40%-60% | 弱,缺乏关键词聚合 |
| 关键词聚类后建栏目 | 稳定抓取到第3层 | 85%以上 | 强,栏目页本身可参与排名 |
2. 内链布局:每个页面只向上和同级链接
树状结构下的内链规则很明确:
- 内容详情页:链接到所属分类页、相关同分类内容页、上级子分类页
- 分类页:链接到父分类、子分类、该分类下的内容页
- 不跨分类链接:A分类下的内容页不要直接链接到B分类下的内容页,除非有强语义关联
这样做让每个分类形成主题闭环。爬虫进入一个分类后,在该分类内完成深度抓取,权重在分类内部循环传递,不会散逸到无关页面。
3. 面包屑导航用结构化数据标记
面包屑不是给用户看的装饰,是给爬虫看的路径标识。必须用BreadcrumbList结构化数据标记。
代码实现方式:
- HTML层面用ol标签嵌套,每个层级用li
- 每个li内用a标签链接到对应层级页面
- 用JSON-LD格式在head里输出BreadcrumbList结构化数据
- 最后一级当前页面不加链接,用span包裹
验证:用Google Rich Results Test检测面包屑是否能被正确解析。
4. 分页处理:用rel="next"和rel="prev"
列表页分页时,很多网站犯的错误是用canonical把所有分页指向第一页。这会导致第2页之后的内容永远不会被索引。
正确做法:
- 每个分页保持独立URL,如?page=2或/page/2/
- head里添加rel="next"和rel="prev"链接标注分页序列关系
- 分页序列中的每个页面canonical指向自身
- 同时提供一个查看全部页面,用于长尾关键词的完整内容呈现
三、权重传递:控制爬虫的抓取方向
网站架构最终服务于权重传递。权重从首页进入,需要沿着预设路径流向目标页面。
1. 首页链接数量控制在150个以内
首页是权重最高的页面,链接出去的数量越多,每个链接分到的权重越少。这个数字来自Google早年专利中提到的页面大小限制,虽然现在没有硬性规定,但实践中超过150个链接后,部分链接会被爬虫降级处理。
操作方式:
- 首页只链接到一级分类和少量高优先级内容
- 二级分类、具体内容页不要出现在首页
- 页脚链接精简到5-8个核心入口
2. 使用nofollow控制权重流向
nofollow不是用来阻止爬虫抓取,是用来控制权重传递方向。以下页面类型的链接统一加nofollow:
- 登录、注册、购物车等功能性页面
- 标签聚合页、按日期归档页
- 筛选参数生成的动态URL
- 外部广告链接
这样做的目的是把每一份传递过来的权重都保留在内容体系内,不被无关页面分流。
3. 定期检查抓取日志
架构搭建完成后,通过服务器日志验证爬虫的实际行为是否符合预期。
检查重点:
- 爬虫是否在抓取你nofollow的页面(如果大量抓取,说明内链结构有问题)
- 爬虫在深层目录的抓取频率是否稳定
- 是否有大量时间消耗在参数URL或低质量页面上
- 重要内容页的抓取间隔是否合理
用日志分析工具统计每个目录的抓取占比。如果发现分类A的抓取量远低于分类B,检查分类A的入口链接是否太少或位置太深。
4. 页面加载速度直接影响抓取预算
Google分配给每个网站的抓取预算是有限的。页面响应越慢,单位时间内能抓取的页面越少。
具体指标:
- 首字节时间控制在200ms以内
- 页面完整加载时间控制在2.5秒以内
- 移动端和桌面端分开测试,移动端权重更高
服务器响应慢的页面,爬虫会降低抓取频率。这不是推测,是Search Console里可以观测到的现象:响应时间超过600ms的页面,抓取频次会明显下降。
四、架构验证清单
搭建完成后,用以下清单逐项验证:
- 全站HTTPS,HTTP版本已301跳转
- 首选域统一,无www和带www版本不会同时存在
- URL全部小写,无重复斜杠或参数版本
- 目录层级不超过3层
- 每个分类有独立索引页,分类间不交叉链接
- 面包屑已部署BreadcrumbList结构化数据
- 分页使用rel="next"和rel="prev"
- XML Sitemap按内容类型拆分提交
- 首页链接数不超过150个
- 功能性页面和低质量聚合页已加nofollow
- 服务器响应时间200ms以内
架构是地基。地基打歪了,后续内容优化和链接建设的效果都会打折扣。先把上面这些落实,再谈页面级别的优化。