当前位置:首页 > SEO教程 > 正文

网站内容为什么没被收录,如何查看收录状态是否正常?

今天聊一个很多站长都关心的问题,就是网站收录。经常有朋友问,我网站文章发了,怎么在搜索引擎里搜不到。这其实就是收录出了问题。收录是SEO的第一步,内容没被收录,后续的排名和流量都无从谈起。

网站内容为什么没被收录,如何查看收录状态是否正常?

搜索引擎收录的基本原理

先简单说说搜索引擎是怎么工作的。你可以把它想象成一个巨大的图书馆。搜索引擎的爬虫,也就是蜘蛛,是图书管理员。它们每天在互联网上爬来爬去,发现新网页或更新的网页,就把它们带回到图书馆的数据库里存起来。这个过程,就叫抓取。存进去之后,网页才能被用户搜索到,这个存进去的动作,就是收录。

所以,一个网页要被看到,需要两步:一是被抓到,二是被收录。很多问题就出在这两个环节上。

如何检查你的网站是否被收录

最直接的方法,就是用搜索引擎自己来查。这里说几个具体操作。

第一种,使用site指令。在百度搜索框里输入:site:你的域名.com。注意,域名前不要加http或www。比如查一个例子站,就输入 site:example.com。搜索结果会显示所有被百度收录的这个域名下的页面。

如果结果显示“没有找到该URL的相关结果”,那基本说明整个站点都没被收录。如果只显示了一部分页面,比如只有首页,那说明收录不全。

第二种,检查具体页面。复制你某篇新文章的完整网址,直接粘贴到搜索框里搜索。如果搜出来结果,并且标题和描述是你的页面,那就说明被收录了。如果没搜到,可以试试在网址前后加上英文双引号再搜,比如“https://example.com/article/123”。这属于精准搜索。

除了手动查,最好借助一些工具来监控。百度搜索资源平台是官方工具,必须用。在里面提交网站,验证所有权之后,能看到“收录量”数据。这里面有“索引量”的曲线图,这个数据比site指令的结果更接近真实的收录情况。

这里有个简单的对比,帮你理解不同查看方式的区别:

网站内容为什么没被收录,如何查看收录状态是否正常?

查看方式操作反映的情况更新速度
Site指令搜索 site:域名公开可查的收录页面有延迟,非实时
搜索网址粘贴完整URL搜索单个页面收录状态相对及时
搜索资源平台索引量登录平台查看数据进入百度索引库的页面数较准确,有1-2天延迟

内容不被收录的常见原因和解决办法

查到没收录,接下来就要找原因。原因很多,我挑几个常见的、你可以自己动手检查的来说。

第一个,也是最基础的,爬虫能不能访问你的网站。检查robots.txt文件。这个文件放在网站根目录,比如 https://你的域名.com/robots.txt。它告诉爬虫哪些目录可以抓,哪些不可以。有时候不小心写错了规则,把整个网站都禁止了,那就全完了。一个允许所有爬虫抓取全站的简单规则是这样的:

User-agent:*

Disallow:

注意,Disallow后面是空的,表示不禁止任何内容。如果你看到 Disallow: / ,那就意味着整个站点都被屏蔽了。

第二个,页面本身的质量问题。搜索引擎喜欢原创的、对用户有用的内容。以下几种内容很难被收录:

  • 直接从别人那里复制粘贴,没做任何加工。
  • 内容非常短,几行字就没了,信息量不足。
  • 页面主体是图片或视频,但没有配套的文字说明。
  • 内容虽然长,但语句不通,逻辑混乱,用户看不懂。

第三个,网站结构问题。如果网站内部链接乱七八糟,爬虫从首页出发,像走迷宫一样,很难深入到内页,那些内页自然就不容易被发现和抓取。确保重要的栏目和文章,在首页或主导航栏有入口,并且文章之间能通过相关链接相互连接。

第四个,新站或页面权重低。对于一个全新、没有任何外部链接的网站,搜索引擎的爬虫发现它的速度会比较慢,抓取频率也低。这时候需要主动一点,去百度搜索资源平台提交网站的sitemap地图,也可以手动提交一下重要页面的URL,给爬虫引个路。

促进收录的一些可执行操作

知道了原因,我们可以主动做一些事来促进收录。这些不是玄学,是具体的技术操作。

1. 确保页面可抓取。除了检查robots.txt,还要看看页面有没有用meta标签禁止爬虫。检查网页的HTML源代码,在<head>区域里,不要出现 <meta name="ots" content=

oindex"gt; 这样的代码。如果有,删掉它。

2. 创建并提交Sitemap。Sitemap是一个XML文件,里面列出了你网站所有重要页面的网址、更新时间和优先级。你可以用很多插件或在线工具生成它。生成后,上传到网站根目录,比如 https://你的域名.com/sitemap.xml。然后去百度搜索资源平台的“数据提交”-“Sitemap”栏目,把这个文件地址提交上去。

3. 优化网站加载速度。爬虫每次访问网站都有时间预算,如果你的页面打开特别慢,爬虫可能没等加载完就离开了,导致抓取失败。可以用Google的PageSpeed Insights工具测一下速度,针对性地优化,比如压缩图片、启用浏览器缓存、减少不必要的代码。

4. 建设合理的内部链接。在新发布的文章里,适当链接回网站里相关的老文章。在老文章里,如果有相关内容,也加上新文章的链接。这就像在网站内部织了一张网,爬虫顺着链接就能爬遍所有角落。

5. 保持稳定的内容更新。不需要每天狂发几十篇,但保持一个稳定的、有规律的更新频率,比如每周两三篇。这会让爬虫养成定期来你网站逛逛的习惯。

6. 检查服务器日志。这是更进阶的方法。在服务器日志文件里,你可以看到百度爬虫(User-agent通常包含Baiduspider)来访的记录。看看它有没有来,来了之后访问了哪些页面,返回的HTTP状态码是不是200(成功)。如果爬虫根本没来过,或者来了总是收到404(页面不存在)或503(服务不可用)的代码,那就要检查服务器配置或网站稳定性了。

收录问题需要耐心,特别是对新站。做了该做的优化之后,持续观察搜索资源平台的数据变化。如果超过一个月,核心页面依然没有被收录,那就需要重新彻底检查一遍上面提到的各个环节了。

最新文章