“已发现 – 当前未编入索引”是 Google Search Console 覆盖率报告中的一个状态。当 Google 知道某个页面存在但尚未对其进行抓取或编入索引时,将使用此状态。Google 可以通过XML 站点地图、内部和外部链接发现页面。
在本指南中,您将看到此状态的原因。在大多数情况下,“已发现 – 当前未编入索引”的页面最终会在无需手动请求的情况下被抓取。
使用 URL 检查工具和索引覆盖率报告从您的网站中查找这些页面。
如果 Google 已经抓取了您网站上的页面但尚未将其编入索引,请参阅“已抓取 – 当前未编入索引”。
本文是我们Google Search Console 教程和培训部分的一部分,请务必查看其他文章。
为什么 Google 抓取我的网页需要时间?
Google 抓取网站的频率各不相同,这解释了为什么抓取您的网页可能需要更多时间。
影响 Google 抓取网站频率的一些因素是:
- Google 认为网站的相关性如何;
- 网站发布新内容的频率;
- 网站和服务器的速度;
- 您有太多要抓取的网址;
- 您在网站上有错误,浪费了抓取预算。
随着时间的推移,Google 会根据这些信号调整抓取您网站页面的频率。
为什么 Google 会从索引中排除某些页面?
为网络上的每个页面编制索引是不切实际的,甚至是不可能的,因此您不一定希望 Google 为任何网站(包括您的网站)的所有页面编制索引。
多年来,Google 制定了内容指南来处理不断增长的页面数量。它们是谷歌确定应该索引什么的一种方式。
以下是导致 Google 不索引页面的常见情况列表:
- 技术原因:人类无法访问的页面会从索引中删除。包括有错误的页面(4xx 代码)和重定向(301 和 302);
- 缺乏抓取预算:大型网站面临谷歌可以抓取的页面数量限制。这意味着一些页面进入等候名单;
- 设计排除:有时,网站所有者不希望页面被编入索引并使用robots.txt或 noindex 标记。这也发生在带有引用不同 URL 的规范标签的页面上;
- 网站结构不佳:如果内部链接结构不佳,Google 不会抓取页面;
- 谷歌节省资源:谷歌可以决定一个页面不值得抓取。
用 Google 搜索倡导者 John Mueller的话来说:
“没有客观的方法可以正确抓取网络。理论上不可能全部抓取,因为实际 URL 的数量实际上是无限的。”
如何修复“已发现 – 当前未编入索引”
正如上面所看到的,谷歌可能没有抓取您网站上的页面的原因有很多。但现在是时候关注如何解决这个可怕的“已发现 – 当前未编入索引”状态。
手动要求 Google 抓取页面
如果您之前发布了一个页面,而 Google 尚未抓取该页面,则该手动要求他们抓取该页面了。
要请求 Google 将页面编入索引,请按以下步骤操作:
- 使用 Google Search Console 上的 URL 检查工具(在侧边栏或页面顶部);
- 放上你想让谷歌抓取的网址;
- 按 Enter(或 Return)并等待 URL 报告;
- 点击“请求索引”让 Google 将此 URL 放入其抓取队列。
一个重要的提醒是,您应该只执行 1 次该过程。反复按“请求索引”不会使 Google 更快地抓取页面。
执行本指南中提到的以下步骤很重要,因为 Google 应该在您的网站上查找和抓取页面,而无需您每次都手动询问。如果他们不这样做,则您的网站可能有问题,或者需要改进。
检查服务器容量
检查您的网站服务器是否在处理 Google 爬虫时不会超载。
检查 Google Search Console 上的抓取统计信息或托管服务器上的抓取日志。
要访问服务器运行状况,请查看平均响应时间和 5xx 错误代码(服务器过载)。如果服务器没有遇到这些错误,您无需执行任何操作。但是,如果您发现这些 5xx 错误,请考虑升级您的网络托管基础设施或提高网站性能。
检查页面是否在 XML 站点地图中
Google 可以发现和索引不在 XML 站点地图文件中的页面,但建议还是包含它们。这样,您就表明它是您想要索引的相关页面,并使爬虫更容易找到它。
WordPress 用户的一个潜在解决方案是使用 WordPress 插件,该插件会在发布新页面时自动更新 XML 站点地图文件。流行的选项是Yoast、Rank Math和SEOPress。
对于其他网站建设者和 CMS,请检查是否有现有的 XML 站点地图,或者您是否需要创建一个。通常,如果在根域之后添加“sitemap.xml”,您可以找到站点地图。例如,Domain.com/sitemap.xml。
创建临时站点地图
有时,即使您已经有一个 XML 站点地图,它也可能有助于新页面的抓取和索引,以创建一个临时 XML 站点地图,其中仅包含您希望进入搜索结果的 URL。这是我们指南中关于通过 Google 快速获取内容索引的提示之一。检查它以提高您的网站索引速度。
优化 Google 抓取预算
缺乏抓取预算是影响页面被抓取的另一个因素。通常,只有几万页的大网站才需要担心抓取预算。
但是,如果您的网站属于该类别,或者您在获取内容索引时遇到问题,这些是优化抓取预算的步骤:
- 修复抓取错误,例如产生 404 错误的内部页面损坏。
- 修复 301 重定向到另一个内部页面的内部链接。
- 删除重定向链(也称为重定向循环),因为它们占用了抓取预算;
- 阻止您网站的某些部分,以避免 Google 抓取您认为不太相关的页面(仅适用于高级 SEO);
- 通过减小图像大小、最小化 HTTP 请求以及缩小 CSS 和 JavaScript 来优化网站速度。
即使您的网站没有遇到抓取预算问题,也值得提高网站速度,因为它是 Google 排名因素。