通常我们要查询网站在Google收录的网页数时,我们会用到site指令。

但是这个指令一直以来,查询出来的数量高于实际的收录数量。

如果不能较为精准地知道网站收录数,就难以对网站的进行更精准的优化。

为了克服这个问题,下面我会提供一个办法来实现。这个方法我在万兴工作时曾用到过。

前提概要,我们知道GSC是可以用来提交sitemap,并且可以在GSC的索引报告中,查看到Google过去三个月以来的索引页面数量。

所以,我的办法是在GSC和sitemap上想对策。

通常来说,sitemap是我们提高整站收录最有效的方式之一,其次是GSC单独提交网址,另外就是内链,外链。

然而,在GSC的索引报告上,仅显示最大1000行URL。如果你要导出整站在GSC收录的页面URL,仅限1000个,也包括你在sitemap提交的网址数量。

所以,当你的网站收录体量超过1000个URL时,就没办法用GSC手工记录到本地或者用tableau等工具监控。

这个时候,我们可以利用“sitemap分卷”的方式来实现。“sitemap分卷”是过去我在傲雷工作时,与好友兼前上级的Paul发现和用来优化收录的办法。

不过在这里我们可以把sitemap按照不同的页面类型,划分成不同的sitemap,每个sitemap的网址数量不超过1000个,最后将这些sitemap都提交到GSC上,过几天等GSC刷新了,就可以看到最新的收录页面。

不过这个方法也有一些缺点:

  • 网站规模不是很大,如果超大型网站,有几十万、几百万以上页面数量时,分卷的sitemap数量可能太多。
  • 这个方法只能监控提交到Sitemap的网址收录监控,没有被提交到sitemap的网址,就没办法监控。

要实施这个方法,前提是你要对网站页面收录优先级有个预先准备,那些重要的页面、需要获取自然流量的页面、需要被用户通过搜索到的页面、需要被Google验证网站内容质量的页面等,放入到sitemap中,然后按照合理的归类方式和sitemap文件命名方式,提交到GSC,最后通过手工excel记录、tableau本地记录或者接入GSC API等方式实现数据监控。