就越大。 什么是服务器日志? 日志文件是进出服务器的所有内容的记录。将其视为爬虫和真实用户提出的请求的分类帐。您可以准确地看到 Google 在您的网站上抓取了哪些资源。 您还可以查看需要注意哪些错误。例如,我们在分析中发现的一个问题是,我们的 CMS 为每个页面创建了两个 URL,而 Google 发现了这两个 URL。这导致了重复内容问题,因为具有相同内容的两个 URL 相互竞争。 分析日志不是火箭科学—是用户代理(签名)——这是 Googlebot(桌面)的用户代理 一旦你知道每一行是由什么组成的,它就不会那么可怕了。这只是很多信息。
但这就是下一步派上用场的地方。 您可以使用的工具 您可以选择许多工具来帮助您分析日志文件。我不会为您提供可用工具的完整介绍,但了解静态工具和实时工具之间的区别很重要。 静态— 这仅分析静态文件。你不能延长时间范围。想分析另一个时期?您需 号码表 要请求一个新的日志文件。我最喜欢的用于分析静态日志文件的工具是 Power BI。 实时- 让您可以直接访问日志。我真的很喜欢开源ELK Stack (Elasticsearch、Logstash 和 Kibana)。实现它需要适度的努力,但一旦堆栈准备好,它允许我根据我的需要更改时间框架,而无需联系我们的开发人员。 开始分析 不要只是为了找到一些东西而潜入日志——开始提问。如果你一开始没有提出你的问题,你最终会陷入一个没有方向、没有真正洞察力的兔子洞。
以下是我在分析开始时使用的一些问题示例: 哪些搜索引擎会抓取我的网站? 哪些 URL 最常被抓取? 最常抓取哪些内容类型? 返回哪些状态码? 如果您发现 Google 正在抓取不存在的页面 (404),您可以开始询问这些请求的网址中的哪些返回 404 状态代码。 按请求数量对列表进行排序,评估数量最高的页面以找到具有最高优先级的页面(请求越多,优先级越高),并考虑是否重定向该 URL 或执行任何其他操作。 如果您使用 CDN 或缓存服务器,您还需要获取该数据以获取完整的图片。 细分您的数据 将数据分组为段提供了汇总数字,让您了解全局。