Forum Posts

nehar
Jul 31, 2022
In Welcome to the Forum
就越大。 什么是服务器日志? 日志文件是进出服务器的所有内容的记录。将其视为爬虫和真实用户提出的请求的分类帐。您可以准确地看到 Google 在您的网站上抓取了哪些资源。 您还可以查看需要注意哪些错误。例如,我们在分析中发现的一个问题是,我们的 CMS 为每个页面创建了两个 URL,而 Google 发现了这两个 URL。这导致了重复内容问题,因为具有相同内容的两个 URL 相互竞争。 分析日志不是火箭科学—是用户代理(签名)——这是 Googlebot(桌面)的用户代理 一旦你知道每一行是由什么组成的,它就不会那么可怕了。这只是很多信息。 但这就是下一步派上用场的地方。 您可以使用的工具 您可以选择许多工具来帮助您分析日志文件。我不会为您提供可用工具的完整介绍,但了解静态工具和实时工具之间的区别很重要。 静态— 这仅分析静态文件。你不能延长时间范围。想分析另一个时期?您需 号码表 要请求一个新的日志文件。我最喜欢的用于分析静态日志文件的工具是 Power BI。 实时- 让您可以直接访问日志。我真的很喜欢开源ELK Stack (Elasticsearch、Logstash 和 Kibana)。实现它需要适度的努力,但一旦堆栈准备好,它允许我根据我的需要更改时间框架,而无需联系我们的开发人员。 开始分析 不要只是为了找到一些东西而潜入日志——开始提问。如果你一开始没有提出你的问题,你最终会陷入一个没有方向、没有真正洞察力的兔子洞。 以下是我在分析开始时使用的一些问题示例: 哪些搜索引擎会抓取我的网站? 哪些 URL 最常被抓取? 最常抓取哪些内容类型? 返回哪些状态码? 如果您发现 Google 正在抓取不存在的页面 (404),您可以开始询问这些请求的网址中的哪些返回 404 状态代码。 按请求数量对列表进行排序,评估数量最高的页面以找到具有最高优先级的页面(请求越多,优先级越高),并考虑是否重定向该 URL 或执行任何其他操作。 如果您使用 CDN 或缓存服务器,您还需要获取该数据以获取完整的图片。 细分您的数据 将数据分组为段提供了汇总数字,让您了解全局。
0
0
4
 

nehar

More actions