在 Screaming Frog 中,找到菜单栏中的模式,然后选择列表。系统会略有变化,您将能够将.txt 文件上传到爬虫。
找到您更改的所有 URL 的txt 文件(Screaming Frog 的测试抓取)并将其弹出到 Screaming Frog 中。点击开始。
如果你正确地遵循了这些步骤,你最终会抓取所有 URL。如果没有,请返回并确保您没有遗漏任何内容。你需要允许爬虫抓取被阻止/未编入索引的 URL。只需单击配置和蜘蛛。然后你会看到一个复选框,上面写着忽略 robots.txt 。你可能需要勾选它。在名为高级的选项卡中的同一部分,你会看到尊重 Noindex;你可能也需要取消勾选它。它看起来像这样:
尖叫青蛙标签.png
下载所有 HTML 并将其保存为 Excel 文件。将其 秘鲁电报筛选 命名为“最终抓取的测试站点”。这将是您稍后要检查的测试抓取。另外,请保留我们对测试站点进行的第一次抓取(测试站点抓取)。
当前站点抓取 (xls)
当前站点抓取以供编辑 (xls)
测试站点抓取 (xls)
测试站点抓取以供编辑 (xls)
测试 Screaming Frog 的爬取功能 (txt)
最终抓取的测试站点 (xls)
好的,您成功了。现在您有了 Excel 格式的数据,您可以看到测试站点上哪些内容有效,哪些内容无效。这让您了解当前站点上测试站点缺少什么。
第 6 步 - 分析数据
我们正在寻找
现在我们已经完成了所有抓取,我们需要打开 Screaming Frog 的名为“最终抓取的测试站点”的 XLS 电子表格。您应该会看到大量数据。
首先,删除顶部名为“内部 HTML”的行。然后对数字“2”(如果这是空白行)执行相同操作。您应该有以下标题: