最后您将获得以下文档

rakibhasanbd4723 · Post by **rakibhasanbd4723** » Sat Feb 22, 2025 3:52 am

在 Screaming Frog 中，找到菜单栏中的模式，然后选择列表。系统会略有变化，您将能够将.txt 文件上传到爬虫。
找到您更改的所有 URL 的txt 文件（Screaming Frog 的测试抓取）并将其弹出到 Screaming Frog 中。点击开始。
如果你正确地遵循了这些步骤，你最终会抓取所有 URL。如果没有，请返回并确保您没有遗漏任何内容。你需要允许爬虫抓取被阻止/未编入索引的 URL。只需单击配置和蜘蛛。然后你会看到一个复选框，上面写着忽略 robots.txt 。你可能需要勾选它。在名为高级的选项卡中的同一部分，你会看到尊重 Noindex；你可能也需要取消勾选它。它看起来像这样：
尖叫青蛙标签.png

下载所有 HTML 并将其保存为 Excel 文件。将其秘鲁电报筛选命名为“最终抓取的测试站点”。这将是您稍后要检查的测试抓取。另外，请保留我们对测试站点进行的第一次抓取（测试站点抓取）。

当前站点抓取 (xls)
当前站点抓取以供编辑 (xls)
测试站点抓取 (xls)
测试站点抓取以供编辑 (xls)
测试 Screaming Frog 的爬取功能 (txt)
最终抓取的测试站点 (xls)
好的，您成功了。现在您有了 Excel 格式的数据，您可以看到测试站点上哪些内容有效，哪些内容无效。这让您了解当前站点上测试站点缺少什么。

第 6 步 - 分析数据
我们正在寻找
现在我们已经完成了所有抓取，我们需要打开 Screaming Frog 的名为“最终抓取的测试站点”的 XLS 电子表格。您应该会看到大量数据。

首先，删除顶部名为“内部 HTML”的行。然后对数字“2”（如果这是空白行）执行相同操作。您应该有以下标题：