跳到主要内容

如何使用列表模式

2024-02-02

使用“列表模式”上传 URL 列表,并控制要抓取的其他元素,例如外部链接或图像,以实现激光聚焦的抓取。


列表模式简介

SEO Spider 中有两种基本的抓取模式,默认的“Spider”模式允许您输入和抓取网站,而“List”模式允许您上传 URL 列表并抓取它们。

这听起来很简单,而且确实如此——但是列表模式有一些高级用法,这些用法稍微复杂一些,使其非常强大,本指南将在下面介绍。

首先,让我们回顾一下基础知识。要切换到列表模式,请单击顶部导航栏中的“模式 > 列表”。

列表模式

“列表”模式与常规“Spider”模式并没有真正的不同,主要有两个区别:

  1. 界面更改为显示上传按钮而不是地址栏。
  2. 限制抓取深度“配置会自动启用并设置为“0”。这意味着只会抓取您在列表模式下上传的 URL。

第二点是重要的区别,因为它意味着只会抓取上传的 URL。它不会抓取这些 URL 及其图像,或其外部链接等。它只会抓取上传的 URL,没有其他内容*。

*除非您使用 JavaScript 渲染,在这种情况下,SEO Spider 需要抓取页面资源才能在其无头 Chrome 浏览器中准确渲染页面。

请查看我们关于列表模式的视频指南,或继续阅读下面的指南。


上传列表

当您处于列表模式(模式 > 列表)时,只需单击“上传”按钮,然后选择从文件上传、在对话框中输入、粘贴 URL 列表或下载 XML Sitemap。

上传 URL 列表

就这么简单。但是,在列表模式下上传 URL 时,您应该注意一些初始事项。

需要协议

如果您不包含 HTTP 或 HTTPS(例如,仅包含 www.screamingfrog.co.uk/),则 URL 将不会被读取和上传。

找到 0 个要上传的 URL

https://www.screamingfrog.co.uk/

规范化和去重

SEO Spider 在上传时规范化 URL,并在抓取期间进行去重。例如,假设您有以下 4 个 URL 要上传 –

https://www.screamingfrog.co.uk/
https://www.screamingfrog.co.uk/#fragment-this-wont-be-crawled
https://www.screamingfrog.co.uk/seo-spider/
https://www.screamingfrog.co.uk/seo-spider/

SEO Spider 将自动确定要抓取的唯一 URL 的数量。

对于一个小列表,很容易看出(对于大多数 SEO 人员来说)这 4 个 URL 实际上只有 2 个唯一的 URL,但是对于更大的列表,可能不太明显。

SEO Spider 页面是重复的,而片段 URL(带有“#”)不被视为单独的唯一 URL,因此在上传时会对其进行规范化。

如果将这些 URL 上传到 SEO Spider 中,它将报告已找到 4 个 URL – 并在窗口对话框中对其进行规范化 –

已规范化的 URL 已上传

但是,在抓取时,它只会抓取唯一的 URL(在本例中为 2 个)。

在列表模式下抓取了两个唯一的 URL!

尽管它仅从上传的 4 个 URL 中抓取了 2 个唯一的 URL,但您仍然可以按相同的顺序导出原始上传的列表。


导出

您可以像往常一样使用任何选项卡上的“导出按钮”从列表模式导出数据。

但是,如果您希望以与上传时相同的顺序在列表模式下导出数据,以便与其他数据进行匹配,请使用用户界面顶部“上传”和“开始”按钮旁边的“导出”按钮。

按上传的相同顺序导出 URL

导出中的数据将按相同的顺序排列,并包括原始上传中的所有确切 URL,包括重复项或执行的任何修复。

列表模式按相同顺序导出

“原始 URL”是上传的 URL,而“地址”是 SEO Spider 抓取的 URL。


列表模式下的高级抓取

列表模式在正确的设置下非常强大。您应该了解一些很酷的高级用法,以帮助您激光聚焦您的分析并节省时间和精力。

抓取 URL 列表和另一个元素

列表模式可以非常灵活,允许您抓取上传的 URL 列表和另一个元素。

例如,如果您想抓取 URL 列表及其图像。或者您需要审核 URL 列表及其新实施的 canonical、AMP 或 hreflang,而不是整个站点。或者您想从 URL 列表中收集所有外部链接以进行死链接建设。您可以在列表模式下执行所有这些操作,并且该过程几乎相同。

进入列表模式后,删除自动设置为“0”的抓取深度限制。转到“配置 > Spider > 限制”并取消选中该配置。

在列表模式下禁用限制抓取深度

这意味着 SEO Spider 现在将抓取您的 URL 列表 – 以及它们链接到的同一子域上的所有 URL。

因此,您需要通过细粒度的配置选项来控制具体抓取的内容。导航到“配置 > Spider > 抓取”。在“抓取”的配置菜单中禁用所有“资源链接”和“页面链接”。

然后选择您希望与 URL 列表一起“抓取”的元素。例如,如果您想抓取 URL 列表及其图像,则设置将是。

列表模式下的高级配置

如果您上传单个 URL,例如 SEO Spider 页面,您可以看到该页面及其图像都被抓取。

抓取 URL 列表和特定元素

这种高级可配置性允许对您需要的链接元素进行激光聚焦的审核。

审核重定向

如果您在站点迁移中审核重定向,则抓取其目标 URL 和遇到的任何重定向链可能特别有用。这节省了每次上传多个目标 URL 列表才能到达终点的时间。

在这种情况下,我们建议使用“配置 > Spider > 高级”下的“始终遵循重定向”配置。启用此配置意味着“抓取深度限制”将被忽略,并且将遵循重定向,直到它们达到非 3XX 响应(或者直到达到“配置 > Spider > 限制”下的“要遵循的最大重定向数“限制)。

始终遵循重定向

如果您然后使用“所有重定向”报告,它将在单个报告中映射出完整的重定向链。

所有重定向报告

请阅读我们的如何在站点迁移中审核重定向指南,以获取有关此过程的更多详细信息。

连接到 API

在列表模式下,您可以连接到 GAGSCPSI 和反向链接分析工具 API 以提取数据。例如,您可以连接到 Ahrefs API,并提取诸如引荐域、关键字、流量和价值之类的数据,这些数据随后会显示在“链接指标”选项卡中。

链接指标

例如,在收集用于竞争分析的数据时,这非常有用。


总结

上面的指南应该有助于说明如何在 SEO Spider 中使用列表模式及其高级用法。

另请阅读我们的 Screaming Frog SEO Spider 常见问题解答 和完整的用户指南,以获取有关该工具的更多信息。

如果您有任何其他疑问,请通过支持与我们联系。