HTTP 状态码 - 为什么我的网站无法抓取?
如果 SEO Spider 只抓取一个页面,或者没有按预期抓取,那么首先要检查的是“状态”和“状态码”。请在我们的指南中了解更多信息。
抓取时的 HTTP 状态码
如果 Screaming Frog SEO Spider 只抓取一个页面,或者没有按预期抓取,那么首先要检查的是“状态”和“状态码”,以帮助识别问题所在。
状态是 超文本传输协议 (HTTP) 的一部分,位于服务器响应标头中,由数字状态码和等效的文本状态组成。
当 URL 输入到 SEO Spider 中并启动抓取时,来自响应标头的 URL 的数字状态会显示在“状态码”列中,而等效的文本状态会显示在默认“内部”选项卡视图中的“状态”列中,例如:

以下是最常见的状态码,您在网站无法抓取时可能会遇到这些状态码,以及解决这些问题的步骤:
状态码 – 状态
0 – 被 Robots.txt 阻止
0 – DNS 查找失败
0 – 连接超时
0 – 连接被拒绝
0 – 连接错误 / 0 – 无响应
200 – OK
301 – 永久移动 / 302 – 临时移动
400 – 错误请求 / 403 – 禁止 / 406 – 不可接受
404 – 页面未找到 / 410 – 已删除
429 – 请求过多
500 – 内部服务器错误 / 502 – 错误网关 / 503 – 服务不可用
0 – 被 robots.txt 阻止
Spider 中的任何“0”状态码都表示缺少来自服务器的 HTTP 响应。该状态提供了关于为什么没有返回状态的线索。
在这种情况下,这表明站点的 robots.txt 阻止 SEO Spider 的用户代理访问请求的 URL。因此,由于 disallow 指令,看不到实际的 HTTP 响应。

需要检查的事项: 站点的 robots.txt 中禁止了什么?(在抓取的 URL 的子域上添加 /robots.txt)。
可以尝试的事项: 将 SEO Spider 设置为忽略 robots.txt(配置 > Robots.txt > 设置 > 忽略 Robots.txt)或使用自定义 robots.txt 配置以允许抓取。
原因: SEO Spider 默认遵守 disallow robots.txt 指令。
0 – DNS 查找失败
根本找不到该网站,通常是因为该网站不存在,或者您的互联网连接不可用。

需要检查的事项: 域名输入是否正确。
需要检查的事项: 该站点是否可以在您的浏览器中看到。
原因: 如果您无法在浏览器中查看该站点,则可能遇到 PC / 网络连接问题。如果您可以查看该站点,则某些东西(可能是防病毒软件或防火墙)阻止 Spider 连接到互联网,并且必须为其设置例外。
0 – 连接超时
当 SEO Spider 在设定的时间内(默认情况下为 20 秒)难以从服务器接收 HTTP 响应时,会发生连接超时。

需要检查的事项: 您可以在浏览器中查看该站点吗?加载速度是否缓慢?
可以尝试的事项: 如果站点速度较慢,请尝试增加响应超时并降低抓取速度。
原因: 这使 SEO Spider 有更多时间接收信息,并减少了服务器的压力。
需要检查的事项: 可以抓取其他站点吗?(bbc.co.uk 和 screamingfrog.co.uk 是很好的控制测试)。