跳到主要内容

抓取受密码保护的网站

2025-03-12

使用我们内置的 Chrome 浏览器,抓取需要登录的网站,使用 Web 表单身份验证。


抓取受密码保护的网站

SEO Spider 的 7.0 版本 中,我们发布了 Web 表单身份验证,这使得抓取网站的开发版本或页面成为可能,这些页面具有内置于页面中的登录功能,例如私有的 WordPress 站点。SEO Spider 已经支持基于标准的身份验证(基本身份验证和摘要式身份验证),但 Web 表单身份验证允许它抓取几乎所有登录后的内容。

这是一个非常强大的功能,因此应该谨慎使用。SEO Spider 会点击页面上的每个链接;当您登录时,这可能包括注销您的链接、创建帖子、安装插件,甚至删除数据。

阻止 SEO Spider 对您的网站造成损害的最佳和最安全的方法是确保您使用一个对网站没有写入权限的帐户登录它。在测试期间,我们为 Spider 创建了一个新用户,其角色设置为“订阅者”。

我们的测试站点使用 My Private Site WordPress 插件来密码保护整个站点,这限制了只有登录用户才能访问。您可能需要与您网站的管理员联系,以获取为您的开发站点设置的只读帐户。

最好也使用 SEO Spider 的 Exclude 功能来拉黑一些精选的 URL。我们希望排除注销我们的 URL,并且最好全面禁止抓取 /wp-admin/ 中的任何内容。

对于默认 WordPress 安装,您需要使用的正则表达式如下所示:

http://example.com/wp-login\.php\?action=logout.*  
http://example.com/wp-admin/.*

通过这些排除项,SEO Spider 将仅抓取 WordPress 站点的网站部分,即使它以某种方式进入后端,它也无法造成任何损害,因为它没有以管理员身份登录。

现在我们为 SEO Spider 创建了一个安全的用户帐户并设置了我们的排除项,我们可以通过转到“Configuration -> Authentication”,然后切换到“Forms Based”选项卡,然后单击“Add”按钮来登录到网站。继续输入您要抓取的站点的 URL,将会弹出一个浏览器,允许您登录。

身份验证用户界面

登录后,单击“OK”,然后关闭配置窗口。启动抓取并观看 SEO Spider 大胆地进入它从未去过的地方:您安全网站的登录页面之后。

抓取中

在测试期间,我们还让 SEO Spider 在以管理员身份登录时在我们的测试站点上运行。我们让它抓取了半个小时;在那段时间里,它为站点安装并设置了一个新主题,安装了 108 个插件并激活了其中的 8 个,删除了一些帖子,并且总体上搞得一团糟。由于 SEO Spider 以非确定性的方式抓取,因此其他测试运行导致它几乎立即再次注销自己。

这是一个非常强大的功能,需要非常小心和注意地使用,但它将成为确保您的网站在部署之前处于最佳状态的宝贵工具。

请查看我们的身份验证视频指南以获取更多信息。

您可以在我们的 FAQUser Guide 中阅读有关 SEO Spider 更多功能的介绍,如果您有任何问题,请随时 联系支持