跳到主要内容

如何执行 Cookie 审计

2024-02-08

执行 Cookie 审计以进行合规性检查,从而大规模地识别所有在没有明确用户同意的情况下自动设置的 Cookie。


如今,了解网站上 Cookie 的存在和目的是至关重要的。数据隐私格局在不断发展,世界各地都有各种法律法规,其中 Cookie 合规性几乎总是以某种方式包含在内。

如果您被要求对网站上现有的 Cookie 进行合规性(ePrivacy、GDPR)、隐私或 Cookie 政策审查,Screaming Frog SEO Spider 工具可以帮助您自动完成繁重的工作,大规模地识别所有在没有明确用户同意的情况下自动设置的 Cookie。

本教程将指导您如何配置 Screaming Frog SEO Spider 来抓取网站,在其无头 Chrome 浏览器中加载每个页面,并识别发现的任何 Cookie 并将其报告给您。

SEO Spider 提供免费的精简版,但下面讨论的功能确实需要许可证。安装、许可并打开 SEO Spider 后,请按照以下步骤操作。


1) 选择“Cookies”进行提取

打开 SEO Spider,转到“Config > Spider > Extraction”,然后在“URL Details”下选择“Cookies”。

提取 Cookies

这意味着 SEO Spider 现在将存储所有发现的 Cookie。

请注意,当您选择存储 Cookie 时,SEO Spider 对 Google Analytics 跟踪代码执行的自动排除将被禁用,以提供所有已发布 Cookie 的准确视图。

这意味着它会影响您的分析报告,除非您选择使用排除配置(“Config > Exclude”)来阻止任何跟踪脚本触发。


2) 启用 JavaScript 渲染

单击“Config > Spider > Rendering”,然后选择“JavaScript”。这意味着 SEO Spider 将在后台的无头 Chrome 浏览器中打开每个网页。

用于 Cookies 的 JavaScript 渲染

这是重要的一步,因为它允许发现使用 JavaScript 或像素图像标签加载的 Cookie。

窗口大小会自动设置为 Googlebot Smartphone,但如果网站发布 Cookie 的方式有任何差异,则可以将其调整为桌面。


3) 将 User-Agent 设置为 Chrome

要模拟普通用户,请通过“Config > User-agent”将 user-agent 切换到浏览器,例如 Chrome。

Cookie 审计的 User-agent 设置为 Chrome

某些网站会根据 user-agent 有条件地设置 Cookie,否则以“Screaming Frog SEO Spider”进行抓取可能无法始终提供真实的画面。


4) 忽略 robots.txt

单击“Configuration > robots.txt > Settings”,然后选择“Ignore robots.txt”或“Ignore robots.txt but report status”。

Cookie 可以从用户可用但机器人不可用的 URL 加载,例如通过 robots.txt 阻止的页面或资源。 因此,允许加载所有资源非常重要。 任何用户设置的包含或排除功能也可能会影响这一点。


5) 抓取网站

打开 SEO Spider,在“Enter URL to spider”框中键入或复制要抓取的网站,然后点击“Start”。

抓取网站以查找重复内容

等待抓取完成并达到 100%,但您也可以实时查看一些详细信息。


在“Internal”选项卡中,有一个“cookies”列,其中显示了为每个 URL 发现的 Cookie 数量。

在每个 URL 上发现的 Cookie 数量

您需要向右滚动才能看到它。 这将帮助您识别在抓取过程中发现 Cookie 的位置。


7) 查看 Cookies 选项卡

单击顶部窗口中的 URL,然后单击下方的“Cookies”选项卡,以在下方窗口窗格中填充有关为每个 URL 发现的 Cookie 的更多详细信息。

Cookie 审计选项卡

您可以单击上面的图像以查看更大的版本。 您可以查看每个 URL 的精细 Cookie 数据。 您还可以一次突出显示多个 URL 并一起查看它们(右侧的“address”列显示每个 URL 所在的 URL)。

Cookies 选项卡特写!

Cookies 选项卡中列出的列包括:

  • Cookie Name – Cookie 的名称。
  • Cookie Value – Cookie 的值。
  • Domain – 发布 Cookie 的域。 这些可以是第一方或第三方。
  • Expiration Time – Cookie 的到期时间。
  • Secure – Cookie 安全属性的详细信息。 True 表示存在“secure”属性。
  • HttpOnly – Cookie HttpOnly 属性的详细信息。 True 表示存在“HttpOnly”属性。
  • Address – 设置 Cookie 的 URL。

通过单击“Reports > Cookies > Cookie Summary”导出发现的 Cookie 的聚合摘要。

Cookie 摘要报告

这显示了在抓取期间发现的唯一 Cookie 的聚合视图,同时考虑了它们的名称、域、到期时间、安全性和 HttpOnly 值。 还会显示每个唯一 Cookie 发布到的 URL 数量。 Cookie 值本身在此聚合中被忽略(因为它们是唯一的!)。

Cookie 审计摘要报告


单击“Bulk Export > Web > All Cookies”以导出每个 URL、Cookie 和发现的所有 Cookie 属性。

批量导出 Cookies

此导出允许您以您认为合适的方式查询数据。


Chrome 计划在 2024 年限制第三方 Cookie,但需解决英国竞争与市场管理局 (CMA) 提出的任何剩余竞争问题。 其他浏览器可能会效仿,如果它们尚未这样做的话。

隐私沙盒的目标是减少跨站点跟踪以保护隐私。 Chrome 将在 1 月份为 1% 的用户禁用第三方 Cookie 进行测试,并计划从 2024 年第三季度开始将此比例提高到 100% 的用户。 为了为这一变化做好准备,应识别您网站上将被 Chrome 阻止的第三方 Cookie,并测试是否存在中断。

要识别具有将受到淘汰影响的第三方 Cookie 的页面,请通过“Config > Spider > Rendering”启用 JavaScript 渲染模式,并启用“JavaScript Error Reporting”。

Cookie 淘汰的 JavaScript 错误报告

可能存在有问题的第三方 Cookie 的页面可以在“JavaScript”选项卡和“Pages With Chrome Issues”过滤器下看到。 下方的“Chrome Console Log”选项卡将使用以下描述识别任何问题 –

“Cookie Issue. [WARN_THIRD_PARTY_PHASEOUT]”。

为第三方 Cookie 限制做好准备

这些可以通过“Bulk Export > JavaScript > Pages With JavaScript Issues”批量导出。


您可以使用“Forms Based”身份验证来接受 Cookie 弹出窗口并抓取网站,以审核 Cookie,就像您已同意一样。

为此,请转到“Config > Authentication > Forms Based”,然后单击“Add”,插入网站 URL,然后单击“OK”。

当网站在内置 Chrome 浏览器中加载时,像往常一样接受 Cookie 弹出窗口。

Cookie 同意接受

单击“OK”,然后再次单击“OK”。 然后按照上面教程中的第 1-8 点进行操作。

然后,您可以分析设置的 Cookie,就像您已同意一样,以查看整个网站的差异。


总结

希望本教程能帮助您执行全面的 Cookie 审计,以识别通过浏览网站自动加载的 Cookie – 用于 Cookie 政策和合规性,例如 ePrivacy 和 GDPR。

如果在按照上述指南抓取网站时遇到任何问题,请查看以下常见问题解答 –

或者,请通过支持与我们联系,我们可以提供帮助。