如何审核规范化链接
一个关于如何审核在 HTML 和 HTTP 标头中发现的规范链接元素,以查找常见错误和问题的分步教程。
如何使用 SEO Spider 审核规范化链接
当一个页面可以通过多个 URL 访问时,rel=”canonical” 元素有助于指定页面的首选版本。它向搜索引擎发出提示,通过将索引和链接属性整合到单个 URL 中以用于排名,从而帮助防止重复内容。
本教程将引导您了解如何使用 Screaming Frog SEO Spider 快速有效地审核网站上的规范化链接实现。SEO Spider 将抓取在 HTML 和 HTTP 标头中找到的规范链接元素,并报告它们的设置和常见错误。
要开始使用,您需要下载 SEO Spider,它以精简版形式免费提供,可抓取多达 500 个 URL。您可以通过右侧边栏中的按钮下载。接下来,只需按照以下步骤操作。
1) 确保在“Configuration > Spider > Crawl”(配置 > 爬虫 > 抓取)下启用“Store”和“Crawl” Canonicals(存储和抓取规范化链接)
此选项默认启用,因此除非您已调整配置,否则它将已设置好。SEO Spider 的“Configuration”(配置)可在顶级菜单中找到。

这意味着 rel=”canonical” 中引用的 URL 将被抓取,以及被提取和报告。接下来,单击“OK”(确定)。
2) 抓取网站
打开 SEO Spider,在“Enter URL to spider”(输入要抓取的 URL)框中键入或复制您要抓取的网站,然后点击“Start”(开始)。

该网站和 rel=”canonical” 元素中的任何 URL 都将被抓取。
现在喝杯咖啡,等待进度条达到 100%,并且抓取完成。
3) 查看 Canonicals(规范化链接)选项卡
Canonicals(规范化链接)选项卡 显示了在抓取中找到的所有 URL 及其对应的 rel=”canonical” 链接元素和 HTTP Canonicals(HTTP 规范化链接),它们在主窗口窗格中的单独对应列中显示。
规范化链接选项卡有 6 个过滤器,可帮助您了解规范化链接的实现,并识别常见的规范化链接问题。

“Occurences”(出现次数)列计算已为每个 URL 发现的 rel=”canonical” 元素的数量。
右侧的概览窗口窗格提供了每个选项卡和过滤器中包含的数据摘要,因此您无需检查每个过滤器即可知道在哪里单击以查看是否有数据。在下图中,我们可以看到有 1 个 URL 已“canonicalised”(规范化),并且有 1 个 URL 具有“Non-Indexable Canonical”(不可索引的规范化链接)。

您可以按以下内容进行过滤 -
- Contains Canonical(包含规范化链接)– 页面已设置规范 URL(通过链接元素、HTTP 标头或两者)。这可以是自引用规范 URL,其中页面 URL 与规范 URL 相同,也可以是“canonicalised”(规范化),其中规范 URL 与页面 URL 不同。
- Self Referencing(自引用)– URL 具有一个规范,该规范与抓取的页面 URL 相同(因此,它是自引用的)。理想情况下,只有 URL 的规范版本才会在内部链接到,并且每个 URL 都应具有自引用规范,以帮助避免可能发生的任何潜在的重复内容问题(即使在 Web 上自然发生,例如 URL 上的跟踪参数,其他网站错误地链接到解析的 URL 等)。
- Canonicalised(已规范化)– 页面具有与其自身不同的规范 URL。URL 已“canonicalised”(规范化)到另一个位置。这意味着搜索引擎被指示不要索引该页面,并且索引和链接属性应整合到目标规范 URL。应仔细审查这些 URL。在一个完美的世界中,网站不需要规范化任何 URL,因为只会链接到规范版本,但通常由于无法控制的各种情况以及为了防止重复内容而需要它们。
- Missing(缺失)– 没有规范 URL 作为链接元素或通过 HTTP 标头存在。如果页面未指示规范 URL,则 Google 将识别他们认为的最佳版本或 URL。这可能导致排名不可预测,因此通常所有 URL 都应指定一个规范版本。
- Multiple(多个)– 为 URL 设置了多个规范(多个链接元素、HTTP 标头或两者组合)。这可能导致不可预测性,因为对于一个页面,应该只有一个规范 URL 由单个实现(链接元素或 HTTP 标头)设置。
- Multiple Conflicting(多个冲突)– 为 URL 设置了多个规范的页面,这些规范具有不同的 URL(通过多个链接元素、HTTP 标头或两者组合)。这可能导致不可预测性,因为对于一个页面,应该只有一个规范 URL 由单个实现(链接元素或 HTTP 标头)设置。
- Non-Indexable Canonical(不可索引的规范化链接)– 规范 URL 是不可索引的页面。这将包括被 robots.txt 阻止、无响应、重定向 (3XX)、客户端错误 (4XX)、服务器错误 (5XX) 或“noindex”的规范。URL 的规范版本应始终是可索引的,“200”响应页面。因此,转到不可索引页面的规范 应更正为解析的可索引版本。
- Canonical Is Relative(规范化链接是相对的)– 具有相对而不是绝对 rel=”canonical” 链接标记的页面。虽然该标记(如许多 HTML 标记一样)接受相对和绝对 URL,但很容易在相对路径中犯下细微的错误,这可能会导致与索引相关的问题。
- Unlinked(未链接)– 仅通过 rel=”canonical” 发现且未通过网站上的超链接链接到的 URL。这可能表明内部链接存在问题,或者规范中包含的 URL 存在问题。
- Invalid Attribute In Annotation(注释中的属性无效)– 具有 rel=”canonical” 注释的页面,该注释包含使用 hreflang、lang、media 或 type 属性的备用版本。向链接元素添加某些属性会更改注释的含义,以表示不同的设备或语言版本。Google 会忽略这些注释,并且不会将其用于规范化。
- Contains Fragment URL(包含片段 URL)– 具有 rel=”canonical” 的页面,该 rel=”canonical” 在 href 属性中包含片段 URL。Google 通常不支持片段 URL。Google 会忽略这些注释,并且不会将其用于规范化。
- Outside
<head>(在<head>之外)– 具有位于 HTML 中 head 元素之外的规范链接元素的页面。规范链接元素应位于 head 元素内,否则搜索引擎将忽略它。
4) 通过下部窗口窗格的“URL Details”(URL 详细信息)选项卡查看不可索引的规范 URL 的“Indexability Status”(可索引性状态)
底部的“URL Details”(URL 详细信息)选项卡显示规范不可索引的原因。如下例所示,此规范 URL 不可索引,因为它已重定向。

5) 使用“Reports > Canonicals > Non-Indexable Canonicals”(报告 > 规范化链接 > 不可索引的规范化链接)导出批量导出源 URL、不可索引的规范 URL 及其状态代码
要批量导出包含不可索引规范的源页面的详细信息、它们各自的可索引性、可索引性状态、状态和状态代码,请单击顶级菜单中的“reports”(报告),然后选择“Canonicals > Non-Indexable Canonicals”(规范化链接 > 不可索引的规范化链接)。

此导出通常更容易理解和处理以进行修复(或发送给开发人员进行修复)。它还包括通过普通 HTML 锚元素在抓取中“未链接”的任何规范 URL 的详细信息。
6) 单击“Reports > Canonicals > Canonical Chains”(报告 > 规范化链接 > 规范化链接链)报告以查看链接的规范化链接和循环
与重定向类似,规范化链接也可以链接并具有循环。页面 URL 可以规范化为另一个 URL,该 URL 规范化为另一个 URL,依此类推。或者,通常是规范化链接和重定向的组合。

导出此报告后,过滤“Chain Type”(链类型)列以查找“Canonical”(规范化链接)或“Mixed”(混合)以查看规范化链接链。在上面的示例中,我们可以看到由于不可索引的规范 URL,存在“混合”重定向循环。
下图显示了导出的电子表格,显示有两个“重定向”(实际上是指“跳”,因为它可能包含规范化的 URL)、固定的“起始地址”和“最终地址”。最终地址可索引性为“不可索引”,因为它已“规范化”。单击图像以展开。
滚动到电子表 格的右侧,会显示已发现的每个跳。我们可以看到该地址具有规范重定向,其 301 状态代码会返回到起始 URL(导致循环)。同样,您可以单击图像以展开它。
为了总结电子表格,规范化链接链导出显示 https://www.thelightingsuperstore.co.uk/clearance-lighting 页面已将规范 URL 设置为 https://www.thelightingsuperstore.co.uk/clearance-lighting/clearance-stock-light-fittings。
但是,https://www.thelightingsuperstore.co.uk/clearance-lighting/clearance-stock-light-fittings 规范 URL 实际上 301 重定向回原始的 https://www.thelightingsuperstore.co.uk/clearance-lighting 父页面。
虽然这不是一个大问题,但它是搜索引擎的冲突信号,应该予以纠正。在某些情况下,规范化链接链可能更大,更复杂,此报告将有助于识别和突出显示错误以及链中的完整路径。
进一步支持
上面 的指南应有助于说明使用 SEO Spider 审核网站上的 rel=”canonical” 所需的简单步骤。
另请阅读我们的 Screaming Frog SEO Spider 常见问题解答 和完整的用户指南,以获取有关该工具的更多信息。
如果您有任何其他疑问,请通过支持与我们联系。

