SEO Spider 标签页
内部链接
“内部链接”标签页整合了从大多数其他标签页(外部链接、hreflang 和结构化数据标签页除外)提取的所有数据。这意味着所有数据都可以全面查看,并可以一起导出以进行进一步分析。
被归类为“内部”的 URL 与爬取的起始页位于同一子域名下。通过使用“爬取所有子域名“配置、列表模式或 CDN 功能,可以将 URL 设置为内部链接。
列
此标签页包含以下列。
- Address – URL 地址。
- Content – URL 的内容类型。
- Status Code – HTTP 响应代码。
- Status – HTTP 标头响应。
- Indexability – URL 是否可索引或不可索引。
- Indexability Status – URL 不可索引的原因。例如,如果它被规范化到另一个 URL。
- Title 1 – 页面上发现的(第一个)页面标题。
- Title 1 Length – 页面标题的字符长度。
- Title 1 Pixel Width – 页面标题的像素宽度,如我们的像素宽度文章中所述。
- Meta Description 1 – 页面上的(第一个)meta 描述。
- Meta Description Length 1 – meta 描述的字符长度。
- Meta Description Pixel Width – meta 描述的像素宽度。
- Meta Keyword 1 – meta 关键词。
- Meta Keywords Length – meta 关键词的字符长度。
- h1 – 1 – 页面上的第一个 h1(标题)。
- h1 – Len-1 – h1 的字符长度。
- h2 – 1 – 页面上的第一个 h2(标题)。
- h2 – Len-1 – h2 的字符长度。
- Meta Robots 1 – 在 URL 上找到的 Meta robots 指令。
- X-Robots-Tag 1 – URL 的 X-Robots-tag HTTP 标头指令。
- Meta Refresh 1 – Meta refresh 数据。
- Canonical Link Element – canonical 链接元素数据。
- rel=“next” 1 – SEO Spider 收集这些 HTML 链接元素,旨在指示分页系列中 URL 之间的关系。
- rel=“prev” 1 – SEO Spider 收集这些 HTML 链接元素,旨在指示分页系列中 URL 之间的关系。
- HTTP rel=“next” 1 – SEO Spider 收集这些 HTTP 链接元素,旨在指示分页系列中 URL 之间的关系。
- HTTP rel=“prev” 1 – SEO Spider 收集这些 HTTP 链接元素,旨在指示分页系列中 URL 之间的关系。
- Size – 资源的大小,取自 Content-Length HTTP 标头。如果未提供此字段,则大小报告为零。对于 HTML 页面,这会更新为(未压缩的)HTML 的大小。导出时,大小以字节为单位,因此请除以 1,024 以转换为千字节。
- Transferred – 实际传输以加载资源的字节数,如果已压缩,则可能小于“size”。
- Total Transferred – 实际传输以加载 URL 的字节数,包括在 JavaScript 渲染 模式下的所有已加载资源。
- Word Count – 这是 body 标签内的所有“单词”,不包括 HTML 标记。计数基于可在“Config > Content > Area”下调整的内容区域。默认情况下,nav 和 footer 元素被排除。您可以包含或排除 HTML 元素、类和 ID 以计算精确的字数。我们的数字可能与手动执行此计算的结果不完全相同,因为解析器会对无效的 HTML 执行某些修复。您的渲染设置也会影响所考虑的 HTML。我们对单词的定义是获取文本并按空格分隔。不考虑内容的可见性(例如,设置为隐藏的 div 中的文本)。
- Text Ratio – 在页面的 HTML body 标签中找到的非 HTML 字符数(文本),除以 HTML 页面组成的字符总数,并显示为百分比。
- Crawl Depth – 页面与起始页的深度(与起始页的“点击”次数)。请注意,目前在我们的页面深度计算中,重定向算作一个级别。
- Folder Depth – URL 的深度,基于 URL 路径中的子文件夹数量(/sub-folder/)。这不是要优化的 SEO 指标,但可用于分段和高级表格搜索。
- Link Score – 介于 0-100 之间的指标,它根据页面的内部链接计算页面的相对价值,类似于 Google 自己的 PageRank。要填充此列,需要“爬取分析”。
- Inlinks – 指向 URL 的内部超链接的数量。“内部入站链接”是指从正在爬取的同一子域中的锚元素指向给定 URL 的链接。
- Unique Inlinks – 指向 URL 的“唯一”内部入站链接的数量。“内部入站链接”是指从正在爬取的同一子域中的锚元素指向给定 URL 的链接。例如,如果“页面 A”链接到“页面 B”3 次,则这将计为 3 个入站链接和 1 个指向“页面 B”的唯一入站链接。
- Unique JS Inlinks – 指向 URL 的“唯一”内部入站链接的数量,这些链接仅在 JavaScript 执行后才出现在渲染的 HTML 中。“内部入站链接”是指从正在爬取的同一子域中的锚元素指向给定 URL 的链接。例如,如果“页面 A”链接到“页面 B”3 次,则这将计为 3 个入站链接和 1 个指向“页面 B”的唯一入站链接。
- % of Total – 来自爬取的内部 HTML 页面总数的 URL 的唯一内部入站链接(200 响应 HTML 页面)的百分比。“内部入站链接”是指从正在爬取的同一子域中的锚元素指向给定 URI 的链接。
- Outlinks – 来自 URL 的内部出站链接的数量。“内部出站链接”是指从给定 URL 到正在爬取的同一子域上的其他 URL 的锚元素中的链接。
- Unique Outlinks – 来自 URL 的唯一内部出站链接的数量。“内部出站链接”是指从给定 URL 到正在爬取的同一子域上的其他 URL 的锚元素中的链接。例如,如果“页面 A”在同一子域上链接到“页面 B”3 次,则这将计为 3 个出站链接和 1 个指向“页面 B”的唯一出站链接。
- Unique JS Outlinks – 来自 URL 的唯一内部出站链接的数量,这些链接仅在 JavaScript 执行后才出现在渲染的 HTML 中。“内部出站链接”是指从给定 URL 到正在爬取的同一子域上的其他 URL 的锚元素中的链接。例如,如果“页面 A”在同一子域上链接到“页面 B”3 次,则这将计为 3 个出站链接和 1 个指向“页面 B”的唯一出站链接。
- External Outlinks – 来自 URL 的外部出站链接的数量。“外部出站链接”是指从给定 URL 到另一个子域的锚元素中的链接。
- Unique External Outlinks – 来自 URL 的唯一外部出站链接的数量。“外部出站链接”是指从给定 URL 到另一个子域的锚元素中的链接。例如,如果“页面 A”在不同的子域上链接到“页面 B”3 次,则这将计为 3 个外部出站链接和 1 个指向“页面 B”的唯一外部出站链接。
- Unique External JS Outlinks – 来自 URL 的唯一外部出站链接的数量,这些链接仅在 JavaScript 执行后才出现在渲染的 HTML 中。“外部出站链接”是指从给定 URL 到另一个子域的锚元素中的链接。例如,如果“页面 A”在不同的子域上链接到“页面 B”3 次,则这将计为 3 个外部出站链接和 1 个指向“页面 B”的唯一外部出站链接。
- Closest Similarity Match – 这显示了近似重复 URL 的最高相似度百分比。SEO Spider 将识别具有 90% 相似度匹配的近似重复项,可以调整该相似度以查找具有较低相似度阈值的内容。例如,如果一个页面有两个近似重复页面,相似度分别为 99% 和 90%,则此处将显示 99%。要填充此列,必须通过“Config > Content > Duplicates”选择“Enable Near Duplicates”配置,并且必须执行“Crawl Analysis”后处理。只有内容超过所选相似度阈值的 URL 才会包含数据,其他 URL 将保持空白。因此,默认情况下,此列仅包含相似度为 90% 或更高的 URL 的数据,除非已通过“Config > Content > Duplicates”和“Near Duplicate Similarity Threshold”设置进行了调整。
- No. Near Duplicates – 在爬取中发现的满足或超过“Near Duplicate Similarity Threshold”的近似重复 URL 的数量,默认情况下为 90% 匹配。可以在“Config > Content > Duplicates”下调整此设置。要填充此列,必须通过“Config > Content > Duplicates”选择“Enable Near Duplicates”配置,并且必须执行“Crawl Analysis”后处理。
- Spelling Errors – 为 URL 发现的拼写错误总数。要填充此列,必须通过“Config > Content > Spelling & Grammar”选择“Enable Spell Check”。
- Grammar Errors – 为 URL 发现的语法错误总数。要填充此列,必须通过“Config > Content > Spelling & Grammar”选择“Enable Grammar Check”。
- Language – 为拼写和语法检查选择的语言。这基于 HTML 语言属性,但也可以通过“Config > Content > Spelling & Grammar”设置语言。
- Hash – 使用 MD5 算法的页面哈希值。这是仅针对完全重复内容的重复内容检查。如果两个哈希值匹配,则页面在内容上完全相同。如果存在单个字符差异,它们将具有唯一的哈希值,并且不会被检测为重复内容。因此,这不是近似重复内容的检查。可以在“URL > Duplicate”下查看完全重复项。
- Response Time – 下载 URL 的时间(以秒为单位)。可以在我们的 FAQ 中找到更详细的信息。
- Last-Modified – 从服务器 HTTP 响应中的 Last-Modified 标头读取。如果服务器未提供此信息,则该值将为空。
- Redirect URI – 如果“address”URL 重定向,则此列将包含重定向 URL 目标。上面的状态代码将显示重 定向的类型,301、302 等。
- Redirect Type – 以下之一:HTTP Redirect:由 HTTP 标头触发,HSTS Policy:由于先前的 HSTS 标头,由 SEO Spider 在本地转换,JavaScript Redirect:由 JavaScript 执行触发(仅在使用 JavaScript 渲染时才会发生)或 MetaRefresh Redirect:由 HTML 中的 meta refresh 标记触发。
- HTTP Version – 这显示了爬取所使用的 HTTP 版本,默认情况下为 HTTP/1.1。如果服务器启用了 HTTP/2,则 SEO Spider 当前仅在 JavaScript 渲染模式下使用 HTTP/2 进行爬取。
- URL Encoded Address – SEO Spider 实际请求的 URL。所有非 ASCII 字符都经过百分比编码,有关更多详细信息,请参见 RFC 3986。
- Title 2, meta description 2, h1-2, h2-2 等 – SEO Spider 将从源代码中遇到的前两个元素收集数据。因此,h1-2 是页面上第二个 h1 标题的数据。
筛选器
此标签页包含以下筛选器。
- HTML – HTML 页面。
- JavaScript – 任何 JavaScript 文件。
- CSS – 发现的任何样式表。
- Images – 任何图像。
- PDF – 任何可移植文档文件。
- Flash – 任何 .swf 文件。
- Other – 任何其他文件类型,如文档等。
- Unknown – 任何具有未知内容类型的 URL。要么是因为未提供内容类型、内容类型不正确,要么是因为无法爬取 URL。被 robots.txt 阻止的 URL 也将出现在此处,例如,因为它们的文件类型未知。
外部链接
“外部链接”标签页包含有关外部 URL 的数据。被归类为“外部”的 URL 与爬取的起始页位于不同的子域名下。
列
此标签页包含以下列。
- Address – 外部 URL 地址
- Content – URL 的内容类型。
- Status Code – HTTP 响应代码。
- Status – HTTP 标头响应。
- Crawl Depth – 页面与主页或起始页的深度(与起始页的“点击”次数)。
- Inlinks – 找到的指向外部 URL 的链接数量。
筛选器
此标签页包含以下筛选器。
- HTML – HTML 页面。
- JavaScript – 任何 JavaScript 文件。
- CSS – 发现的任何样式表。
- Images – 任何图像。
- PDF – 任何可移植文档文件。
- Flash – 任何 .swf 文件。
- Other – 任何其他文件类型,如文档等。
- Unknown – 任何具有未知内容类型的 URL。要么是因为未提供内容类型,要么是因为无法爬取 URL。被 robots.txt 阻止的 URL 也将出现在此处,例如,因为它们的文件类型未知。
安全性
“安全性”标签页显 示与爬取中内部 URL 的安全性相关的数据。
列
此标签页包含以下列。
- Address – 爬取的 URL。
- Content – URL 的内容类型。
- Status Code – HTTP 响应代码。
- Status – HTTP 标头响应。
- Indexability – URL 是否可索引或不可索引。
- Indexability Status – URL 不可索引的原因。例如,如果它被规范化到另一个 URL。
- Canonical Link Element 1/2 等 – URL 上的 canonical 链接元素数据。如果存在多个实例,Spider 将找到所有实例。
- Meta Robots 1/2 等 – 在 URL 上找到的 Meta robots。如果存在多个实例,Spider 将找到所有实例。
- X-Robots-Tag 1/2 等 – X-Robots-tag 数据。如果存在多个实例,Spider 将找到所有实例。
筛选器
此标签页包含以下筛选器。
- HTTP URLs – 此过滤器将显示不安全的 (HTTP) URL。如今,所有网站都应该通过 HTTPS 在 Web 上进行安全访问。这不仅对安全性很重要,而且现在也是用户所期望的。Chrome 和其他浏览器会对任何 HTTP URL 或存在混合内容问题(即加载不安全资源)的 URL 显示“不安全”消息。
- HTTPS URLs – HTTP 的安全版本。所有内部 URL 都应该通过 HTTPS,因此应该出现在此过滤器下。
- 混合内容 – 这会显示任何通过安全 HTTPS 连接加载的 HTML 页面,这些页面具有通过不安全的 HTTP 连接加载的资源,例如图像、JavaScript 或 CSS。混合内容会削弱 HTTPS,并使页面更容易被窃听和危及原本安全的页面。浏览器可能会自动阻止 HTTP 资源加载,或者它们可能会尝试将其升级到 HTTPS。所有 HTTP 资源都应更改为 HTTPS,以避免安全问题以及在浏览器中加载时出现问题。
- 表单 URL 不安全 – HTML 页面上有一个表单,其 action 属性 URL 不安全 (HTTP)。这意味着输入到表单中的任何数据都不安全,因为它可能会在传输过程中被查看。网站上所有表单中包含的所有 URL 都应该被加密,因此需要使用 HTTPS。
- HTTP URL 上的表单 – 这意味着表单位于 HTTP 页面上。输入到表单中的任何数据,包括用户名和密码,都不安全。如果 Chrome 在 HTTP 页面上发现带有密码输入字段的表单,则会显示“不安全”消息。
- 不安全的跨域链接 – 使用 target=”_blank” 属性(在新选项卡中打开)链接到外部网站的 URL,但同时未使用 rel=”noopener”(或 rel=”noreferrer”)。单独使用 target=”_blank” 会使这些页面在某些旧版浏览器中面临安全和性能问题,据估计这些浏览器的市场份额低于 5%。在锚元素上设置 target=”_blank” 隐式提供与设置 rel=”noopener” 相同的 rel 行为,对于大多数现代浏览器(如 Chrome、Safari、Firefox 和 Edge)来说,它不会设置 window.opener。
- 协议相关的资源链接 – 此过滤器将显示任何使用协议相关链接加载资源(例如图像、JavaScript 和 CSS)的页面。协议相关链接只是一个不指定方案的 URL 链接(例如,//screamingfrog.co.uk)。它可以帮助开发人员节省指定协议的时间,并让浏览器根据与资源的当前连接来确定协议。但是,随着 HTTPS 的普及,这种技术现在已经过时,并且可能会使某些站点受到“中间人”攻击和性能问题的影响。
- 缺少 HSTS 标头 – 任何缺少 HSTS 响应标头的 URL。HTTP 严格传输安全响应标头 (HSTS) 指示浏览器应仅使用 HTTPS 而不是 HTTP 访问该网站。如果网站接受与 HTTP 的连接,然后在重定向到 HTTPS 之前,访问者最初仍将通过 HTTP 进行通信。HSTS 标头指示浏览器永远不要通过 HTTP 加载,并自动将所有请求转换为 HTTPS。
- 缺少 Content-Security-Policy 标头 – 任何缺少 Content-Security-Policy 响应标头的 URL。此标头允许网站控制为页面加载哪些资源。此策略可以帮助防范跨站点脚本 (XSS) 攻击,这些攻击利用浏览器对从服务器收到的内容的信任。SEO Spider 仅检查标头的存在,而不查询标头中找到的策略,以确定它们是否为网站设置良好。这应该手动执行。
- 缺少 X-Content-Type-Options 标头 – 任何缺少值为“nosniff”的“X-Content-Type-Options”响应标头的 URL。在缺少 MIME 类型的情况下,浏览器可能会“嗅探”以猜测内容类型,以便为用户正确解释它。但是,攻击者可能会利用这一点,他们可以尝试加载恶意代码,例如通过他们已入侵的图像加载 JavaScript。为了最大限度地减少这些安全问题,应提供 X-Content-Type-Options 响应标头并将其设置为“nosniff”。这指示浏览器仅依赖 Content-Type 标头并阻止任何不准确匹配的内容。
- 缺少 X-Frame-Options 标头 – 任何缺少值为“DENY”或“SAMEORIGIN”的 X-Frame-Options 响应标头的 URL。这指示浏览器不要在框架、iframe、embed 或对象中呈现页面。这有助于避免“点击劫持”攻击,在这种攻击中,您的内容显示在由攻击者控制的另一个网页上。
- 缺少安全 Referrer-Policy 标头 – 任何在 Referrer-Policy 标头中缺少“no-referrer-when-downgrade”、“strict-origin-when-cross-origin”、“no-referrer”或“strict-origin”策略的 URL。使用 HTTPS 时,重要的是 URL 不要泄漏到非 HTTPS 请求中。这可能会使用户遭受“中间人”攻击,因为网络上的任何人都可能查看它们。
- 错误的内容类型 – 这会显示任何实际内容类型与标头中设置的内容类型不匹配的 URL。它还会识别任何 使用的无效 MIME 类型。当服务器设置 X-Content-Type-Options: nosniff 响应标头时,这一点尤其重要,因为浏览器依赖内容类型标头来正确处理页面。例如,当 HTML 网页以 text/html 以外的 MIME 类型提供时,这可能会导致 HTML 网页被下载而不是被呈现。因此,所有响应都应在 content-type 标头中设置准确的 MIME 类型。
为了发现任何具有不安全元素(例如 HTTP 链接、规范链接、分页以及混合内容(图像、JS、CSS))的 HTTPS 页面,我们建议使用“报告”顶级菜单下的“不安全内容”报告。
响应代码
“响应代码”选项卡显示抓取中内部和外部 URL 的 HTTP 状态和状态代码。过滤器按常见的响应代码桶对 URL 进行分组。
列
此选项卡包括以下列。
- Address – 抓取的 URL。
- Content – URL 的内容类型。
- Status Code – HTTP 响应代码。
- Status – HTTP 标头响应。
- Indexability – URL 是否可索引或不可索引。
- Indexability Status – URL 不可索引的原因。例如,如果它被规范化到另一个 URL。
- Inlinks – 指向 URL 的内部链接数。“内部链接”是指从正在抓取的同一子域指向给定 URL 的链接。
- Response Time – 下载 URL 的时间(以秒为单位)。更多详细信息可以在我们的常见问题解答中找到。
- Redirect URL – 如果地址 URL 重定向,则此列将包含重定向 URL 目标。上面的状态代码将显示重定向的类型,301、302 等。
- Redirect Type – 以下之一:HTTP Redirect:由 HTTP 标头触发;HSTS Policy:由于先前的 HSTS 标头,由 SEO Spider 在本地进行转换;JavaScript Redirect:由 JavaScript 的执行触发(只有在使用 JavaScript 渲染时才会发生);或 Meta Refresh Redirect:由页面的 HTML 中的 meta refresh 标记触发。
过滤器
此选项卡包括以下内部和外部 URL 的过滤器。
- 被 Robots.txt 阻止 – 所有被网站的 robots.txt 阻止的 URL。这意味着它们无法被抓取,如果您希望搜索引擎抓取和索引页面内容,这是一个关键问题。
- 被阻止的资源 – 所有被阻止渲染页面的资源,例如图像、JavaScript 和 CSS。这可能是由于 robots.txt,或者由于加载文件时出错。仅当启用 JavaScript 渲染时,此过滤器才会填充(在默认的“仅文本”抓取模式下,被阻止的资源将显示在“被 Robots.txt 阻止”下)。这 可能是一个问题,因为搜索引擎可能无法访问关键资源以准确地渲染页面。
- 无响应 – 当 URL 不向 SEO Spider 的 HTTP 请求发送响应时。通常是格式错误的 URL、连接超时、连接被拒绝或连接错误。应更新格式错误的 URL,并且通常可以通过调整 SEO Spider 配置来解决其他连接问题。
- 成功 (2XX) – 请求的 URL 已成功接收、理解、接受和处理。理想情况下,抓取中遇到的所有 URL 都将是状态代码“200”,状态为“OK”,这非常适合内容的抓取和索引。
- 重定向 (3XX) – 遇到重定向。这些将包括服务器端重定向,例如 301 或 302 重定向。理想情况下,所有内部链接都将指向规范解析 URL,并避免链接到重定向的 URL。这减少了用户重定向跳跃的延迟。
- 重定向 (JavaScript) – 遇到 JavaScript 重定向。理想情况下,所有内部链接都将指向规范解析 URL,并避免链接到重定向的 URL。这减少了用户重定向跳跃的延迟。
- 重定向 (Meta Refresh) – 遇到 meta refresh。理想情况下,所有内部链接都将指向规范解析 URL,并避免链接到重定向的 URL。这减少了用户重定向跳跃的延迟。
- 重定向链 – 重定向到另一个 URL 的内部 URL,该 URL 也会重定向。这可能会连续发生多次,每次重定向都称为“跳跃”。完整的重定向链可以通过“报告 > 重定向 > 重定向链”查看和导出。
- 重定向循环 – 重定向到另一个 URL 的内部 URL,该 URL 也会重定向。这可能会连续发生多次,每次重定向都称为“跳跃”。仅当 URL 重定向到重定向链中的先前 URL 时,此过滤器才会填充。带有循环的重定向链可以通过“报告 > 重定向 > 重定向链”查看和导出,并将“循环”列过滤为“True”。
- 客户端错误 (4xx) – 表示请求出现问题。这可能包括诸如 400 错误请求、403 禁止、404 页面未找到、410 已删除、429 请求过多 等响应。网站上的所有链接都应理想地解析为 200“OK”URL。应将 404 等错误更新到其正确位置,删除并在适当的地方重定向。
- 服务器错误 (5XX) – 服务器未能满足表面上有效的请求。这可能包括常见的响应,例如 500 内部服务器错误 和 503 服务器不可用。所有 URL 都应以 200“OK”状态响应,这可能表明服务器在负载下或需要调查的错误配置。
请参阅我们的 Learn SEO 指南中的 HTTP 状态代码,或者要解决使用 SEO Spider 时的响应问题,请阅读我们的 抓取时的 HTTP 状态代码 教程。
URL
“URL”选项卡显示与抓取中发现的 URL 相关的数据。过滤器显示为 URL 发现的常见问题。
列
此选项卡包括以下列。
- 地址 – 抓取的 URL。
- 内容 – URL 的内容类型。
- 状态代码 – HTTP 响应代码。
- 状态 – HTTP 标头响应。
- 可索引性 – URL 是否可索引或不可索引。
- 可索引性状态 – URL 不可索引的原因。 例如,如果它被规范化到另一个 URL。
- 哈希 – 页面的哈希值。 这是一个重复内容检查。 如果两个哈希值匹配,则页面内容完全相同。
- 长度 – URL 的字符长度。
- Canonical 1 – canonical 链接元素数据。
- URL 编码地址 – SEO Spider 实际请求的 URL。 所有非 ASCII 字符都经过百分比编码,有关更多详细信息,请参见 RFC 3986。
过滤器
此选项卡包含以下过滤器。
- 非 ASCII 字符 – URL 中包含 ASCII 字符集中未包含的字符。 标准规定 URL 只能使用 ASCII 字符集发送,并且某些用户可能难以处理此范围之外的字符的 细微差别。 URL 必须转换为有效的 ASCII 格式,方法是将链接编码为带有安全字符的 URL(由 % 后跟两个十六进制数字组成)。 如今,浏览器和搜索引擎在很大程度上能够准确地转换 URL。
- 下划线 – URL 中包含下划线,搜索引擎并不总是将其视为单词分隔符。 建议使用连字符作为单词分隔符。
- 大写 – URL 中包含大写字符。 URL 区分大小写,因此作为最佳实践,通常 URL 应为小写,以避免任何潜在的混淆和重复 URL。
- 多个斜杠 – URL 的路径中有多个正斜杠(例如,screamingfrog.co.uk/seo//)。 这通常是错误的,作为最佳实践,URL 的路径各部分之间应只有一个斜杠,以避免任何潜在的混淆和重复 URL。
- 重复路径 – URL 具有在 URL 字符串中重复的路径(例如,screamingfrog.co.uk/services/seo/technical/seo/)。 在某些情况下,这可能是合法的且合乎逻辑的,但它也通常指向不良的 URL 结构和潜在的改进。 它还可以帮助识别不正确的相对链接导致无限 URL 的问题。
- 包含空格 – URL 中包含空格。 这些被认为是不安全的,并且可能导致在共享 URL 时链接断开。 应使用连字符作为单词分隔符,而不 是空格。
- 内部搜索 – URL 可能是网站内部搜索功能的一部分。 Google 和其他搜索引擎建议阻止抓取内部搜索页面。 为避免 Google 索引被阻止的内部搜索 URL,也不应通过内部链接发现它们。
- 参数 – URL 包含参数,例如“?”或“&”。 这对于 Google 或其他搜索引擎抓取来说不是问题,但建议限制 URL 中的参数数量,这对于用户来说可能很复杂,并且可能是低价值附加 URL 的标志。
- 损坏的书签 – 具有损坏书签(也称为“命名锚点”、“跳转链接”和“跳过链接”)的 URL,这些书签使用 HTML 中的 ID 属性将用户链接到网页的特定部分,并将片段 (#) 和 ID 名称附加到 URL。 单击链接后,页面将滚动到带有书签的位置。 虽然这些链接对于用户来说非常有用,但在设置中很容易出错,并且随着页面更新以及 ID 更改或删除,它们通常会随着时间的推移而“损坏”。 损坏的书签意味着用户仍然会被带到正确的页面,但他们不会被定向到预期的部分。 虽然 Google 会将这些 URL 视为同一页面(因为它忽略了 # 中的任何内容),但他们可以使用命名锚点在搜索结果中为页面排名提供“跳转到”链接。 请参阅我们的如何查找损坏的书签指南。
- GA 跟踪参数 – 包含 Google Analytics 跟踪参数的 URL。 除了创建必须抓取的重复页面之外,在内部链接上使用跟踪参数可能会覆盖原始会话数据。 utm= 参数会剥离原始流量来源,并使用指定的属性启动新会话。 _ga= 和 _gl= 参数用于跨域链接并识别特定用户,在链接中包含此参数会阻止分配唯一的用户 ID。
- 超过 115 个字符 – URL 的长度超过 115 个字符。 这不一定是问题,但研究表明,用户更喜欢更短、更简洁的 URL 字符串。
页面标题
“页面标题”选项卡包含与抓取中内部 URL 的页面标题元素相关的数据。 过滤器显示了页面标题中发现的常见问题。
页面标题,通常称为“标题标签”、“元标题”或有时称为“SEO 标题”,是网页头部中的 HTML 元素,用于向用户和搜索引擎描述页面的用途。 它们被广泛认为是页面最强的页面排名信号之一。
页面标题元素应放置在文档的头部中,并且在 HTML 中如下所示:
<title>This Is A Page Title</title>
列
此选项卡 包含以下列。
- 地址 – 抓取的 URL。
- 出现次数 – 在页面上找到的页面标题的数量(SEO Spider 最多找到 2 个)。
- 标题 1/2 – 页面标题元素的内容。
- 标题 1/2 长度 – 页面标题的字符长度。
- 可索引性 – URL 是否可索引或不可索引。
- 可索引性状态 – URL 不可索引的原因。 例如,如果 URL 被规范化到另一个 URL,或者具有“noindex”等。
过滤器
此选项卡包含以下列。
- 缺失 – 任何缺少页面标题元素的页面,内容为空或包含空格。 用户和搜索引擎都会读取和使用页面标题来了解页面的用途。 因此,页面具有简洁、描述性和唯一的页面标题至关重要。
- 重复 – 任何具有重复页面标题的页面。 为每个页面设置不同的唯一页面标题非常重要。 如果每个页面都具有相同的页面标题,那么用户和搜索引擎更难区分一个页面与另一个页面。
- 超过 60 个字符 – 任何页面标题长度超过 60 个字符的页面。 超过此限制的字符可能会在 Google 的搜索结果中被截断,并且在评分中的权重会降低。
- 低于 30 个字符 – 任何页面标题长度低于 30 个字符的页面。 这不一定是问题,但您有更多空间来定位其他关键字或传达您的 USP。
- 超过 X 像素 – Google 代码段长度实际上是基于像素限制,而不是字符长度。 SEO Spider 尝试匹配 SERP 中的最新像素截断点,但这只是一个近似值,Google 会经常调整它们。 此过滤器显示任何页面标题长度超过 X 像素的页面。
- 低于 X 像素 – 任何页面标题长度低于 X 像素的页面。 这不一定是坏事,但您有更多空间来定位其他关键字或传达您的 USP。
- 与 h1 相同 – 任何页面标题与页面上的 h1 完全匹配的页面。 这不一定是问题,但可能指出了定位替代关键字、同义词或相关关键短语的潜在机会。
- 多个 – 任何具有多个页面标题的页面。 一个页面应该只有一个页面标题元素。 多个页面标题通常是由 CMS 中多个冲突的插件或模块引起的。
- 在
<head>之外 – 标题元素位于 HTML 中 head 元素 之外的页面。 页面标题应位于 head 元素内,否则搜索引擎可能会忽略它。 即使在 head 元素之外,Google 通常仍然会识别页面标题,但不应依赖于此。
Meta description
“Meta description”选项卡包含与抓取中内部 URL 的 meta description 相关的数据。 过滤器显示了 meta description 中发现的常见问题。
Meta description 是网页头部中的 HTML 属性,用于向用户提供页面摘要。 Google 不会将描述中的单词用于排名,但它们可以显示在搜索结果中供用户查看,因此会严重影响点击率。
Meta description 应放置在文档的头部中,并且在 HTML 中如下所示:
<meta name="description" content="This is a meta description."/>
列
此选项卡包含以下列。
- 地址 – 抓取的 URL。
- 出现次数 – 在页面上找到的 meta description 的数量(我们最多找到 2 个)。
- Meta Description 1/2 – meta description。
- Meta Description 1/2 长度 – meta description 的字符长度。
- 可索引性 – URL 是否可索引或不可索引。
- 可索引性状态 – URL 不可索引的原因。 例如,如果 URL 被规范化到另一个 URL。
过滤器
此选项卡包含以下过滤器。
- 缺失 – 任何缺少 meta description 的页面,内容为空或包含空格。 这是一个错失的机会,无法传达您的产品或服务的优势,并影响重要 URL 的点击率。
- 重复 – 任何具有重复 meta description 的页面。 拥有不同的唯一 meta description 来传达每个页面的优势和用途非常重要。 如果它们是重复的或无关紧要的,那么它们将被搜索引擎忽略。
- 超过 155 个字符 – 任何 meta description 长度超过 155 个字符的页面。 超过此限制的字符可能会在 Google 的搜索结果中被截断。
- 低于 70 个字符 – 任何 meta description 长度低于 70 个字符的页面。 这不是一个严格的问题,而是一个机会。 有额外的空间来传达优势、USP 或号召性用语。
- 超过 X 像素 – Google 代码段长度实际上是基于像素限制,而不是字符长度。 SEO Spider 尝试匹配 SERP 中的最新像素截断点,但这只是一个近似值,Google 会经常调整它们。 此过滤器显示任何描述长度超过 X 像素的页面,并且可能会在 Google 的搜索结果中被截断。
- 低于 X 像素 – 任何 meta description 长度低于 X 像素的页面。 这不是一个严格的问题,而是一个机会。 有额外的空间来传达优势、USP 或号召性用语。
- 多个 – 任何具有多个 meta description 的页面。 一个页面应该只有一个 meta description。 多个 meta description 通常是由 CMS 中多个冲突的插件或模块引起的。
- 在
<head>之外 – meta description 位于 HTML 中 head 元素之外的页面。 meta description 应位于 head 元素内,否则搜索引擎可能会忽略它。
请参阅我们的 Learn SEO 指南中的 Meta Descriptions写作。
Meta keywords
“Meta keywords”选项卡包含与 meta keywords 相关的数据。 过滤器显示了 meta keywords 中发现的常见问题。
Meta keywords 在很大程度上被搜索引擎忽略,并且它们不用作所有主要西方搜索引擎评分的信号。 特别是,Google 在对其搜索结果排名中的页面进行评分时根本不考虑它。 因此,我们建议完全忽略它,除非您定位的是其他搜索引擎。
Yandex 或 Baidu 等其他搜索引擎可能仍会在排名中使用它们,但我们建议在花时间优化它们之前对此状态进行研究。
meta keywords 标签应放置在文档的头部中,并且在 HTML 中如下所示
:
<meta name="keywords" content="seo, seo agency, seo services"/>
列
此选项卡包含以下列。
- Address – 抓取的 URL。
- Occurrences – 页面上找到的 meta keywords 的数量(我们最多找到 2 个)。
- Meta Keyword 1/2 – meta keywords。
- Meta Keyword 1/2 length – meta keywords 的字符长度。
- Indexability – URL 是否可索引或不可索引。
- Indexability Status – URL 不可索引的原因。例如,如果它被规范化到另一个 URL。
过滤器
此选项卡包含以下过滤器。
- Missing – 任何缺少 meta keywords 的页面。 如果您以 Google、Bing 和 Yahoo 为目标,那么这很好,因为它们不会在排名中使用它们。 如果您以百度或 Yandex 为目标,那么您可能希望考虑包含相关的目标关键词。
- Duplicate – 任何具有重复 meta keywords 的页面。 如果您以百度或 Yandex 为目标,那么建议使用与页面目的相关的唯一关键 词。
- Multiple – 任何具有多个 meta keywords 的页面。 页面上应该只有一个标签。
h1
h1 选项卡显示与页面的 <h1> 标题相关的数据。 过滤器显示了为 <h1> 发现的常见问题。
<h1> 到 <h6> 标签用于定义 HTML 标题。 <h1> 被认为是页面最重要的第一个主标题,而 <h6> 被认为是最不重要的。
标题应按大小和重要性排序,它们可以帮助用户和搜索引擎理解页面和部分的内容。 <h1> 应该描述页面的主要标题和目的,并且被广泛认为是更强的页面排名信号之一。
<h1> 元素应放置在文档的正文中,在 HTML 中如下所示:
<h1>This Is An h1</h1>
默认情况下,SEO Spider 将仅提取并报告在页面上发现的前两个 <h1>。 如果您希望提取所有 h1,那么我们建议使用自定义提取。
列
此选项卡包含以下列。
- Address – 抓取的 URL。
- Occurrences – 页面上找到的
<h1>的数量。 如上所述,我们最多找到 2 个。 - h1-1/2 –
<h1>的内容。 - h1-length-1/2 –
<h1>的字符长度。 - Indexability – URL 是否可索引或不可索引。
- Indexability Status – URL 不可索引的原因。例如,如果它被 规范化到另一个 URL。
过滤器
此选项卡包含以下过滤器。
- Missing – 任何缺少
<h1>的页面,内容为空或包含空格。 用户和搜索引擎都会读取和使用<h1>来理解页面的目的。 因此,页面具有简洁、描述性和唯一的标题至关重要。 - Duplicate – 任何具有重复
<h1>的页面。 拥有独特、唯一和有用的页面非常重要。 如果每个页面都有相同的<h1>,那么用户和搜索引擎可能更难以区分一个页面与另一个页面。 - Over 70 characters – 任何
<h1>长度超过 70 个字符的页面。 这不是一个严格的问题,因为标题没有字符限制。 但是,它们对于用户和搜索引擎来说应该是简洁和描述性的。 - Multiple – 任何具有多个
<h1>的页面。 虽然这并非严格意义上的问题,因为 HTML5 标准允许页面上有多个<h1>,但在可用性方面,这种现代方法存在一些问题。 建议使用标题等级(h1–h6)来传达文档结构。 经典的 HTML4 标准定义每个页面应该只有一个<h1>