跳到主要内容

如何使用 SEO Spider 创建 XML 站点地图

2025-03-12

了解如何生成 XML 站点地图(以及图片站点地图),包括您想要的 URL、上次修改时间、优先级和更改频率。


如何使用 SEO Spider 创建 XML 站点地图

本教程将引导您了解如何使用 Screaming Frog SEO Spider 生成 XML 站点地图。 首先,您需要下载 SEO spider,它以精简版形式免费提供,最多可抓取 500 个 URL。 您可以通过右侧边栏中的按钮下载。

如果您想抓取超过 500 个 URL,您可以购买年度许可证,这将取消抓取限制并开放配置选项。

创建 XML 站点地图的后续步骤如下:


1) 抓取网站

打开 SEO Spider,在“enter url to spider(输入要抓取的 URL)”框中键入或复制您要抓取的网站,然后点击“Start(开始)”。

抓取以生成 XML 站点地图


2) 点击 ‘Sitemaps > XML Sitemap(站点地图 > XML 站点地图)’

当抓取达到 100% 并完成时,点击顶部菜单中“Sitemaps(站点地图)”下的“XML Sitemap(XML 站点地图)”选项。

创建 XML 站点地图

这将打开许多站点地图配置选项。


3) 选择要包含的 ‘Pages(页面)’

默认情况下,只有包含在“internal(内部)”选项卡中且抓取返回“200” OK 响应的 HTML 页面才会包含在 XML 站点地图中。 因此,您无需担心重定向 (3XX)、客户端错误(4XX 错误,例如死链)或服务器错误 (5XX) 包含在站点地图中。 但是,您可以选择性地包含它们,因为在某些情况下您可能需要它们。

默认情况下,robots.txt 阻止的页面、设置为“noindex”的页面、已“规范化”的页面(规范 URL 与页面的 URL 不同)、分页的页面(带有 rel=“prev”的 URL)或 PDF 也不会包含在内。 所有这些都可以在 XML 站点地图的“pages(页面)”配置中进行调整,因此只需选择您的偏好即可。

要包含在 XML 站点地图中的页面

您可以在“Responses(响应)”选项卡下使用相应的过滤器查看哪些 URL 没有响应、被阻止、重定向或错误。 您可以在“Directives(指令)”选项卡下使用过滤器查看哪些 URL 是“noindex”、“canonicalised(规范化)”或具有 rel=“prev”链接元素。

XML 站点地图的指令


4) 从 XML 站点地图中排除页面

除了上述配置选项之外,可能还有其他您根本不想包含在 XML 站点地图中的“internal(内部)” HTML 200 响应页面。

从 XML 站点地图中删除页面

例如,您不应在站点地图中包含“duplicate(重复)”页面。 如果可以通过两个不同的 URL 访问一个页面,例如 http://example.comhttp://www.example.com(并且它们都以“200”响应解析),那么站点地图中只应包含一个首选规范版本。 您不应包含带有会话 ID 的 URL(您可以使用 URL 重写功能在抓取期间删除这些 URL),可能有一些带有大量不需要的参数的 URL,或者只是网站中不必要的部分。

有几种方法可以确保它们不包含在 XML 站点地图中:

  • 如果您不想在 XML 站点地图中包含网站的某些部分或 URL 路径,您可以简单地在抓取前在配置中排除它们。 由于它们不会被抓取,因此它们不会包含在“internal(内部)”选项卡或 XML 站点地图中。
  • 如果您已经抓取了不想包含在 XML 站点地图导出中的 URL,那么只需在顶部窗口窗格的“internal(内部)选项卡”中突出显示它们,右键单击并“remove(删除)”它们,然后再创建 XML 站点地图。
  • 或者,您可以将“internal(内部)”选项卡导出到 Excel,过滤并删除任何不需要的 URL,然后在生成 XML 站点地图之前以列表模式重新上传该文件。

5) 选择上次修改日期

这是一个完全可选的属性,可以包含在 XML 站点地图中,因此如果您不想包含文件的上次修改日期,您可以“untick(取消选中)”“include the lastmod tag(包含 lastmod 标签)”框。 这只是向搜索引擎提示页面上次更新的时间。

XML 站点地图 Lastmod

如果您希望包含“lastmod”,那么只需选择您是想使用直接从您的服务器提供的“last modified(上次修改)”响应(并在“Internal(内部)”选项卡的“Last Modified(上次修改)”列中看到)还是使用自定义日期。


6) 选择 URL 的 ‘Priority(优先级)’

“Priority(优先级)”是一个可选属性,可以包含在 XML 站点地图中。 如果您不想设置 URL 的优先级,您可以“untick(取消选中)”“include priority tag(包含优先级标签)”框。 优先级向搜索引擎提示 URL 相对于您网站上其他 URL 的重要性。 有效值范围从 0.0 到最高优先级 1.0,默认值为 0.5。

xml 站点地图中的优先级属性

SEO Spider 允许您根据 URL 的“level(级别)”(深度)配置这些。 您可以在“Internal(内部)”选项卡的“level(级别)”列下查看 URL 的“level(级别)”。

如上面的屏幕截图所示,默认情况下,主页(或抓取的起始页)设置为最高优先级“1”,优先级按每个深度级别递减 0.1,直到级别 5+ 的 0.5。 这些可以根据您自己的喜好进行调整。

请记住,URL 的“priority(优先级)”不会影响它们在搜索引擎中的评分方式。“priority(优先级)”用于增加抓取和索引最重要页面的可能性。 实际上,Google 在算法上做得非常好。


7) 选择 URL 的 ‘Change Frequency(更改频率)’

“changefreq(更改频率)”是另一个可选属性,它“提示”页面可能更改的频率。

SEO Spider 允许您根据 URL 的“last modification(上次修改)”响应或“level(级别)”(深度)配置这些。“calculate from last modified header(从上次修改的标头计算)”选项意味着如果页面在过去 24 小时内已更改,则将其设置为“daily(每天)”,否则将其设置为“monthly(每月)”。

XML 站点地图更改频率

请记住,这些不是对搜索引擎的命令,而仅仅是“提示”。 Google 基本上会按照算法确定的频率抓取 URL,而不是您在 XML 站点地图中提供的任何“提示”。


8) 选择要包含在站点地图中的图片

是否在 XML 站点地图中包含图片完全是可选的。 如果选中“include images(包含图片)”选项,则默认情况下将包含“Internal(内部)”选项卡(和“Images(图片)”选项卡)下的所有图片。 如果您的图片位于 CDN、子域或外部,它们将显示在 UI 中的“external(外部)”选项卡下。 您可以在配置中输入正则表达式以将这些包含在 XML 站点地图中。

图片 XML 站点地图生成器

通常,您真的不需要在 XML 站点地图中包含您自己的徽标、分隔符或社交媒体个人资料图标等图片,因此您可以选择仅包含具有一定数量的源属性引用的图片以排除这些图片。

通常,徽标等图片会链接到整个网站,而产品页面上的图片(例如,您通常想要包含的图片)可能只链接到一次或两次。“images(图片)”选项卡中有一个“IMG Inlinks(IMG 内部链接)”列,显示图片被引用的次数,以帮助调整可能适合包含的“内部链接”的数量。

删除全站图片 XML 站点地图

您还可以右键单击并“remove(删除)”任何您不想包含的图片,就像任何其他 URL 一样。


9) 包含 hreflang

如果您已经在网站上设置了 hreflang,无论是通过属性还是 HTTP 标头,您可以选择将 hreflang 添加到 XML 站点地图中。

Hreflang XML 站点地图

请注意 - 如果 hreflang 当前已经存在(作为属性或通过 HTTP 标头),SEO Spider 只能创建带有 hreflang 的 XML 站点地图。 更多内容即将推出。


10) 点击 ‘Next(下一步)’ 生成 XML 站点地图

完成配置各种站点地图属性和选项后,您可以简单地点击“next(下一步)”来创建 XML 站点地图。 一个站点地图文件不能包含超过 50,000 个 URL,并且未压缩时的大小不得超过 50 MB。 因此,如果您有超过 49,999 个 URL,SEO spider 将自动创建额外的站点地图文件和一个引用站点地图位置的站点地图索引文件。

创建 XML 站点地图

然后点击“save(保存)”到您机器上的首选位置。 虽然这是创建 XML 站点地图所需的所有步骤,但我们建议之后再执行几个步骤!


将您的 XML 站点地图提交给 Google

XML 站点地图现在已准备好提交给搜索引擎。 我们强烈建议通过 Webmaster Tools 将 XML 站点地图提交给 Google,以此来跟踪索引编制。

提交 XML 站点地图 Google

最后,我们建议在您的 robots.txt 文件中的任何位置包含以下行条目,以告知搜索引擎 XML 站点地图的存在(无论是否已将其提交给 Google Webmaster Tools) -

Sitemap: http://www.example.com/sitemap.xml


自动化 XML 站点地图

本指南向您展示了如何手动创建 XML 站点地图,包括设置和运行抓取、导出 XML 站点地图,然后上传到服务器。 但是,为了提高效率,可以自动化此过程。

自动化 XML 站点地图的步骤是什么?

  • 设置您的自动化抓取
  • 建立一个用于存储 SF 输出文件的中心位置
  • 创建反向代理
  • 测试

请查看我们的使用 Screaming Frog 自动化 XML 站点地图博客文章以获取灵感。


总结

就这样! 希望上面的指南有助于说明如何使用 SEO Spider 软件为您的网站生成 Google XML 站点地图。

您可以在我们的 常见问题解答用户指南 中阅读有关 Screaming Frog SEO spider 的更多信息。 或者您可以将任何问题或疑问发送给我们支持