跳到主要内容

如何使用 ChatGPT 进行抓取

2025-06-20

通过在抓取过程中与 OpenAI 的 ChatGPT 进行通信,开启无限可能。


使用 ChatGPT 进行抓取简介

通过 SEO Spider 中的自定义 JavaScript 功能,可以在抓取期间与 OpenAI 的 ChatGPT 等 API 进行通信。

在抓取时拥有 AI,开启了无限可能。它使您能够在抓取时针对页面的元素使用提示。

您可以将 OpenAI 的各种模型用于各种目的,例如:

  • 生成图像的 alt 文本。
  • 对页面内容进行语言、情感或意图分析。
  • 抓取特定数据。
  • 从页面内容中提取嵌入。

还有更多!

您无需知道如何编写 JavaScript 即可使用此功能,可以使用我们的 ChatGPT 模板,并按照每个代码段中的注释提供的指导进行调整。

本教程将引导您了解如何使用我们的各种 ChatGPT 代码段。

更新: 自推出自定义 JavaScript 以来,已经引入了直接 AI 集成,可以连接到 OpenAI, Gemini, AnthropicOllama API,并针对抓取数据设置自定义提示,从而更加轻松。虽然自定义 JavaScript 为高级用户提供了更大的灵活性,但对于许多用例,直接集成更合适。请参阅我们的教程“如何使用 AI 提示进行抓取”。


如何使用预设的 ChatGPT 代码段

SEO Spider 中提供了各种预设的 ChatGPT JavaScript 代码段,只需要一个 OpenAI API 密钥。以下是如何使用它们。


1) 打开自定义 JavaScript 配置

导航至“Config > Custom > Custom JavaScript”,然后单击右下角的“Add from Library”。

自定义 JavaScript 配置


2) 选择一个“(ChatGPT)…' 代码段

“System”选项卡是一个预设 JavaScript 代码段的库,可以使用这些代码段。各种 ChatGPT 代码段都附加了“(ChatGPT)”。

可以选择任何这些代码段,并添加 OpenAI API 密钥以使用。下面突出显示的代码段是只需要 API 密钥且无需进一步调整的预设代码段。

预设的 ChatGPT JS 代码段

(ChatGPT) Template”代码段略有不同,我们将在本教程的后面部分介绍。对于此示例,已选择“(ChatGPT) Generate alt text for images”代码段。

ChatGPT 生成图像 Alt 文本代码段

双击该代码段以选择它,它将显示在自定义 JavaScript 配置中。


3) 使用 JavaScript 代码段编辑器

单击代码段行右侧的“JS”框以编辑代码段。

自定义 JS 代码段编辑器

这将启动 JS 代码段编辑器配置。


4) 添加您的 OpenAI API 密钥

要使用任何 ChatGPT 代码段,您需要自己的 OpenAI API 密钥。这与 ChatGPT 订阅不同,并且易于设置且使用成本低廉。

使用它的最简单方法是注册一个 OpenAI 帐户,选择您的用途为“API”,然后转到 结算部分。在这里,您可以选择向帐户添加固定金额的信用额度,例如 100 美元,以及调整支出限额等。请仔细查看他们的 API 定价,以更好地了解令牌的成本。

当您拥有 API 密钥时,请将代码段第 25 行上的“your_api_key_here”文本替换为您的 API 密钥。

插入 OpenAI API 密钥

请记住在两端保留撇号,它应该看起来像这样。

已输入 OpenAI API 密钥

然后单击“OK”关闭 JS 代码段编辑器,然后再次单击“OK”关闭自定义 JavaScript 配置。


5) 启用 JavaScript 渲染

要运行自定义 JavaScript 代码段,必须通过“Config > Spider > Rendering”启用 JavaScript 渲染模式。

JavaScript 渲染模式

确保将渲染设置为“JavaScript”,以便在后台以无头 Chrome 渲染页面。


6) 抓取网站

输入您要使用 ChatGPT 代码段抓取的网站,然后点击“Start”。

抓取网站

或者,使用 列表模式 上传 URL 列表。


7) 查看自定义 JavaScript 选项卡

在 Custom JavaScript 选项卡和相关过滤器中实时查看 ChatGPT JavaScript 代码段的结果。

抓取时 ChatGPT Alt 文本

在此示例中,使用 OpenAI 中的 gpt-4-vision-preview 模型返回带有为每个图像生成的 alt 文本的图像。

对于其他预设的 ChatGPT 代码段,将返回其他内容类型,并在相关情况下使用不同的模型。


如何创建自定义 ChatGPT JS 代码段

可以通过使用“(ChatGPT) Template”代码段并对其进行调整来创建您自己的自定义 ChatGPT JavaScript 代码段。让我们来看看。


1) 选择“(ChatGPT) Template”代码段

导航至“Config > Custom > Custom JavaScript”,单击“Add from Library”,然后选择“(ChatGPT) Template”代码段。

ChatGPT 模板代码段

按照上面已经概述的说明 打开 JS 编辑器添加您的 OpenAI API 密钥,并按照代码段注释中的说明进行操作。


2) 调整您的提示

这就是奇迹发生的地方。在第 26 行,您可以将“What do you think of the following text?:”替换为您自己的自定义提示。

例如,“What language is this text?”,或“Generate a meta description for the following text that is under 155 characters in length, includes any USPs and a call to action at the end”。

ChatGPT 提示

在第 27 行,您可以调整用于提示的内容。默认值为正文文本,但可以将其更新为页面标题、元描述或标题等示例。

第 29 到 36 行的注释提供了这些示例,我们在下面包含了更多示例。

HTML:

[document.documentElement.outerHTML];

正文文本:

[document.body.innerText];

页面标题:

[document.title];

元描述

[document.querySelector('meta[name="description"]')?.getAttribute('content')];

h1 标题(根据需要替换为 h2 等)

[...document.querySelectorAll('h1')].map(h => h.textContent);

在 JS 测试器的右侧插入一个 URL,然后单击“Test”以确保它按预期工作。

JavaScript 代码段编辑器

在提取器的底部,您可以调整代码段针对运行的内容类型。ChatGPT 模板的默认值为 HTML。


3) 将代码段添加到您的库

如果您对您的代码段感到满意,并且想要保存它以供将来使用,请单击“Add Snippet to User Library”。

将 JS 代码段添加到库

提供适当的名称和描述,然后单击“OK”接受,然后再次单击“OK 和“OK”退出配置对话框。


4) 查看自定义 JS 选项卡

不要忘记启用 JavaScript 渲染,然后坐下来观看结果出现在 Custom JavaScript 选项卡和相关过滤器中。

如果您已经熟悉使用 ChatGPT,则可能需要对提示进行多次改进才能获得所需的数据。

ChatGPT 元描述

此示例用于启发,我们不建议在未经审查和编辑的情况下将其用于元描述。


附加提示!

使用自定义 JavaScript 代码段和 ChatGPT 时,您可能需要进一步配置各种事项。这些包括:

  • 模型 – 在每个 ChatGPT 代码段中,都有一个模型:。通常,HTML 特定代码段中使用“gpt-4o”,但可以在代码段中对其进行更新以使用另一个模型,例如“gpt-4o-mini”。查看 OpenAI 模型 的完整列表。
  • 速度 – 不同的 OpenAI 模型和使用层级有不同的 速率限制。可以通过 SEO Spider 中的“Config > Speed”控制请求速度以及 抓取速度。但是,用户也可以扩展代码段以包括限制作为替代方案。
  • 内容类型 – 对于创建的每个代码段,您都可以定义代码段针对运行的内容类型。例如,对于与页面上的文本内容相关的代码段,使用 text/html,或者在使用 gpt-4-vision-preview 模型时,使用 image/。
  • 文档 – 查看我们关于 自定义 JavaScript 的全面文档,以了解有关它们如何工作的更多详细信息。

如果您编写了任何独特且有见地的 JavaScript 代码段,请通过 支持 告知我们,我们可以将其包含在我们的代码段库中。


常见错误

请阅读我们的教程 如何调试自定义 JavaScript 代码段

您可能会在 ChatGPT 代码段中看到的常见错误是:

TypeError: Failed to fetch

该错误将出现在 JS 代码段测试器以及 Custom JavaScript 选项卡和列中,如下所示:

TypeError: Failed to fetch

如果您按照上述教程中的描述在 Chrome 控制台中测试该代码段,您通常会看到以下错误:

Refused to connect to 'https://api.openai.com/v1/chat/completions' because it violates the following Content Security Policy directive

这意味着该站点具有“Content-Security-Policy”标头,该标头不允许 OpenAI 域。

因此,您无法为该 URL 运行任何 OpenAI ChatGPT 代码段。

The model does not exist

该错误将出现在 JS 代码段测试器以及 Custom JavaScript 选项卡和列中,如下所示:

The model `gpt-4o` does not exist or you do not have access to it.

如果您使用的是默认代码段之一,它将使用 gpt-4o 模型 - 该模型肯定存在。

因此,请确保您拥有一个 已充值的 OpenAI 帐户 并具有正确的访问权限。

您可以在 OpenAI playground 的设置中的“model”选择选项卡下查看您有权访问的模型。