Cloudflare AI Crawl Control 后,AI 内容站要不要阻止 AI 爬虫?
一句话结论
小内容站不要简单地全部放行或全部封锁 AI 爬虫;先用日志和 AI Crawl Control 看清谁在抓、抓什么、带不带引用或流量,再按页面价值决定 allow、block 或等待 pay-per-crawl。
来源链接
- Cloudflare Blog: Introducing Pay Per Crawl, July 1, 2025
- Cloudflare Docs: AI Crawl Control overview, updated Apr 23, 2026
- Cloudflare Docs: Manage AI crawlers, updated Apr 23, 2026
- Cloudflare Docs: What is Pay Per Crawl, updated Apr 23, 2026
- Cloudflare Docs: Pay Per Crawl FAQ, updated Apr 23, 2026
- Cloudflare Docs: managed robots.txt for AI crawlers, updated May 5, 2026
- Axios: People Inc. CEO on Google search and AI crawler tension, June 23, 2026
为什么今天值得写
Cloudflare 文档在 2026 年继续把 AI Crawl Control、managed robots.txt、crawler allow/block 和 Pay Per Crawl 放到可操作产品里,说明 AI 内容站的爬虫管理已经从概念变成后台操作。
Pay Per Crawl 把 allow、charge、block 三种动作放在同一框架下,但 FAQ 也限制了细节,例如当前收费价格不是按不同 crawler 分别设置。
Axios 2026-06-23 报道 People Inc. 对 Google 同一 crawler 同时服务搜索和 AI 的公开不满,说明内容站仍面临“要搜索发现,还是要限制 AI 使用”的现实取舍。
AI 爬虫决策表
| 动作 | 适合什么页面 | 先核验什么 |
|---|---|---|
| Allow | 希望被搜索、AI 助手引用或已有授权关系的公开页面 | 是否带来 referral、引用、品牌搜索、邮件订阅或联盟点击 |
| Block | 高成本抓取、无引用、无流量、训练价值高但商业回报不清的页面 | 是否会误伤搜索抓取、重要 bot、缓存、监控或合作方 |
| Charge | 有清楚商业价值、被大量 AI crawler 消耗、并愿意测试付费访问的内容 | Pay Per Crawl 资格、单一区域价格、成功请求计费和 payout 口径 |
| Managed robots.txt | 先表达偏好但还不想写 WAF 规则的站点 | robots.txt 只是偏好声明,不是技术拦截;GSC 对新指令可能有提示 |
| 日志观察 | 所有内容站第一步 | 按 crawler、路径、状态码、带宽、缓存命中、referral 和转化记录 |
正文内容:AI 内容站要先分层,而不是先开关
Cloudflare AI Crawl Control 的价值不是告诉你一键变现,而是把 AI crawler 从黑盒变成可观察对象。文档说明站点可以查看 crawler activity、request patterns、robots.txt violations,并对单个 crawler 采取 allow、block 或在 beta 范围内 charge 的动作。对 AI 内容站来说,这比凭感觉改 robots.txt 更可靠。
Pay Per Crawl 的方向很重要,但不能写成现成收入。Cloudflare 的实现思路是:AI crawler 成功访问内容时用 HTTP 200,未付费时返回 402 Payment Required;站点可以设置 zone 级价格,Cloudflare 处理技术和结算。但当前仍有资格、价格粒度、crawler 参与意愿和执行覆盖的问题。
managed robots.txt 适合做第一层声明:它可以加入 search、ai-input、ai-train 这类 content signals,并为常见 AI crawler 写入 Disallow。但 Cloudflare 文档也提醒,robots.txt 遵守是自愿的;如果你要技术执行,还要用 AI Crawl Control、WAF 或 Bot Management。
最保守的内容站策略是先把页面分成三类:需要搜索发现的公开页、可以被 AI 引用但希望看到回报的核心页、以及不适合被抓取的素材页或内部页。没有日志和转化数据前,不要因为一个新闻热点就全站封锁,也不要因为可能收费就全站开放。
适合人群
- 已经用 Cloudflare、能查看日志或 bot 报表的内容站站长。
- 有原创清单、教程、工具页、评测或资料库,担心 AI 抓取成本的人。
- 愿意把 crawler、referral、联盟点击、邮件订阅和服务器成本一起记录的人。
- 希望保留搜索可发现性,同时降低无回报训练抓取的人。
不适合人群
- 还没有稳定内容资产,只想靠 AI 爬虫收费赚钱的人。
- 不愿检查 Googlebot、Bingbot、AI bot、监控 bot 和合作方 crawler 差异的人。
- 准备复制别人规则,一键阻止所有 bot,却没有回滚方案的人。
- 把 Pay Per Crawl、sitemap、IndexNow 或 robots.txt 当成已收录、已排名或已变现的人。
未验证信息
- 本站没有验证 Cloudflare Pay Per Crawl 的申请资格、实际收入、payout 周期、AI crawler 参与率或对小站的收益。
- 不同 Cloudflare plan、WAF/Bot Management 配置、缓存规则和流量结构会影响执行效果。
- People Inc. 等大型出版商的授权谈判能力不能直接套用到个人 AI 内容站。
- 阻止或收费 AI crawler 不代表搜索排名、AI 引用、广告收益或联盟收入会改善。
风险提示
- 误封搜索 crawler、预览 bot、监控 bot 或合作方 crawler,导致发现、预览或监控异常。
- 过早全站封锁,减少潜在引用、品牌发现和合作线索。
- 过度开放高价值内容,让训练、RAG 或摘要消耗内容价值但不给回流。
- 把 robots.txt 当成强制安全边界,忽视不遵守规则的 scraper。
- 配置 WAF 或 bot 规则后没有日志复查,长期误伤重要路径。
最小测试方案
- 先选 20 个页面:10 个核心商业页、5 个工具或资料页、5 个普通文章页。
- 用 14 天日志记录 AI crawler 名称、请求量、路径、状态码、带宽、缓存命中和来源转化。
- 对无 referral、无合作价值、抓取量异常的 crawler 先做路径级 block 测试,而不是全站封锁。
- 对可能有引用或商业价值的 crawler 保持 allow,并单独记录品牌搜索、引用、联盟点击和邮件订阅。
- 如果符合资格再评估 Pay Per Crawl;没有资格时先用 managed robots.txt + WAF 记录偏好和执行效果。
止损信号
- 封锁后搜索抓取、sitemap 发现、预览卡片或监控开始异常。
- AI crawler 消耗明显,但没有 referral、引用、合作、邮件订阅或联盟点击。
- 规则复杂到你无法解释哪些路径允许、哪些路径阻止、如何回滚。
- 为了追逐潜在爬虫收入,开始牺牲页面速度、canonical、广告体验或用户可读性。
- 工具、课程或教程承诺阻止 AI crawler 就能恢复流量、排名或收入。
FAQ
小内容站应该现在开启 Pay Per Crawl 吗?
不要把它当成默认答案。先确认你是否有资格、内容是否有被抓取价值、当前 crawler 消耗和真实 referral,再小范围测试。
robots.txt 能阻止 AI crawler 吗?
robots.txt 主要表达偏好,遵守是自愿的。Cloudflare 文档建议如果要强制执行,需要配合 AI Crawl Control、WAF 或 Bot Management。
阻止 AI crawler 会影响 Google 搜索吗?
需要谨慎。不同 crawler 的用途和识别方式不同,尤其是搜索发现和 AI 使用之间可能有冲突;先用日志和小范围规则验证,不要直接全站封锁。
下一步
先做一张 crawler 决策表:crawler 名称、路径、请求量、是否遵守 robots.txt、是否带来 referral、页面价值、建议动作和回滚方式。