Cloudflare AI Crawl Control 之後,AI 內容站該不該擋 AI 爬蟲?
一句話結論
小型內容站不要把 AI 爬蟲當成全開或全關的開關;先看誰在抓、抓哪些頁、是否帶來引用或流量,再依頁面價值決定 allow、block 或等待 pay-per-crawl。
來源連結
- Cloudflare Blog: Introducing Pay Per Crawl, July 1, 2025
- Cloudflare Docs: AI Crawl Control overview, updated Apr 23, 2026
- Cloudflare Docs: Manage AI crawlers, updated Apr 23, 2026
- Cloudflare Docs: What is Pay Per Crawl, updated Apr 23, 2026
- Cloudflare Docs: Pay Per Crawl FAQ, updated Apr 23, 2026
- Cloudflare Docs: managed robots.txt for AI crawlers, updated May 5, 2026
- Axios: People Inc. CEO on Google search and AI crawler tension, June 23, 2026
為什麼現在值得寫
Cloudflare 已把 AI Crawl Control、managed robots.txt、crawler allow/block 與 Pay Per Crawl 寫成可操作文件,代表 AI 內容站的爬蟲管理正在變成後台工作。
Pay Per Crawl 把 allow、charge、block 放在同一框架,但 FAQ 也提醒目前收費價格不是針對不同 crawler 各自設定。
Axios 2026-06-23 報導 People Inc. 對 Google 同一 crawler 兼作搜尋與 AI 的不滿,顯示內容站仍要面對搜尋發現與 AI 使用限制的取捨。
AI 爬蟲決策表
| 動作 | 適合頁面 | 先驗證 |
|---|---|---|
| Allow | 需要搜尋發現、AI 引用或已有合作的公開頁 | 是否帶來 referral、引用、品牌搜尋、email 訂閱或聯盟點擊 |
| Block | 抓取成本高、沒有引用或商業回報的頁面 | 是否誤傷搜尋、預覽、監控或合作方 crawler |
| Charge | 具商業價值且被 AI crawler 大量消耗的內容 | 資格、zone 級價格、成功請求計費與 payout 規則 |
| Managed robots.txt | 想先表達偏好但尚未強制阻擋的站點 | robots.txt 是偏好,不是硬阻擋;GSC 可能提示新指令 |
| Log review | 所有內容站第一步 | crawler、路徑、狀態碼、頻寬、cache、referral 與轉化 |
正文:先分頁面層級,再決定開關
Cloudflare AI Crawl Control 的價值在於可觀測性。文件提到 crawler activity、request patterns、robots.txt violations,以及針對單一 crawler 做 allow、block 或在 beta 範圍內 charge。這比憑感覺修改 robots.txt 更可靠。
Pay Per Crawl 很重要,但不是已驗證收入。Cloudflare 的設計是成功付費請求回 HTTP 200,未付費時回 402 Payment Required;站點可設定 zone 級價格,由 Cloudflare 處理基礎設施與結算。不過資格、crawler 參與意願、價格粒度與執行覆蓋仍要確認。
managed robots.txt 可當第一層訊號:加入 search、ai-input、ai-train 等 content signals,也能對常見 AI crawler 加 Disallow。但文件也提醒 robots.txt 遵守是自願的;要技術執行仍需 AI Crawl Control、WAF 或 Bot Management。
保守做法是先把頁面分三類:需要搜尋發現的公開頁、可被 AI 引用但希望看到回報的核心頁、不適合被抓的素材或內部頁。沒有日誌與轉化資料前,不要因新聞熱點全站封鎖,也不要因可能收費就全站開放。
適合人群
- 已使用 Cloudflare,或能查看 logs / bot reports 的內容站經營者。
- 有原創清單、教學、工具頁、評測或資料庫,擔心 AI 抓取成本的人。
- 願意同時記錄 crawler、referral、聯盟點擊、email 訂閱與伺服器成本的人。
- 想保留搜尋可見性,同時降低無回報訓練抓取的人。
不適合人群
- 還沒有穩定內容資產,卻期待靠 AI 爬蟲收費創造收入的人。
- 不願區分 Googlebot、Bingbot、AI bot、監控 bot 與合作方 crawler 的人。
- 準備照抄全站封鎖規則,卻沒有回滾方案的人。
- 把 Pay Per Crawl、sitemap、IndexNow 或 robots.txt 當成已索引、已排名或已變現的人。
未驗證資訊
- 本站未驗證 Cloudflare Pay Per Crawl 的資格、收入、payout 週期、AI crawler 參與率或小站收益。
- Cloudflare plan、WAF/Bot Management 設定、cache 規則與流量結構都會影響結果。
- 大型出版商的授權談判能力不能直接套用到個人 AI 內容站。
- 阻擋或收費 AI crawler 不代表排名、引用、廣告或聯盟收入會改善。
風險提示
- 誤封搜尋 crawler、預覽 bot、監控 bot 或合作方 crawler。
- 太早封鎖,失去可能的引用、品牌發現或合作訊號。
- 高價值頁面被 AI 訓練或摘要使用,卻沒有可量化回報。
- 把 robots.txt 當成安全邊界,忽略不遵守規則的 scraper。
- 設定 WAF 或 bot 規則後沒有回看 logs,長期誤傷重要路徑。
最小測試方案
- 先選 20 個頁面:10 個商業頁、5 個工具或資料頁、5 個一般文章頁。
- 連續 14 天記錄 crawler 名稱、請求量、路徑、狀態碼、頻寬、cache hit 與 referral 轉化。
- 對沒有 referral 或商業價值、抓取量異常的 crawler,先做路徑級 block,不要全站封鎖。
- 可能有引用或商業價值的 crawler 維持 allow,另記品牌搜尋、引用、聯盟點擊與 email 訂閱。
- 符合資格再評估 Pay Per Crawl;未符合時先用 managed robots.txt 加小範圍 WAF 驗證。
停損信號
- 改規則後搜尋抓取、sitemap 發現、預覽卡或監控開始異常。
- AI crawler 消耗明顯,但沒有 referral、引用、合作、email 或聯盟訊號。
- 規則複雜到你說不清哪些路徑允許、哪些阻擋、如何回滾。
- 為了潛在爬蟲收入犧牲速度、canonical、廣告體驗或可讀性。
- 工具或課程宣稱封鎖 AI crawler 就能恢復流量、排名或收入。
FAQ
小內容站現在該開 Pay Per Crawl 嗎?
不要當成預設答案。先確認資格、被抓取需求、目前 referral 價值,以及內容是否有足夠商業價值可小測。
robots.txt 能阻止 AI crawler 嗎?
它主要是偏好聲明,遵守是自願的。若要強制執行,需要 AI Crawl Control、WAF 或 Bot Management。
阻止 AI crawler 會影響 Google 搜尋嗎?
可能會,尤其規則過寬或 crawler 身分判斷錯誤時。先看 logs,從小範圍規則測試,不要直接全站封鎖。
下一步
建立 crawler 決策表:crawler 名稱、路徑、請求量、robots.txt 行為、referral 價值、頁面價值、建議動作與回滾方式。