Cloudflare는 전 세계 웹사이트의 20% 이상이 사용하는 인프라 서비스다. 2025년 7월부터 Cloudflare는 신규 도메인에 대해 AI 크롤러를 기본 차단하는 정책을 적용했고, 기존 고객에게도 다양한 AI 봇 제어 도구를 확대 제공하고 있다. 문제는 이 도구가 여러 계층에 걸쳐 분산되어 있어서, 어떤 설정이 무엇을 제어하는지 정확히 파악하기 어렵다는 점이다.
AI 크롤러를 무조건 차단하면 콘텐츠 보호에는 유리하지만, ChatGPT 검색, Perplexity, Google AI Overview 같은 AI 검색 엔진에서의 노출도 함께 사라진다. 반대로 전부 허용하면 내 콘텐츠가 LLM 학습 데이터로 무단 사용될 수 있다. 따라서 핵심은 AI 학습용 크롤러는 차단하고, AI 검색용 크롤러는 허용하는 세밀한 분리 설정에 있다.
이 문서에서는 Cloudflare가 제공하는 AI 크롤러 관련 설정을 빠짐없이 다룬다. robots.txt 관리, Block AI Bots, AI Crawl Control 대시보드, AI Labyrinth, Content Signals Policy, WAF 커스텀 룰, Pay Per Crawl까지 각 기능의 역할과 설정 경로, 옵션별 차이, 실전 조합 방법을 모두 포함한다.
1. Cloudflare AI 크롤러 제어 기능의 전체 구조
Cloudflare의 AI 봇 관련 기능은 하나의 메뉴에 모여 있지 않다. Security Settings, AI Crawl Control 대시보드, WAF 커스텀 룰 세 영역에 걸쳐 분산되어 있으며, 각각 다른 레벨에서 동작한다. 전체 구조를 이해해야 설정 간 충돌을 피할 수 있다.
1.1 기능별 역할과 위치
- Block AI Bots는 Security Settings에서 토글 하나로 모든 AI 크롤러를 일괄 차단하는 가장 간단한 방법이다. Cloudflare가 관리하는 규칙으로 동작하며, GPTBot, ClaudeBot, Bytespider 등 AI 크롤러로 분류된 인증 봇과 유사하게 행동하는 미인증 봇까지 차단한다.
- Managed robots.txt는 기존 robots.txt 파일 앞에 Cloudflare가 관리하는 AI 봇 차단 지시문을 자동으로 추가한다. robots.txt를 존중하는 봇에게만 유효하며, 기술적 강제력은 없다.
- AI Crawl Control은 별도 대시보드에서 개별 크롤러 단위로 허용/차단을 설정하는 세밀한 도구다. 크롤러별 요청 수, robots.txt 위반 횟수, 카테고리 필터링을 제공한다.
- AI Labyrinth는 규칙을 무시하고 크롤링하는 봇을 AI가 생성한 가짜 페이지의 미로에 가둬 리소스를 소모시키는 허니팟 방식의 방어다.
- Content Signals Policy는 robots.txt에 search, ai-input, ai-train 세 가지 신호를 추가해 콘텐츠 사용 의사를 기계 판독 가능한 형태로 선언하는 표준이다.
- WAF 커스텀 룰은 봇 점수, URI 경로, ASN 등 복합 조건으로 AI 크롤러를 제어할 때 사용한다. 경로별 차등 보호, 커스텀 점수 임계값, 조건부 로직이 필요한 경우에 해당한다.
- Pay Per Crawl은 AI 크롤러가 콘텐츠에 접근할 때 요금을 부과하는 수익화 기능이다. 비공개 베타로 운영 중이다.
1.2 실행 순서와 우선순위
트래픽이 사이트에 도달하는 순서는 WAF 커스텀 룰 → Cloudflare Bot Solutions(Block AI Bots 포함) → AI Crawl Control(Pay Per Crawl 포함) 순이다. WAF 커스텀 룰에서 차단 액션이 실행되면 이후 단계에 도달하지 못한다. 이 순서를 모르고 설정하면 AI Crawl Control에서 허용한 봇이 WAF에서 먼저 차단되는 충돌이 발생한다.
핵심 포인트: Cloudflare의 AI 봇 제어는 단일 기능이 아니라 7개 이상의 기능이 계층적으로 동작하는 구조다. WAF 커스텀 룰이 최우선으로 실행되므로, AI Crawl Control과 충돌하지 않도록 규칙 순서를 반드시 확인해야 한다.
2. Block AI Bots 설정
Block AI Bots는 가장 빠르게 AI 크롤러를 차단하는 원클릭 옵션이다. Security Settings 페이지에서 Bot traffic 필터를 선택한 뒤 Block AI bots 항목의 편집 아이콘을 클릭하면 세 가지 옵션이 나타난다.
2.1 옵션별 동작
- Block on all pages는 사이트 전체에서 AI 크롤러를 차단한다. AI 학습 봇뿐 아니라 OAI-SearchBot, PerplexityBot 같은 AI 검색 봇까지 전부 차단하므로, ChatGPT 검색이나 Perplexity 답변에 내 사이트가 노출되지 않는다.
- Only block on hostnames with ads는 광고가 포함된 서브도메인에서만 AI 봇을 차단한다. Cloudflare가 자동으로 광고 유닛 존재 여부를 감지하여 적용한다. 광고 수익을 보호하면서 나머지 페이지는 AI 검색에 노출시킬 수 있다.
- Do not block (off)는 AI 봇을 허용한다. AI Crawl Control이나 robots.txt에서 개별적으로 제어할 때 이 옵션을 선택한다.
2.2 설정 경로
Cloudflare 대시보드 로그인 후 Security → Settings → Bot traffic 필터 → Block AI bots → Configurations 편집 → 옵션 선택 → Save 순서로 진행한다.
2.3 주의사항
Block AI Bots는 Cloudflare가 관리하는 규칙으로 자동 업데이트되므로 새로운 AI 크롤러가 등장해도 별도 조치 없이 대응된다. 하지만 모든 AI 크롤러를 일괄 처리하는 방식이기 때문에, AI 학습 봇만 차단하고 AI 검색 봇은 허용하고 싶다면 이 기능 대신 AI Crawl Control의 개별 크롤러 관리를 사용해야 한다.
핵심 포인트: Block AI Bots의 Block on all pages는 학습 봇과 검색 봇을 구분하지 않는다. AI 검색 노출이 중요하다면 이 설정을 Do not block으로 두고, AI Crawl Control에서 크롤러별로 개별 제어하는 것이 올바른 접근이다.
3. Managed robots.txt 설정
Managed robots.txt는 Cloudflare가 사이트의 기존 robots.txt 파일 앞에 AI 크롤러 차단 지시문을 자동으로 추가하는 기능이다. 이미 380만 개 이상의 도메인이 이 기능을 활성화한 상태이다.
3.1 드롭다운 옵션 3가지
- Content Signals Policy는 Cloudflare 무료 플랜에서 자체 robots.txt가 없고 Managed robots.txt도 활성화하지 않은 경우 기본으로 표시되는 옵션이다. Content Signals 프레임워크의 주석만 포함하며 실제 Allow/Disallow 지시문이나 content signal 값은 포함하지 않는다. 즉, 선호도를 표현하지 않는 중립 상태다.
- Instruct AI bot traffic with robots.txt를 활성화하면 Cloudflare가 관리하는 차단 지시문이 기존 robots.txt 앞에 추가된다. Amazonbot, Applebot-Extended, Bytespider, CCBot, ClaudeBot, Google-Extended, GPTBot, meta-externalagent에 대해
Disallow: /가 설정되고, 전체 사용자 에이전트에 대해Content-signal: search=yes, ai-train=no가 선언된다. - Disable robots.txt configuration은 Cloudflare가 robots.txt에 개입하지 않는다. 서버 측에서 직접 robots.txt를 관리하거나 별도 제어가 불필요할 때 선택한다.
3.2 기존 robots.txt와의 호환
사이트에 이미 robots.txt 파일이 있으면(HTTP 200 응답 확인), Cloudflare는 자체 관리 내용을 기존 파일 앞에 추가(prepend)해서 하나의 응답으로 합친다. robots.txt가 없는 경우에는 Cloudflare가 새 파일을 생성해 관리 차단 지시문을 제공한다.
3.3 설정 경로
Cloudflare 대시보드에서 Security → Settings → Bot traffic 필터 → Instruct AI bot traffic with robots.txt → 토글 활성화 순서로 진행한다.
3.4 한계
robots.txt는 권고 사항이지 기술적 강제 수단이 아니다. 일부 크롤러 운영사는 robots.txt 지시문을 무시하고 크롤링할 수 있다. 따라서 실질적인 차단이 필요하면 Block AI Bots 또는 AI Crawl Control의 차단 기능을 병행해야 한다.
3.5 Google Search Console 경고
Content Signals와 최신 지시문에 대해 Google Search Console이 Syntax not understood 경고를 표시할 수 있다. 하지만 Cloudflare 측에서 확인한 바에 따르면 크롤링 속도나 SEO에는 영향이 없다.
4. Content Signals Policy 상세
Content Signals Policy는 Cloudflare가 2025년 9월에 발표한 robots.txt 확장 표준이다. 기존 robots.txt가 크롤러의 접근 여부만 제어했다면, Content Signals는 접근 이후 콘텐츠 사용 방법에 대한 선호도를 선언할 수 있게 해준다.
4.1 세 가지 신호의 의미
| 신호 | 의미 | 예시 |
|---|---|---|
| search | 검색 인덱스 구축 및 검색 결과 제공(하이퍼링크, 짧은 발췌문 반환). AI 생성 검색 요약은 포함하지 않음 | 일반 구글 검색 결과 |
| ai-input | AI 모델에 실시간 입력(RAG, 그라운딩, 생성형 AI 검색 답변용 콘텐츠 취득) | ChatGPT 검색, Perplexity 답변 |
| ai-train | AI 모델 학습 또는 파인튜닝 | GPT 모델 학습 데이터 수집 |
4.2 작동 방식
각 신호에 yes 또는 no 값을 지정한다. yes면 해당 용도로 콘텐츠를 수집할 수 있고, no면 수집할 수 없다. 신호를 지정하지 않으면 해당 용도에 대해 허용도 제한도 하지 않은 것으로 간주된다. 예를 들어 Content-Signal: search=yes, ai-train=no는 검색 인덱싱은 허용하되 AI 학습에는 사용하지 말라는 뜻이며, ai-input에 대해서는 별도 선언이 없으므로 중립 상태다.
4.3 법적 의미
Content Signals Policy 하단에는 EU 디지털 단일 시장 저작권 지침(Directive 2019/790) 제4조에 따른 명시적 권리 유보 문구가 포함되어 있다. 이는 유럽 법률 하에서 텍스트·데이터 마이닝에 대한 옵트아웃 권리를 robots.txt를 통해 기계적으로 행사하는 방식이다.
4.4 Content Signals Policy 비활성화
무료 플랜 사용자가 Content Signals Policy를 표시하고 싶지 않다면 Overview 페이지의 Control AI Crawlers에서 Display Content Signals Policy 체크를 해제하거나 Security Settings에서 끌 수 있다. CC0 라이선스로 공개되었으므로 Cloudflare 고객이 아니더라도 누구나 자유롭게 사용할 수 있다.
5. AI Crawl Control 대시보드
AI Crawl Control은 이전에 AI Audit로 불렸던 기능이 확장된 형태로, 개별 AI 크롤러 단위의 세밀한 제어와 모니터링을 제공하는 전용 대시보드다. 모든 요금제에서 사용 가능하다.
5.1 대시보드 구성 요소
| 탭 | 기능 |
|---|---|
| Crawlers | AI 크롤러별 이름, 운영사, 카테고리, 요청 수(허용/실패), robots.txt 위반 횟수, 허용/차단 액션 설정 |
| Robots.txt | 엣지에서 실제로 제공되는 robots.txt 내용 확인. Cloudflare가 주입한 Content Signals와 차단 규칙 포함 |
| Settings | 차단 시 반환할 HTTP 응답 코드(403 Forbidden 또는 402 Payment Required)와 응답 본문 커스터마이징 |
5.2 크롤러별 허용/차단 설정
Crawlers 탭에서 각 AI 크롤러의 Actions 컬럼에서 Allow 또는 Block을 선택한다. Block AI Bots의 일괄 차단과 달리, 여기서는 학습 봇은 차단하고 검색 봇은 허용하는 분리 운영이 가능하다. 필터로 크롤러 이름, 운영사, 카테고리(AI Crawler, AI Assistant, AI Search)를 좁힐 수 있다.
5.3 주요 AI 크롤러 분류
| 크롤러 | 운영사 | 카테고리 | 권장 액션 |
|---|---|---|---|
| GPTBot | OpenAI | AI Crawler(학습용) | Block |
| OAI-SearchBot | OpenAI | AI Search(검색용) | Allow |
| ChatGPT-User | OpenAI | AI Assistant | Allow |
| ClaudeBot | Anthropic | AI Crawler(학습용) | Block |
| Claude-SearchBot | Anthropic | AI Search(검색용) | Allow |
| PerplexityBot | Perplexity | AI Search(검색용) | Allow |
| Bytespider | ByteDance | AI Crawler(학습용) | Block |
| CCBot | Common Crawl | AI Crawler(학습용) | Block |
| Meta-ExternalAgent | Meta | AI Crawler(학습용) | Block |
| Google-Extended | AI Crawler(학습용) | Block | |
| Amazonbot | Amazon | AI Crawler | Block |
| Applebot-Extended | Apple | AI Search | 상황에 따라 선택 |
| DuckAssistBot | DuckDuckGo | AI Assistant | Allow |
여기서 핵심 구분은 AI Crawler(학습용)와 AI Search/AI Assistant(검색·응답용)의 차이다. 같은 OpenAI 소속이라도 GPTBot은 모델 학습 데이터 수집용이고, OAI-SearchBot은 ChatGPT 검색 답변에 콘텐츠를 표시하기 위한 용도이므로 완전히 다르게 취급해야 한다.
5.4 차단 응답 커스터마이징
유료 플랜에서는 AI 크롤러를 차단할 때 반환하는 응답을 설정할 수 있다. 403 Forbidden은 접근 거부를, 402 Payment Required는 유료 접근이 필요하다는 뜻이다. 응답 본문에 라이선스 협상 안내 문구를 넣으면, 차단에서 상업 계약으로 이어지는 경로를 만들 수 있다.
핵심 포인트: AI Crawl Control은 학습 봇과 검색 봇을 개별적으로 분리 제어할 수 있는 유일한 도구다. AI 검색 노출을 유지하면서 학습 데이터 수집만 차단하려면, Block AI Bots 대신 이 대시보드에서 크롤러별로 액션을 지정해야 한다.
6. AI Labyrinth
AI Labyrinth는 2025년 3월에 공개된 차세대 허니팟 방어 기능이다. robots.txt나 차단 규칙을 무시하고 무단 크롤링하는 봇에 대응하기 위해 설계되었다.
6.1 동작 원리
AI Labyrinth가 활성화되면 Cloudflare가 웹페이지에 nofollow 태그가 붙은 보이지 않는 링크를 삽입한다. 이 링크는 사람 눈에는 보이지 않고 검색 엔진 최적화에도 영향을 주지 않는다. robots.txt를 준수하는 정상적인 봇은 nofollow 지시를 따라 이 링크를 무시한다.
그러나 무단 크롤러가 이 링크를 따라가면, AI가 생성한 무한한 가짜 페이지의 미로에 빠진다. 각 가짜 페이지에는 또 다른 링크가 있어서 봇이 끝없이 크롤링을 계속하게 만든다. 이 과정에서 봇의 세부 정보(IP, User-Agent, 행동 패턴)가 기록되고, 이 데이터는 Cloudflare 네트워크 전체에서 AI 봇 차단에 활용된다.
6.2 SEO 영향
AI Labyrinth가 삽입하는 링크는 nofollow 속성이 있으므로 검색 엔진은 이를 팔로우하지 않는다. 사이트 외관이나 검색 순위에 영향을 주지 않는다.
6.3 설정 경로
Cloudflare 대시보드에서 Security → Settings → Bot traffic 필터 → AI Labyrinth → 토글 활성화 순서로 진행한다. 모든 요금제에서 사용 가능하며 설정은 토글 하나로 완료된다.
6.4 다른 기능과의 관계
AI Labyrinth는 Block AI Bots나 robots.txt와 독립적으로 동작한다. robots.txt로 차단 의사를 표명하고, Block AI Bots로 기술적 차단을 걸어도, 이를 우회하는 봇이 있을 수 있다. AI Labyrinth는 이런 규칙 무시 봇에 대한 마지막 방어선 역할을 한다.
7. WAF 커스텀 룰 활용
Security Settings의 토글 기반 설정은 사이트 전체에 일괄 적용된다. 경로별 차등 보호, 커스텀 점수 임계값, 복합 조건 로직이 필요하면 WAF 커스텀 룰을 직접 작성해야 한다.
7.1 커스텀 룰이 필요한 상황
- 경로별 보호:
/login/경로에는 엄격한 봇 차단을,/public/경로에는 느슨한 정책을 적용하고 싶을 때. 예를 들어cf.bot_management.score lt 30 and not cf.bot_management.verified_bot and http.request.uri.path eq '/login'조건으로 로그인 엔드포인트만 보호할 수 있다. - 커스텀 점수 임계값: Super Bot Fight Mode의 Definitely automated(점수 1)과 Likely automated(점수 2-29)는 고정 구간이다. 점수 20 미만을 차단하는 등 다른 임계값이 필요하면 커스텀 룰로 구현한다.
- 복합 조건: 봇 점수와 국가, ASN, URI 경로, JA3/JA4 핑거프린트, User-Agent를 조합한 조건이 필요할 때. 예를 들어
cf.bot_management.score lt 30 and not cf.bot_management.verified_bot and ip.src.asnum in {64496 65536}조건으로 특정 ASN에서 오는 자동화 트래픽만 차단할 수 있다. - 커스텀 액션: 토글 설정에서는 Block, Managed Challenge, Allow만 가능하다. Log(규칙 테스트), Interactive Challenge, Skip(다른 규칙 건너뛰기) 같은 액션이 필요하면 커스텀 룰을 사용한다.
- Detection ID 타겟팅: 계정 탈취나 스크래핑 패턴 같은 특정 봇 휴리스틱을 대상으로 할 때
cf.bot_management.detection_ids필드를 사용하는 커스텀 룰이 필요하다.
7.2 AI Crawl Control과의 충돌 해결
WAF 커스텀 룰은 AI Crawl Control보다 먼저 실행된다. AI Crawl Control에서 특정 크롤러를 Allow로 설정했는데도 차단되는 경우, WAF에 해당 봇의 User-Agent를 차단하는 규칙이 있는지 확인해야 한다. 반대로 AI Crawl Control에서 Block으로 설정한 봇이 여전히 접근하는 경우, WAF의 Skip 규칙이나 Redirect 규칙이 AI Crawl Control 규칙을 우회시키고 있을 수 있다. 이때는 AI Crawl Control 규칙을 WAF 커스텀 룰 목록 최상단으로 이동시킨다.
7.3 Bot Management 필드 사용 조건
cf.bot_management.score, cf.bot_management.verified_bot, cf.bot_management.detection_ids 같은 봇 관리 필드는 Bot Management 구독 고객에게만 제공된다. 무료·Pro·Business 플랜에서는 Super Bot Fight Mode의 기본 설정만 사용할 수 있다.
8. Pay Per Crawl (수익화)
Pay Per Crawl은 AI Crawl Control의 확장 기능으로, AI 크롤러가 콘텐츠에 접근할 때마다 요금을 부과하는 수익화 모델이다. 2025년 7월에 비공개 베타로 출시되었다.
8.1 동작 방식
AI 크롤러가 페이지를 요청하면, 결제 의향이 포함된 요청 헤더가 있는 경우 HTTP 200으로 콘텐츠를 제공하고, 없는 경우 HTTP 402 Payment Required 응답과 함께 가격 정보를 반환한다. 사이트 소유자는 존(zone) 단위로 요청당 균일 가격을 설정할 수 있다. Cloudflare가 결제 대행자(Merchant of Record) 역할을 하며 기술 인프라도 제공한다.
8.2 전략 옵션
| 전략 | 설명 |
|---|---|
| 무료 허용 | 특정 AI 크롤러에 무료 접근 허용. AI 검색 노출이 우선일 때 |
| 유료 접근 | 요청당 가격을 설정해 콘텐츠 수익화. 고품질 전문 콘텐츠에 적합 |
| 완전 차단 | AI 크롤러 접근 자체를 거부 |
8.3 WAF와의 관계
Pay Per Crawl은 WAF 이후에 실행된다. WAF에서 특정 국가나 IP 대역을 차단하는 규칙이 있으면, 해당 범위의 AI 크롤러는 Pay Per Crawl 결제 헤더를 제출하더라도 WAF 단계에서 먼저 차단된다.
9. SEO 영향과 Google 검색 순위
AI 봇 차단이 기존 Google 검색 순위에 영향을 미치는지는 많은 사이트 운영자가 궁금해하는 부분이다.
9.1 Google 검색 순위와의 관계
Cloudflare의 AI 봇 차단 기능은 Googlebot 자체를 차단하지 않는다. GPTBot, ClaudeBot, Bytespider 등 AI 학습용 크롤러를 대상으로 하며, 기존 Google 검색 인덱싱과 순위에는 직접적인 영향이 없다. Google-Extended를 차단하더라도 이는 Gemini/SGE 학습용 데이터 수집만 제한하는 것이며, 기존 Google 검색 크롤링이나 순위에는 영향을 주지 않는다.
9.2 AI 검색 노출에 미치는 영향
반면, Block AI Bots를 Block on all pages로 설정하면 OAI-SearchBot(ChatGPT 검색)과 PerplexityBot(Perplexity 답변)도 함께 차단된다. 이 경우 AI 검색 엔진에서 내 사이트가 인용되거나 노출될 가능성이 사라진다. AI 검색 트래픽의 중요성이 커지는 추세에서 이는 상당한 기회비용이다.
| 설정 조합 | Google 검색 순위 | AI 검색 노출(ChatGPT, Perplexity) | AI 학습 데이터 보호 |
|---|---|---|---|
| Block AI Bots: Block on all pages | 영향 없음 | 차단됨 | 보호됨 |
| Block AI Bots: Off + AI Crawl Control 개별 설정 | 영향 없음 | 허용한 봇만 노출 | 차단한 봇만 보호 |
| Managed robots.txt만 활성화 | 영향 없음 | robots.txt 준수 봇만 영향 | 부분 보호(강제력 없음) |
10. 목적별 권장 설정 조합
10.1 콘텐츠 보호 최우선(블로그, 뉴스, 창작 사이트)
이 조합은 AI 학습 데이터 수집을 최대한 방어하면서도 규칙 무시 봇까지 대응하는 구성이다.
- Block AI Bots → Block on all pages
- Managed robots.txt → Instruct AI bot traffic with robots.txt 활성화
- AI Labyrinth → 활성화
- Content Signals →
ai-train=no자동 포함
10.2 균형 전략(AI 검색 노출 유지 + 학습 차단)
대부분의 사이트에 가장 적합한 조합이다.
- Block AI Bots → Do not block (off)
- AI Crawl Control → 학습 봇(GPTBot, ClaudeBot, Bytespider, CCBot, Meta-ExternalAgent, Google-Extended) Block, 검색 봇(OAI-SearchBot, ChatGPT-User, PerplexityBot, Claude-SearchBot, DuckAssistBot) Allow
- Managed robots.txt → Instruct AI bot traffic with robots.txt 활성화
- AI Labyrinth → 활성화
10.3 최대 노출(AI 검색 트래픽 극대화)
- Block AI Bots → Do not block (off)
- AI Crawl Control → 모든 크롤러 Allow
- Managed robots.txt → Disable robots.txt configuration 또는 직접 robots.txt 관리
- AI Labyrinth → 비활성화
10.4 수익화(콘텐츠 유료 제공)
- Block AI Bots → Do not block (off)
- AI Crawl Control → Pay Per Crawl 활성화, 요청당 가격 설정
- 차단 응답 코드 → 402 Payment Required + 라이선스 안내 본문
- WAF 커스텀 룰 → Pay Per Crawl과 충돌하는 국가/IP 차단 규칙 확인 및 조정
11. 설정 후 검증 체크리스트
설정을 변경한 뒤에는 반드시 검증 과정을 거쳐야 한다. 터미널에서 curl https://yourdomain.com/robots.txt 명령으로 엣지에서 실제로 제공되는 robots.txt를 확인한다. 대시보드의 AI Crawl Control Robots.txt 탭에서 Cloudflare가 주입한 내용이 의도와 일치하는지 비교한다. Crawlers 탭에서 허용한 봇에 대해 예기치 않은 차단 응답이나 챌린지 이벤트가 없는지 확인한다. 웹 분석 도구에서 chatgpt.com, perplexity.ai 등 AI 검색 리퍼럴 트래픽 유입을 모니터링한다. Bot Fight Mode나 WAF 커스텀 룰이 AI 검색 봇에 CAPTCHA 챌린지를 걸고 있지 않은지 점검한다.
핵심 포인트: 모든 설정 변경 후에는 실제 엣지 robots.txt 확인, 크롤러별 로그 점검, AI 리퍼럴 트래픽 모니터링 세 단계를 반드시 수행한다. 설정 간 충돌은 대시보드만 보면 발견하기 어렵고, 실제 크롤러 관점에서 테스트해야 확인할 수 있다.
12. 마무리
위에서 살펴본 Cloudflare AI 크롤러 차단 설정의 핵심 내용을 정리하면 다음과 같습니다.
핵심 요약:
- Cloudflare의 AI 봇 제어는 Block AI Bots, Managed robots.txt, AI Crawl Control, AI Labyrinth, Content Signals, WAF 커스텀 룰, Pay Per Crawl 등 7개 이상의 기능이 계층적으로 동작한다
- Block AI Bots의 Block on all pages는 학습 봇과 검색 봇을 구분하지 않으므로, AI 검색 노출이 중요하면 Do not block으로 두고 AI Crawl Control에서 개별 제어한다
- AI 학습 봇(GPTBot, ClaudeBot, Bytespider, CCBot 등)과 AI 검색 봇(OAI-SearchBot, PerplexityBot, Claude-SearchBot 등)은 같은 회사 소속이라도 용도가 완전히 다르다
- robots.txt는 권고 사항이므로 실질적 차단이 필요하면 AI Crawl Control의 Block 기능과 AI Labyrinth를 병행한다
- WAF 커스텀 룰이 AI Crawl Control보다 먼저 실행되므로, 허용한 봇이 WAF에서 차단되는 충돌이 없는지 반드시 확인한다
- Content Signals Policy의 search, ai-input, ai-train 세 가지 신호로 접근 이후 콘텐츠 사용 방법까지 선언할 수 있다
대부분의 사이트에서는 Block AI Bots를 끄고, AI Crawl Control에서 학습 봇만 차단하고 검색 봇을 허용하며, Managed robots.txt와 AI Labyrinth를 함께 켜는 균형 전략이 콘텐츠 보호와 AI 검색 노출을 동시에 달성하는 가장 현실적인 선택이다.