AI 검색 엔진의 비중이 빠르게 커지고 있다. ChatGPT 검색, Perplexity, Claude, Google AI Overview 같은 서비스가 사용자 질문에 웹 콘텐츠를 인용해 답변을 제공하는데, 여기에 내 사이트가 인용되면 새로운 트래픽 유입 경로가 된다. Adobe 조사에 따르면 AI 기반 리퍼럴 트래픽은 2024년 7월부터 2025년 2월 사이 미국에서 10배 이상 증가했고, Digiday 데이터에서는 ChatGPT 리퍼럴이 전년 대비 52%, Gemini 리퍼럴이 388% 성장했다.
그런데 많은 사이트 운영자가 AI 학습 데이터 수집을 막겠다는 의도로 AI 봇을 일괄 차단하면서, 본인도 모르게 AI 검색 인용 기회까지 함께 날려버리고 있다. BuzzStream이 미국·영국 상위 뉴스 사이트 100곳을 분석한 결과, 79%가 최소 하나의 AI 학습 봇을 차단하는 동시에 71%가 AI 검색·인용 봇까지 차단하고 있었다.
핵심은 학습용 봇과 검색용 봇이 같은 회사 소속이라도 완전히 별개의 User-Agent로 운영된다는 점이다. OpenAI의 GPTBot(학습)과 OAI-SearchBot(검색)이 대표적이다. 이 두 봇을 같은 정책으로 묶는 것은 Google 검색 인덱싱을 막으면서 Google 학습만 차단하겠다고 하는 것과 같다. 이 문서에서는 학습 봇은 빈틈없이 차단하고, AI 검색·인용 봇은 전부 허용하는 최적 설정을 robots.txt 작성부터 Cloudflare 대시보드, WAF, Content Signals까지 단계별로 다룬다.
1. 학습 봇과 검색 봇의 정확한 분류
설정을 시작하기 전에 어떤 봇을 차단하고 어떤 봇을 허용해야 하는지 정확히 알아야 한다. 아래 분류는 Cloudflare AI Crawl Control 공식 문서, OpenAI·Anthropic·Perplexity 각사 공식 크롤러 문서, Search Engine Journal 2025년 12월 기준 검증 목록을 교차 확인한 결과다.
1.1 차단해야 할 봇: AI 학습(Training) 전용
| 봇 이름 | User-Agent | 운영사 | 용도 | 차단 이유 |
|---|---|---|---|---|
| GPTBot | GPTBot | OpenAI | GPT 모델 학습 데이터 수집 | 검색 결과에 영향 없음. 순수 학습용 |
| ClaudeBot | ClaudeBot | Anthropic | Claude 모델 학습 데이터 수집 | 차단해도 Claude 검색·실시간 응답에 영향 없음 |
| CCBot | CCBot | Common Crawl | 대규모 웹 아카이브(다수 AI 학습에 사용) | 검색 기능 없음. 학습 데이터 공급원 |
| Google-Extended | Google-Extended | Gemini/SGE 학습 데이터 | 차단해도 Google 검색 순위에 영향 없음 | |
| Bytespider | Bytespider | ByteDance | TikTok·Doubao AI 학습 | 검색 인용 기능 없음 |
| Meta-ExternalAgent | meta-externalagent | Meta | Meta AI 학습 데이터 수집 | 검색 인용 기능 없음 |
| Amazonbot | Amazonbot | Amazon | Alexa AI 학습 | 검색 인용 기능 없음 |
| Applebot-Extended | Applebot-Extended | Apple | Apple Intelligence 학습 | 차단해도 Apple 검색에 영향 없음 |
| Google-CloudVertexBot | Google-CloudVertexBot | Vertex AI 학습 | Google 검색과 무관 |
1.2 허용해야 할 봇: AI 검색·인용(Search/Retrieval) 전용
| 봇 이름 | User-Agent | 운영사 | 용도 | 허용 이유 |
|---|---|---|---|---|
| OAI-SearchBot | OAI-SearchBot | OpenAI | ChatGPT 검색 결과에 사이트 표시 | 차단하면 ChatGPT 검색 답변에서 완전히 제외 |
| ChatGPT-User | ChatGPT-User | OpenAI | 사용자가 ChatGPT에서 질문할 때 실시간 페이지 방문 | 사용자 발동 요청. robots.txt 적용 안 될 수 있음 |
| Claude-SearchBot | Claude-SearchBot | Anthropic | Claude 검색 결과 품질 개선용 인덱싱 | 차단하면 Claude 검색에서 사이트 미표시 |
| Claude-User | Claude-User | Anthropic | 사용자 질문 시 실시간 페이지 방문 | 차단하면 Claude 실시간 응답에서 제외 |
| PerplexityBot | PerplexityBot | Perplexity | Perplexity 검색 결과 인덱싱 | 차단하면 Perplexity 답변에서 제외 |
| Perplexity-User | Perplexity-User | Perplexity | 사용자 질문 시 실시간 페이지 방문 | 사용자 발동. 일반적으로 robots.txt 무시 |
| Googlebot | Googlebot | Google 검색 인덱싱 + AI Overview 소스 | 절대 차단 금지 | |
| BingBot | bingbot | Microsoft | Bing 검색 + Copilot 소스 | 절대 차단 금지 |
| Applebot | Applebot | Apple | Apple 검색(Siri, Spotlight) | 검색 노출용. 허용 권장 |
| DuckAssistBot | DuckAssistBot | DuckDuckGo | DuckDuckGo AI 어시스턴트 | 검색 인용 제공 |
| Meta-ExternalFetcher | meta-externalfetcher | Meta | Meta AI 실시간 응답 | 사용자 발동 검색 응답용 |
| MistralAI-User | MistralAI-User | Mistral | Mistral AI 어시스턴트 실시간 응답 | 사용자 발동 검색 응답용 |
핵심 포인트: 같은 회사라도 학습 봇과 검색 봇의 User-Agent는 완전히 분리되어 있다. OpenAI는 GPTBot(학습)·OAI-SearchBot(검색)·ChatGPT-User(실시간), Anthropic은 ClaudeBot(학습)·Claude-SearchBot(검색)·Claude-User(실시간), Perplexity는 PerplexityBot(검색 인덱싱)·Perplexity-User(실시간)로 나뉜다. 학습 봇만 골라서 차단하고 나머지는 전부 허용하는 것이 이 문서의 목표다.
2. robots.txt 직접 작성
Cloudflare의 Managed robots.txt(Instruct AI bot traffic with robots.txt)를 켜면 Cloudflare가 자동으로 AI 봇 차단 지시문을 추가하는데, 이 자동 기능은 ClaudeBot을 일괄 차단하면서 Claude-SearchBot이나 Claude-User는 별도로 허용하지 않는다. 검색 봇까지 세밀하게 분리 허용하려면 Cloudflare의 Managed robots.txt를 끄고(Disable robots.txt configuration) 직접 robots.txt를 작성하는 것이 가장 확실한 방법이다.
2.1 최적 robots.txt 전문
아래는 학습 봇은 전부 차단하고 검색·인용 봇은 전부 허용하며, Content Signals로 의사까지 명시적으로 선언하는 구성이다. 사이트 루트에 robots.txt 파일로 배치한다.
서두에 Content Signals Policy 주석을 넣은 뒤, User-Agent: * 블록에서 Content-Signal: search=yes, ai-input=yes, ai-train=no를 선언한다. search=yes는 검색 인덱스 구축과 검색 결과 제공을 허용하고, ai-input=yes는 RAG·그라운딩 등 실시간 AI 입력을 허용하며, ai-train=no는 모델 학습·파인튜닝에 사용하지 말라는 뜻이다.
학습 전용 봇 차단 블록에서는 GPTBot, ClaudeBot, CCBot, Google-Extended, Bytespider, meta-externalagent, Amazonbot, Applebot-Extended, Google-CloudVertexBot 각각에 대해 Disallow: /를 지정한다.
검색·인용 봇 허용 블록에서는 OAI-SearchBot, ChatGPT-User, Claude-SearchBot, Claude-User, PerplexityBot, Perplexity-User, Googlebot, bingbot, Applebot, DuckAssistBot, meta-externalfetcher, MistralAI-User 각각에 대해 Allow: /를 명시한다. robots.txt 규격상 명시하지 않으면 기본 허용이지만, 명시적 Allow는 의도를 분명히 전달하고, Cloudflare나 다른 시스템이 자동 추가하는 규칙과 충돌할 때 우선순위를 높인다.
마지막으로 기본 크롤러 블록에서 User-agent: *에 Allow: /를 지정하고, Sitemap URL을 선언한다.
2.2 Content Signals의 ai-input을 yes로 설정하는 이유
Cloudflare Managed robots.txt는 ai-input 신호를 포함하지 않는다. 하지만 AI 검색 인용을 최대한 허용하려면 ai-input=yes를 명시하는 것이 논리적으로 일관된다. ai-input은 RAG(검색 증강 생성), 그라운딩, 생성형 AI 검색 답변에 콘텐츠를 실시간 입력하는 용도를 뜻한다. ChatGPT가 내 페이지를 인용해 답변하는 것, Perplexity가 내 콘텐츠를 참조해 요약하는 것이 모두 ai-input에 해당한다. 이것을 허용하지 않으면 검색 인용의 범위가 좁아질 수 있다.
ai-train=no와 ai-input=yes의 조합은 내 콘텐츠로 모델을 학습하는 것은 안 되지만, 검색 답변에 실시간으로 인용하는 것은 괜찮다는 명확한 의사 표시다.
2.3 사이트별 커스터마이징 포인트
로그인 필요 경로나 프리미엄 콘텐츠 영역이 있다면, 검색 봇에 대해서도 해당 경로를 Disallow로 추가한다. 예를 들어 /members/, /premium/, /account/ 경로를 OAI-SearchBot 등 검색 봇에서도 Disallow로 지정하면 공개 콘텐츠만 AI 검색에 노출된다. 모든 콘텐츠를 AI 검색에 전면 공개하고 싶다면 위 기본 구성 그대로 사용한다.
핵심 포인트: Cloudflare Managed robots.txt는 ClaudeBot을 일괄 차단하면서 Claude-SearchBot과 Claude-User를 별도로 허용하지 않는다. 학습만 차단하고 검색 인용은 전부 허용하려면 Managed robots.txt를 끄고, 직접 작성한 robots.txt에서 봇별로 Allow/Disallow를 분리해야 한다.
3. Cloudflare 대시보드 설정 순서
robots.txt를 직접 작성했으면, Cloudflare 대시보드에서 자동 기능들이 이 설정과 충돌하지 않도록 맞춰야 한다. 아래 순서대로 진행한다.
3.1 Block AI Bots 끄기
- Cloudflare 대시보드 로그인 후 해당 도메인 선택
- Security → Settings 이동, Bot traffic 필터 선택
- Block AI bots 항목에서 Configurations 편집 아이콘 클릭
- Do not block (off) 선택 후 Save
Block AI Bots를 Block on all pages로 두면 OAI-SearchBot, PerplexityBot 등 검색 봇까지 전부 차단된다. 반드시 꺼야 한다.
3.2 Managed robots.txt 끄기
- 같은 Security Settings 페이지에서 Instruct AI bot traffic with robots.txt 항목 확인
- 토글을 비활성화(Off)하거나, Manage your robots.txt 드롭다운에서 Disable robots.txt configuration 선택
Managed robots.txt를 켜두면 Cloudflare가 자동으로 ClaudeBot, GPTBot 등을 일괄 Disallow하는 내용을 robots.txt 앞에 추가한다. 직접 작성한 robots.txt와 충돌해서 검색 봇까지 차단될 수 있다.
3.3 Content Signals Policy 설정
직접 robots.txt에 Content Signals를 포함시켰으므로, Cloudflare가 중복으로 Content Signals Policy 주석을 추가하지 않도록 확인한다. Managed robots.txt를 끄면 Cloudflare는 robots.txt에 아무것도 추가하지 않으므로 충돌이 없다. 만약 무료 플랜에서 자체 robots.txt가 없는 상태라면 Cloudflare가 자동으로 Content Signals Policy 주석만 표시할 수 있는데, 직접 robots.txt 파일을 배치하면 이 자동 표시가 사라진다.
3.4 AI Crawl Control에서 개별 크롤러 설정
- Cloudflare 대시보드에서 AI Crawl Control 메뉴 이동
- Crawlers 탭에서 각 크롤러의 Actions 컬럼 설정
학습 봇 차단 설정:
| 크롤러 | Action |
|---|---|
| GPTBot | Block |
| ClaudeBot | Block |
| CCBot | Block |
| Bytespider | Block |
| Meta-ExternalAgent | Block |
| Amazonbot | Block |
| Google-Extended | Block |
| Applebot-Extended | Block |
| Google-CloudVertexBot | Block |
검색·인용 봇 허용 설정:
| 크롤러 | Action |
|---|---|
| OAI-SearchBot | Allow |
| ChatGPT-User | Allow |
| Claude-SearchBot | Allow |
| Claude-User | Allow |
| PerplexityBot | Allow |
| Perplexity-User | Allow |
| Googlebot | Allow |
| BingBot | Allow |
| DuckAssistBot | Allow |
| Meta-ExternalFetcher | Allow |
| MistralAI-User | Allow |
| Applebot | Allow |
AI Crawl Control의 크롤러별 설정은 WAF 커스텀 룰로 변환되어 네트워크 레벨에서 실행된다. robots.txt와 달리 기술적 강제력이 있으므로, 학습 봇은 robots.txt를 무시하더라도 여기서 차단된다.
3.5 AI Labyrinth 활성화
- Security Settings에서 AI Labyrinth 항목 확인
- 토글 활성화(On)
AI Labyrinth는 robots.txt와 AI Crawl Control의 차단을 모두 무시하고 몰래 크롤링하는 봇을 가짜 페이지 미로에 가두는 허니팟이다. 정상 검색 봇은 nofollow 태그를 준수하므로 영향받지 않고, 무단 크롤러만 함정에 빠진다. SEO에 영향 없으며 사이트 외관에도 변화가 없다.
핵심 포인트: Cloudflare 대시보드 설정 순서는 Block AI Bots 끄기 → Managed robots.txt 끄기 → AI Crawl Control에서 봇별 허용/차단 → AI Labyrinth 켜기다. 이 4단계를 빠뜨리면 직접 작성한 robots.txt와 충돌하거나, 허용한 검색 봇이 다른 계층에서 차단될 수 있다.
4. WAF 커스텀 룰 점검
WAF 커스텀 룰은 모든 봇 관련 설정보다 먼저 실행된다. AI Crawl Control에서 Allow로 설정한 봇이라도 WAF에서 먼저 차단하면 소용없다. 아래 항목을 반드시 점검한다.
4.1 Bot Fight Mode / Super Bot Fight Mode
Pro 이상 플랜에서 Super Bot Fight Mode가 활성화되어 있으면, AI 검색 봇이 Managed Challenge(CAPTCHA)를 받을 수 있다. OAI-SearchBot이나 PerplexityBot이 JS 챌린지를 통과하지 못하면 사실상 차단과 같다. Super Bot Fight Mode의 Definitely automated 설정이 켜져 있다면 봇 점수 1인 트래픽이 차단되는데, 일부 AI 봇이 여기에 해당할 수 있다.
해결 방법은 두 가지다. 첫째, Super Bot Fight Mode를 끌 수 있다면 가장 간단하다. 둘째, Bot Management 구독이 있다면 WAF 커스텀 룰에서 cf.bot_management.verified_bot이 true인 봇을 Skip 액션으로 예외 처리한다.
4.2 기존 WAF 규칙과의 충돌
국가별 차단 규칙, IP 대역 차단 규칙, 특정 User-Agent 차단 규칙이 이미 있다면 AI 검색 봇도 함께 차단될 수 있다. Security → Security Rules에서 Custom rules 필터를 걸고, AI Crawl Control이 자동 생성한 규칙과 기존 규칙의 순서를 확인한다. AI Crawl Control 규칙은 기본적으로 WAF 커스텀 룰 목록 끝에 추가되므로, 앞에 있는 규칙이 우선 적용된다.
AI Crawl Control에서 Block으로 설정한 학습 봇이 여전히 접근한다면, AI Crawl Control 규칙을 목록 최상단으로 드래그해서 이동시킨다.
4.3 Cloudflare Pages 사용자 주의사항
2026년 3월 기준 Cloudflare 커뮤니티 보고에 따르면, Cloudflare Pages 커스텀 도메인에서 AI Crawler 카테고리 봇이 보이지 않는 403 응답으로 차단되는 현상이 있다. Block AI Bots를 끄고 AI Crawl Control에서 Allow로 설정해도 차단되는 경우, Cloudflare Pages의 내부 관리 규칙이 원인일 수 있다. 이 경우 Cloudflare 지원팀에 문의하거나, Pages 대신 Workers 또는 일반 프록시 설정으로 전환하는 것을 고려해야 한다.
5. 각 봇 운영사의 robots.txt 준수 현황
설정의 실효성을 판단하려면 각 봇이 실제로 robots.txt를 얼마나 준수하는지 알아야 한다.
5.1 높은 준수율
Anthropic의 세 봇(ClaudeBot, Claude-User, Claude-SearchBot)은 모두 robots.txt를 준수한다고 공식 문서에 명시되어 있다. 비표준 Crawl-delay 확장까지 지원한다. OpenAI의 GPTBot과 OAI-SearchBot도 robots.txt를 준수한다. Google의 모든 크롤러(Googlebot, Google-Extended, Google-CloudVertexBot)는 robots.txt 준수 기록이 오래되고 신뢰도가 높다.
5.2 주의가 필요한 봇
ChatGPT-User에 대해 OpenAI는 사용자가 발동하는 요청이므로 robots.txt 규칙이 적용되지 않을 수 있다고 명시한다. 즉 robots.txt에서 Disallow해도 ChatGPT-User는 여전히 방문할 수 있다. 이 문서의 목표(검색 인용 전부 허용)에서는 ChatGPT-User를 허용하므로 문제 없지만, 만약 특정 경로를 ChatGPT-User로부터 보호하고 싶다면 WAF 레벨 차단이 필요하다.
Perplexity-User도 공식 문서에서 일반적으로 robots.txt를 무시한다고 명시한다. 사용자 요청에 의한 실시간 방문이기 때문이다. 추가로 Cloudflare가 2025년 8월 조사에서 Perplexity가 미신고 크롤러를 사용해 robots.txt 차단을 우회한 사례를 공개한 적 있다. 하지만 검색 인용을 전부 허용하는 이 설정에서는 PerplexityBot과 Perplexity-User를 모두 Allow하므로, 준수 여부와 무관하게 접근이 허용된다.
Bytespider(ByteDance)는 robots.txt 준수율에 대한 외부 보고가 일관적이지 않다. AI Crawl Control에서 Block으로 설정하면 네트워크 레벨에서 차단되므로, robots.txt 준수 여부에 의존하지 않아도 된다.
핵심 포인트: robots.txt는 권고 사항이므로 모든 봇이 따르지는 않는다. 학습 봇 차단의 실질적 강제력은 AI Crawl Control의 Block 설정에서 나온다. 검색 봇 허용의 경우, ChatGPT-User와 Perplexity-User는 robots.txt와 무관하게 사용자 요청 시 방문하므로 robots.txt에 Allow를 명시하는 것은 의도 표시 차원이다.
6. 설정 검증 방법
모든 설정을 마친 뒤 아래 절차로 실제 동작을 확인한다.
6.1 robots.txt 엣지 확인
터미널에서 curl https://yourdomain.com/robots.txt 명령을 실행해 실제 엣지에서 제공되는 robots.txt를 확인한다. Cloudflare가 Managed 내용을 추가하고 있지 않은지, 직접 작성한 내용만 표시되는지 검증한다. Cloudflare 캐시가 이전 버전을 보여줄 수 있으므로, Caching → Configuration에서 Purge Everything을 실행한 뒤 다시 확인한다.
6.2 AI Crawl Control 대시보드 검증
Crawlers 탭에서 각 봇의 Action이 의도한 대로(학습 봇 Block, 검색 봇 Allow) 설정되어 있는지 확인한다. 요청 수(Requests) 컬럼에서 허용한 검색 봇의 요청이 정상적으로 기록되고 있는지, 차단한 학습 봇의 요청이 Unsuccessful로 분류되는지 확인한다.
6.3 Robots.txt 탭 확인
AI Crawl Control의 Robots.txt 탭에서 엣지에서 제공되는 robots.txt 전문을 확인할 수 있다. Cloudflare가 자동 추가한 내용이 없어야 한다.
6.4 WAF Security Rules 확인
Security → Security Rules에서 Custom rules 목록을 확인한다. AI Crawl Control이 자동 생성한 규칙이 학습 봇만 차단하는지, 검색 봇은 포함되지 않았는지 확인한다. 규칙 순서가 의도와 다르면 드래그로 조정한다.
6.5 AI 리퍼럴 트래픽 모니터링
설정 후 1-2주간 웹 분석 도구에서 아래 리퍼러를 모니터링한다.
| 리퍼러 도메인 | 대응 서비스 |
|---|---|
| chatgpt.com, openai.com | ChatGPT 검색 |
| perplexity.ai | Perplexity |
| claude.ai, anthropic.com | Claude |
| google.com | Google AI Overview |
| bing.com | Bing Copilot |
| duckduckgo.com | DuckDuckGo AI |
AI 리퍼럴 트래픽이 유입되기 시작하면 설정이 정상 동작하는 것이다. OAI-SearchBot의 인덱싱 반영에는 robots.txt 변경 후 약 24시간이 소요된다고 OpenAI가 명시하고 있다.
6.6 Google Search Console 확인
Content Signals 지시문에 대해 Google Search Console이 Syntax not understood 경고를 표시할 수 있다. Cloudflare 공식 문서에 따르면 이 경고는 크롤링 속도나 SEO에 영향을 주지 않으므로 무시해도 된다.
7. 설정별 역할과 계층 요약
전체 설정이 어떤 역할을 하고 어떤 계층에서 작동하는지 한눈에 정리한다.
| 설정 | 역할 | 강제력 | 이 구성에서의 상태 |
|---|---|---|---|
| robots.txt (직접 작성) | 학습 봇 Disallow, 검색 봇 Allow, Content Signals 선언 | 권고(봇 운영사 준수에 의존) | 활성 |
| Cloudflare Managed robots.txt | 자동 AI 봇 차단 지시문 추가 | 권고 | 비활성(Disable) |
| Block AI Bots | 전체 AI 크롤러 일괄 차단 | 기술적 강제(네트워크 레벨) | 비활성(Do not block) |
| AI Crawl Control 개별 설정 | 봇별 Allow/Block | 기술적 강제(WAF 규칙) | 학습 봇 Block, 검색 봇 Allow |
| AI Labyrinth | 무단 크롤러 허니팟 함정 | 기술적(가짜 페이지 미로) | 활성 |
| Content Signals | 콘텐츠 사용 의사 선언 | 법적 의사 표시(EU 저작권 지침 참조) | search=yes, ai-input=yes, ai-train=no |
| WAF 커스텀 룰 | 복합 조건 봇 제어 | 기술적 강제(최우선 실행) | 충돌 없는지 점검 |
robots.txt의 Content Signals가 의사 표시 계층, AI Crawl Control의 봇별 Block이 기술적 차단 계층, AI Labyrinth가 우회 방어 계층을 담당하는 3중 구조다.
8. 자주 발생하는 실수와 해결법
8.1 Managed robots.txt를 끄지 않아 검색 봇까지 차단
Cloudflare Managed robots.txt는 ClaudeBot에 Disallow: /를 추가하지만, Claude-SearchBot이나 Claude-User에 대한 별도 Allow를 포함하지 않는다. robots.txt 규격상 ClaudeBot과 Claude-SearchBot은 별개 User-Agent이므로 직접적으로 충돌하지는 않지만, Managed 내용이 직접 작성한 파일 앞에 추가(prepend)되면서 예기치 않은 해석이 발생할 수 있다. 확실하게 하려면 Managed robots.txt를 끄고 직접 관리한다.
8.2 Block AI Bots를 켜둔 채 AI Crawl Control만 설정
Block AI Bots가 Block on all pages 상태이면, AI Crawl Control에서 Allow로 설정한 봇도 Block AI Bots의 관리 규칙에 의해 차단될 수 있다. Block AI Bots는 반드시 Do not block으로 끈 뒤 AI Crawl Control에서 개별 설정해야 한다.
8.3 캐시 미삭제로 이전 robots.txt가 계속 제공
robots.txt를 수정한 뒤 Cloudflare 캐시를 퍼지하지 않으면 이전 버전이 계속 제공된다. Caching → Configuration → Purge Everything 또는 해당 URL만 개별 퍼지한다.
8.4 서브도메인별 robots.txt 미배치
robots.txt는 해당 도메인·서브도메인에만 적용된다. example.com/robots.txt의 규칙이 blog.example.com에는 적용되지 않는다. 서브도메인마다 동일한 robots.txt를 배치해야 한다.
8.5 구버전 User-Agent 방치
Anthropic의 이전 User-Agent인 Claude-Web과 Anthropic-AI는 이미 폐기되었다. 이 문자열로 차단 규칙을 걸어두면 현재 ClaudeBot, Claude-SearchBot, Claude-User에는 아무 효과가 없다. robots.txt를 주기적으로 검토해 최신 User-Agent 목록과 일치하는지 확인한다.
9. 마무리
위에서 살펴본 AI 학습 차단 + 검색 인용 전체 허용 설정의 핵심 내용을 정리하면 다음과 같습니다.
핵심 요약:
- 같은 회사라도 학습 봇(GPTBot, ClaudeBot)과 검색 봇(OAI-SearchBot, Claude-SearchBot)은 별개 User-Agent이므로 개별적으로 차단/허용해야 한다
- Cloudflare Managed robots.txt는 학습 봇과 검색 봇을 세밀하게 분리하지 못하므로 끄고 직접 robots.txt를 작성하는 것이 최선이다
- robots.txt에 Content-Signal: search=yes, ai-input=yes, ai-train=no를 선언해 검색 인덱싱과 실시간 AI 입력은 허용하되 모델 학습은 거부하는 의사를 명시한다
- Cloudflare Block AI Bots는 반드시 Do not block으로 끄고, AI Crawl Control에서 봇별로 Block/Allow를 개별 설정한다
- AI Labyrinth를 켜서 robots.txt와 AI Crawl Control 차단을 우회하는 무단 크롤러까지 방어한다
- WAF 커스텀 룰, Super Bot Fight Mode가 검색 봇을 차단하고 있지 않은지 반드시 점검하고, 설정 변경 후에는 엣지 robots.txt 확인, 크롤러 로그 점검, AI 리퍼럴 트래픽 모니터링을 수행한다
AI 검색 인용을 최대한 확보하면서 학습 데이터 무단 사용을 막으려면, robots.txt 수준의 의사 표시, AI Crawl Control 수준의 기술적 강제, AI Labyrinth 수준의 우회 방어를 모두 조합하는 3중 방어가 필요하다.