리소스

매뉴얼

블로그

FAQ

MCP 연동

문의하기

블로그

← 목록

GPTBot, ClaudeBot, PerplexityBot — AI 봇 크롤링의 모든 것과 robots.txt 전략 가이드

Lumiscan·2026년 4월 3일

AI 봇GPTBotClaudeBotPerplexityBotrobots.txtAI 크롤링GEOGenerative Engine OptimizationAI SEOAI 검색 최적화LumiscanAI 봇 분석OAI-SearchBotClaude-SearchBot

당신의 사이트에 AI가 방문하고 있다 — 알고 있었는가

지금 이 순간에도 GPTBot, ClaudeBot, PerplexityBot 같은 AI 봇들이 전 세계 수백만 개의 웹사이트를 크롤링하고 있다. 이 봇들이 수집한 데이터는 ChatGPT, Claude, Perplexity의 답변을 만드는 데 사용된다. 당신의 사이트가 AI에게 인용되느냐 마느냐는, 이 봇들이 당신의 콘텐츠에 접근할 수 있느냐 없느냐에서 시작된다.

문제는 대부분의 사이트 운영자가 AI 봇의 존재 자체를 모르거나, 알아도 어떻게 관리해야 하는지 모른다는 것이다. 2026년 현재 AI 크롤러의 종류는 140개 이상으로 늘어났고, 하나의 AI 회사가 역할이 다른 여러 봇을 운영하는 시대가 되었다. "AI 봇을 허용한다" 또는 "차단한다"의 이분법이 아니라, 어떤 봇을 어떤 목적으로 허용하고, 어떤 봇을 왜 차단하는지를 전략적으로 판단해야 한다.

AI 봇의 3가지 유형 — 이것부터 이해해야 한다

2026년 기준으로 주요 AI 회사들은 봇을 세 가지 유형으로 분리 운영하고 있다. 이 구분을 이해하는 것이 robots.txt 전략의 출발점이다.

1. 학습 봇 (Training Crawler)

웹 콘텐츠를 수집해서 AI 모델의 학습 데이터로 사용하는 봇이다. 당신의 텍스트가 모델의 "지식"으로 흡수되지만, 출처 표시도 없고, 링크도 없고, 트래픽도 발생하지 않는다. 대표적으로 OpenAI의 GPTBot, Anthropic의 ClaudeBot, 구글의 Google-Extended, Meta의 Meta-ExternalAgent가 여기에 해당한다.

2. 검색 봇 (Search/Retrieval Crawler)

AI가 사용자 질문에 답변할 때 실시간으로 웹을 검색하고, 출처를 인용하는 데 사용되는 봇이다. 이 봇이 당신의 사이트에 접근할 수 있어야 AI 답변에서 당신의 사이트가 출처로 표시된다. OpenAI의 OAI-SearchBot, Anthropic의 Claude-SearchBot, Perplexity의 PerplexityBot이 여기에 해당한다.

3. 사용자 대행 봇 (User-Initiated Agent)

사용자가 AI에게 "이 URL 읽어봐" 같은 요청을 했을 때 해당 페이지를 가져오는 봇이다. OpenAI의 ChatGPT-User, Anthropic의 Claude-User, Perplexity의 Perplexity-User가 해당한다. 주의할 점은, OpenAI가 ChatGPT-User에 대해 "사용자가 발신한 요청이므로 robots.txt의 적용을 받지 않을 수 있다"고 명시한 것이다. 사실상 robots.txt로 완전히 통제할 수 없는 영역이 생긴 것이다.

주요 AI 회사별 봇 체계 정리

각 AI 회사가 운영하는 봇의 이름과 역할을 정확히 아는 것이 실무의 기본이다.

OpenAI (ChatGPT)

GPTBot은 학습 데이터 수집용이다. OAI-SearchBot은 ChatGPT Search의 실시간 검색용이다. ChatGPT-User는 사용자 요청에 의한 페이지 접근용이다. OpenAI는 GPTBot과 OAI-SearchBot이 중복 크롤링을 피하기 위해 정보를 공유한다고 밝혔다. 중요한 점은, OAI-SearchBot을 차단하면 ChatGPT 검색 답변에서 당신의 사이트가 표시되지 않는다고 OpenAI가 공식적으로 경고하고 있다는 것이다.

Anthropic (Claude)

ClaudeBot은 학습 데이터 수집용이다. Claude-SearchBot은 검색 결과 품질 향상을 위한 웹 탐색용이다. Claude-User는 사용자 요청에 의한 페이지 접근용이다. Anthropic은 세 봇 모두 robots.txt를 준수한다고 밝히고 있다. 이전에 사용되던 Claude-Web, Anthropic-AI는 현재 폐기(deprecated)되었다.

Perplexity

PerplexityBot은 검색 인덱스 구축용이다. Perplexity-User는 사용자 요청에 의한 실시간 검색용이다. Perplexity는 2단계 봇 체계를 운영하고 있으며, Perplexity-User는 robots.txt의 적용을 받지 않을 수 있다고 알려져 있다.

Google (Gemini)

Google-Extended는 Gemini의 AI 학습 및 AI 답변 생성에 사용되는 봇이다. 중요한 점은, Google-Extended를 차단해도 Googlebot의 크롤링과 일반 검색 결과 노출에는 영향이 없다는 것이다. Google-Extended는 오직 AI 기능(Gemini, AI Overview)에만 관련된다. 또한 Google-Extended를 차단해도 AI Overview에는 여전히 노출될 수 있는데, AI Overview는 Googlebot이 수집한 데이터를 기반으로 하기 때문이다.

대부분의 사이트가 잘못하고 있는 것

BuzzStream의 조사에 따르면, 주요 뉴스 사이트의 79%가 최소 하나 이상의 AI 학습 봇을 차단하고 있다. 학습 봇 차단 자체는 합리적인 선택일 수 있다. 하지만 문제는 많은 사이트가 학습 봇과 검색 봇을 구분하지 않고 모든 AI 봇을 일괄 차단하고 있다는 점이다.

ClaudeBot을 차단하면 Anthropic의 학습 데이터 수집은 막을 수 있지만, Claude-SearchBot까지 차단하면 Claude의 검색 답변에서 당신의 사이트가 출처로 표시되지 않는다. GPTBot을 차단하면서 OAI-SearchBot까지 차단하면 ChatGPT Search에서도 보이지 않게 된다.

Hostinger의 분석(66.7억 건의 봇 요청, 500만 개 이상의 사이트 대상)이 이 트렌드를 구체적으로 보여준다. OpenAI의 학습 봇 허용률은 84%에서 12%로 급락한 반면, 검색 봇 허용률은 4.7%에서 55%로 급등했다. 사이트들이 점점 더 "학습은 차단, 검색은 허용"이라는 선별적 전략으로 이동하고 있다는 뜻이다.

GEO 관점에서의 권장 robots.txt 전략

GEO의 목표가 "AI가 답변을 생성할 때 당신의 콘텐츠를 출처로 선택하도록 만드는 것"이라면, robots.txt 전략도 이 목표에 맞춰야 한다. 핵심 원칙은 하나다. 검색/인용 봇은 허용하고, 학습 봇은 비즈니스 판단에 따라 결정한다.

전략 1: GEO 최적화 — 검색 봇 전면 허용, 학습 봇 선택적 허용

AI 검색에서의 인용과 노출을 최우선으로 하는 전략이다. OAI-SearchBot, Claude-SearchBot, PerplexityBot, Google-Extended를 모두 허용한다. 학습 봇(GPTBot, ClaudeBot)도 허용하되, 민감한 영역(/admin/, /api/, /dashboard/ 등)은 차단한다.

이 전략이 적합한 경우: 브랜드 인지도를 높이고 싶은 스타트업이나 SaaS, AI 검색에서의 트래픽을 확보하고 싶은 콘텐츠 사이트, AI 답변에서 공식 정보가 인용되어야 하는 공공기관이나 대학교.

전략 2: 균형형 — 검색 봇 허용, 학습 봇 차단

자체 콘텐츠가 AI 모델의 학습 데이터로 사용되는 것은 원하지 않지만, AI 검색 답변에서 인용되는 것은 원하는 경우다. OAI-SearchBot, Claude-SearchBot, PerplexityBot은 허용하고, GPTBot, ClaudeBot, Google-Extended, Meta-ExternalAgent는 차단한다.

이 전략이 적합한 경우: 독점 콘텐츠를 보유한 미디어/출판사, 저작권이 중요한 콘텐츠 비즈니스, AI 학습에는 기여하고 싶지 않지만 AI 검색 노출은 원하는 경우.

전략 3: 방어형 — 모든 AI 봇 차단

AI와의 관계를 전면 차단하는 전략이다. 모든 AI 봇을 Disallow 처리한다. 다만 이 전략을 선택하면 ChatGPT, Claude, Perplexity의 답변에서 당신의 사이트가 인용되지 않는다. 2026년의 트래픽 구조에서 점점 더 큰 비중을 차지하는 AI 검색 채널을 포기하는 것이므로, 명확한 비즈니스 판단이 필요하다.

이 전략이 적합한 경우: 유료 구독 기반 콘텐츠, 법적으로 AI 학습을 차단해야 하는 경우, 서버 부하가 심각한 대규모 사이트(10만 페이지 이상).

실전 robots.txt 설정 예시

가장 많은 사이트에 적합한 "전략 1: GEO 최적화" 기준의 robots.txt 설정이다.

기존 검색엔진(Googlebot, Bingbot, Naverbot 등)은 당연히 허용한다. AI 검색 봇(OAI-SearchBot, Claude-SearchBot, PerplexityBot)도 전면 허용한다. AI 학습 봇(GPTBot, ClaudeBot, Google-Extended)도 공개 콘텐츠에 대해 허용하되, 관리자 페이지와 API 같은 민감 영역은 차단한다. 스크래핑 봇(AhrefsBot, SemrushBot 등)은 차단해서 경쟁사의 데이터 수집을 방지한다. 반드시 Sitemap 경로를 하단에 명시해서 봇들이 사이트 구조를 효율적으로 파악할 수 있게 한다.

앞서 분석한 venox.kr의 robots.txt가 바로 이 전략을 따르고 있다. GPTBot, ClaudeBot, PerplexityBot 등 주요 AI 봇을 모두 명시적으로 허용하면서, AhrefsBot, SemrushBot 같은 스크래핑 봇은 차단하는 구조다.

robots.txt만으로는 부족하다 — 함께 해야 할 것들

robots.txt는 AI 봇 관리의 시작이지 전부가 아니다. GEO를 위해 함께 적용해야 할 요소들이 있다.

sitemap.xml 제출

robots.txt 하단에 Sitemap 경로를 명시한다. AI 봇도 sitemap을 참고해서 사이트 구조를 파악하고, 어떤 페이지를 우선적으로 크롤링할지 판단한다. 이미지 정보, 최종 수정일(lastmod), 업데이트 빈도(changefreq)를 sitemap에 포함하면 크롤링 효율이 올라간다.

구조화 데이터(Schema Markup)

AI 봇이 페이지를 크롤링한 뒤, 그 콘텐츠를 얼마나 정확하게 이해하느냐는 구조화 데이터에 달려 있다. JSON-LD 기반의 FAQPage, Article, HowTo, Organization 스키마를 적용하면 AI가 콘텐츠의 의미와 구조를 더 정확하게 파싱할 수 있다.

AI 봇 방문 모니터링

robots.txt를 설정하는 것과, 실제로 AI 봇이 방문하고 있는지 확인하는 것은 별개의 문제다. 서버 로그에서 GPTBot, ClaudeBot, PerplexityBot의 방문 기록을 정기적으로 확인해야 한다. 어떤 페이지를 얼마나 자주 크롤링하는지, 봇별 방문 패턴이 어떤지를 파악하면 콘텐츠 전략에도 인사이트를 얻을 수 있다.

Lumiscan의 "AI 봇 분석" 기능은 이 모니터링을 자동화한다. 봇 유형별 분포, 일별 방문 트렌드, 봇별 Top 방문 페이지를 대시보드에서 확인할 수 있다. 어떤 AI가 당신의 사이트에 관심을 갖고 있는지를 실시간으로 추적할 수 있다.

주의사항 — robots.txt의 한계

robots.txt에 대해 반드시 알아야 할 한계가 있다.

첫째, robots.txt는 "요청"이지 "강제"가 아니다. 성실한 봇은 robots.txt를 준수하지만, 악의적인 봇이나 규칙을 따르지 않는 봇도 존재한다. Cloudflare의 조사에서 확인된 AI 크롤러만 226개에 달하며, 모든 봇이 robots.txt를 존중하는 것은 아니다.

둘째, 사용자 대행 봇은 통제가 어렵다. OpenAI는 ChatGPT-User가 "사용자 발신 요청"이므로 robots.txt의 적용을 받지 않을 수 있다고 밝혔다. Perplexity-User도 마찬가지다. 사용자가 직접 URL을 붙여넣고 "이거 분석해줘"라고 하면, 봇은 robots.txt를 무시할 수 있다.

셋째, 봇 이름이 계속 바뀐다. Anthropic의 경우 Claude-Web → ClaudeBot → Claude-SearchBot/Claude-User로 봇 체계가 변경되었다. 새로운 AI 모델이 출시되면 새로운 봇 이름이 등장한다. robots.txt를 한 번 설정하고 방치하면, 새로운 봇을 놓칠 수 있다. 최소 분기에 1회는 robots.txt를 점검하고 업데이트해야 한다.

robots.txt는 AI 시대의 첫 번째 관문이다

robots.txt 파일 하나가 당신의 사이트의 AI 가시성을 결정하지는 않는다. 하지만 이것이 잘못되어 있으면, 다른 모든 GEO 노력이 무의미해진다. 아무리 구조화 데이터를 잘 적용하고, 콘텐츠를 AI 친화적으로 작성해도, AI 봇이 접근할 수 없으면 아무 소용이 없다.

지금 당장 자사 사이트의 robots.txt를 확인해보라. 도메인 뒤에 /robots.txt를 붙이면 바로 볼 수 있다. GPTBot, ClaudeBot, PerplexityBot에 대한 규칙이 있는가? 있다면 Allow인가 Disallow인가? 검색 봇과 학습 봇을 구분하고 있는가?

robots.txt는 AI에게 보내는 첫 번째 신호다. 그 신호가 "들어와도 돼"인지 "들어오지 마"인지에 따라, AI 검색 시대의 출발선이 달라진다.

← 목록으로