메뉴

사이트 없음

서비스 소개

대시보드

사이트 관리

진단

경쟁 분석

요금제

리소스

리소스

블로그

← 목록

GPTBot, ClaudeBot, PerplexityBot — AI 봇 크롤링의 모든 것과 robots.txt 전략 가이드

Lumiscan·
AI 봇GPTBotClaudeBotPerplexityBotrobots.txtAI 크롤링GEOGenerative Engine OptimizationAI SEOAI 검색 최적화LumiscanAI 봇 분석OAI-SearchBotClaude-SearchBot
핵심 요약2026년 현재 AI 크롤러는 140개 이상이며, 학습 봇·검색 봇·사용자 대행 봇의 3가지 유형으로 분화되었다. GPTBot, ClaudeBot, PerplexityBot의 역할 차이를 이해하고, GEO 관점에서 어떤 봇을 허용하고 어떤 봇을 차단해야 하는지를 실전 robots....

결론: AI 봇은 학습 봇·검색 봇·사용자 대행 봇으로 분화되었고, GEO를 위해서는 검색 봇을 반드시 허용해야 한다

2026년 현재 AI 크롤러는 140개 이상이며, 주요 AI 회사들은 봇을 학습 봇(Training), 검색 봇(Search), 사용자 대행 봇(User-Initiated)의 3가지 유형으로 분리 운영하고 있다. GEO 관점에서의 핵심 원칙은 명확하다. 검색/인용 봇(OAI-SearchBot, Claude-SearchBot, PerplexityBot)은 반드시 허용하고, 학습 봇(GPTBot, ClaudeBot, Google-Extended)은 비즈니스 판단에 따라 결정한다.

검색 봇을 차단하면 해당 AI 플랫폼의 답변에서 당신의 사이트가 출처로 표시되지 않는다. 많은 사이트가 학습 봇과 검색 봇을 구분하지 않고 모든 AI 봇을 일괄 차단하는 실수를 하고 있다. Hostinger의 분석에 따르면, OpenAI 학습 봇 허용률은 84%에서 12%로 급락한 반면, 검색 봇 허용률은 4.7%에서 55%로 급등했다. "학습은 차단, 검색은 허용"이 현재의 업계 표준이 되고 있다.




근거 1: AI 봇의 3가지 유형

유형 1 — 학습 봇(Training Crawler). 웹 콘텐츠를 수집해서 AI 모델의 학습 데이터로 사용한다. 출처 표시 없고, 링크 없고, 트래픽도 발생하지 않는다. 대표: GPTBot(OpenAI), ClaudeBot(Anthropic), Google-Extended(Google), Meta-ExternalAgent(Meta).

유형 2 — 검색 봇(Search/Retrieval Crawler). AI가 실시간으로 웹을 검색하고 출처를 인용하는 데 사용한다. 이 봇이 접근해야 AI 답변에서 당신의 사이트가 출처로 표시된다. 대표: OAI-SearchBot(OpenAI), Claude-SearchBot(Anthropic), PerplexityBot(Perplexity).

유형 3 — 사용자 대행 봇(User-Initiated Agent). 사용자가 "이 URL 읽어봐" 같은 요청을 했을 때 해당 페이지를 가져온다. 대표: ChatGPT-User, Claude-User, Perplexity-User. OpenAI는 ChatGPT-User가 "사용자 발신 요청이므로 robots.txt 적용을 받지 않을 수 있다"고 명시했다.




근거 2: 회사별 봇 체계 정리

OpenAI. GPTBot(학습) + OAI-SearchBot(검색) + ChatGPT-User(사용자 대행). OAI-SearchBot을 차단하면 ChatGPT Search에서 당신의 사이트가 표시되지 않는다고 공식 경고.

Anthropic. ClaudeBot(학습) + Claude-SearchBot(검색) + Claude-User(사용자 대행). 세 봇 모두 robots.txt 준수. 이전의 Claude-Web, Anthropic-AI는 폐기(deprecated).

Perplexity. PerplexityBot(검색 인덱스 구축) + Perplexity-User(사용자 실시간 검색). 2단계 봇 체계.

Google. Google-Extended(Gemini 학습 및 AI 답변 생성). 차단해도 Googlebot 크롤링과 일반 검색 노출에는 영향 없음. AI Overview는 Googlebot 데이터 기반이므로, Google-Extended를 차단해도 AI Overview에는 노출될 수 있음.




실행 방법: GEO 관점의 3가지 robots.txt 전략

전략 1 — GEO 최적화(권장). 검색 봇 전면 허용 + 학습 봇 선택적 허용. 민감 영역(/admin/, /api/)만 차단. 적합: 스타트업, SaaS, 콘텐츠 사이트, 공공기관, 대학교.

전략 2 — 균형형. 검색 봇 허용 + 학습 봇 차단. 적합: 독점 콘텐츠 보유 미디어/출판사, 저작권 중요 비즈니스.

전략 3 — 방어형. 모든 AI 봇 차단. AI 검색 채널을 포기하므로 명확한 비즈니스 판단 필요. 적합: 유료 구독 기반 콘텐츠, 법적 AI 학습 차단 필요 시, 서버 부하 심각한 대규모 사이트.

함께 해야 할 것: sitemap.xml 제출(lastmod, changefreq 포함), 구조화 데이터(JSON-LD Schema Markup) 적용, AI 봇 방문 모니터링(서버 로그 또는 Lumiscan AI 봇 분석 기능 활용).




주의사항

robots.txt는 "요청"이지 "강제"가 아니다. 악의적이거나 규칙을 따르지 않는 봇도 존재한다. Cloudflare 조사에서 확인된 AI 크롤러만 226개이며 모든 봇이 robots.txt를 존중하지는 않는다.

사용자 대행 봇은 통제가 어렵다. ChatGPT-User, Perplexity-User는 "사용자 발신 요청"이므로 robots.txt를 무시할 수 있다.

봇 이름이 계속 바뀐다. Anthropic의 경우 Claude-Web → ClaudeBot → Claude-SearchBot/Claude-User로 변경됐다. robots.txt를 한 번 설정하고 방치하면 새로운 봇을 놓칠 수 있다. 최소 분기 1회 점검·업데이트가 필요하다.

학습 봇과 검색 봇을 구분하지 않고 일괄 차단하는 것이 가장 흔한 실수다. 주요 뉴스 사이트의 79%가 최소 하나 이상의 AI 학습 봇을 차단하고 있는데(BuzzStream), 이 과정에서 검색 봇까지 함께 차단하는 경우가 많다.




출처 및 참고 데이터

Hostinger (2026) — 66.7억 건 봇 요청, 500만+ 사이트 분석. OpenAI 학습 봇 허용률 84%→12% 급락, 검색 봇 허용률 4.7%→55% 급등.

BuzzStream — 주요 뉴스 사이트의 79%가 최소 하나 이상의 AI 학습 봇 차단.

Cloudflare — 확인된 AI 크롤러 226개.

OpenAI 공식 문서 — OAI-SearchBot 차단 시 ChatGPT Search 답변에서 사이트 미표시 경고. ChatGPT-User는 robots.txt 적용 외 가능성 명시.

Anthropic 공식 문서 — ClaudeBot, Claude-SearchBot, Claude-User 봇 체계 및 robots.txt 준수 정책.




이 글은 Lumiscan에서 발행되었습니다. AI 봇의 방문 현황과 robots.txt 설정 상태를 진단하려면 Lumiscan AI 봇 분석을 이용해보세요.

관련 글

네이버 62.86%, 구글 47.93%가 동시에 사실인 이유 — AI 시대 한국 검색의 비대칭 구조와 듀얼 트랙 GEO 전략

네이버 62.86%, 구글 47.93%가 동시에 사실인 이유 — AI 시대 한국 검색의 비대칭 구조와 듀얼 트랙 GEO 전략

인터넷트렌드는 네이버 62.86%, 구글 29.55%라고 말한다. 스탯카운터는 같은 시점에 구글 47.93%, 네이버 42.5%라고 말한다. 둘 다 사실이다. 한국 검색 시장은 측

GEO 세팅, 진짜 효과 있나요? — 30일 후 측정되는 6개 KPI와, 그 점수가 6주 안에 무너지는 4가지 메커니즘

GEO 세팅, 진짜 효과 있나요? — 30일 후 측정되는 6개 KPI와, 그 점수가 6주 안에 무너지는 4가지 메커니즘

GEO 세팅의 효과는 명확히 측정 가능하다. AI 검색 트래픽은 2024–2025년에 +796% 성장했고, AI 유입 방문자의 전환율은 전통 검색 대비 1.2배에서 4.4배에 달한

ChatGPT가 알고 있는 우리 회사는, 사실 '나무위키'가 알려준 것이다 — 한국 GEO의 가장 불편한 진실

ChatGPT가 알고 있는 우리 회사는, 사실 '나무위키'가 알려준 것이다 — 한국 GEO의 가장 불편한 진실

ChatGPT 인용 출처 1위는 Wikipedia(47.9%)다. 한국에서는 그 자리를 나무위키와 블로그가 차지한다. GPT 학습 데이터의 한국어 비중은 0.19%, 네이버는 20

매번 진단할 때마다 GEO 점수가 달라진다 — 그건 버그가 아니라, AI 검색이 원래 그런 것이다

매번 진단할 때마다 GEO 점수가 달라진다 — 그건 버그가 아니라, AI 검색이 원래 그런 것이다

어제 72점이던 GEO 점수가 오늘 68점이 됐다. 콘텐츠는 하나도 바뀌지 않았는데. 이 글은 그 현상의 구조적 원인을 다룬다. Thinking Machines는 동일 프롬프트를

← 목록으로

문의하기