결론: AI 봇은 학습 봇·검색 봇·사용자 대행 봇으로 분화되었고, GEO를 위해서는 검색 봇을 반드시 허용해야 한다
2026년 현재 AI 크롤러는 140개 이상이며, 주요 AI 회사들은 봇을 학습 봇(Training), 검색 봇(Search), 사용자 대행 봇(User-Initiated)의 3가지 유형으로 분리 운영하고 있다. GEO 관점에서의 핵심 원칙은 명확하다. 검색/인용 봇(OAI-SearchBot, Claude-SearchBot, PerplexityBot)은 반드시 허용하고, 학습 봇(GPTBot, ClaudeBot, Google-Extended)은 비즈니스 판단에 따라 결정한다.
검색 봇을 차단하면 해당 AI 플랫폼의 답변에서 당신의 사이트가 출처로 표시되지 않는다. 많은 사이트가 학습 봇과 검색 봇을 구분하지 않고 모든 AI 봇을 일괄 차단하는 실수를 하고 있다. Hostinger의 분석에 따르면, OpenAI 학습 봇 허용률은 84%에서 12%로 급락한 반면, 검색 봇 허용률은 4.7%에서 55%로 급등했다. "학습은 차단, 검색은 허용"이 현재의 업계 표준이 되고 있다.
근거 1: AI 봇의 3가지 유형
유형 1 — 학습 봇(Training Crawler). 웹 콘텐츠를 수집해서 AI 모델의 학습 데이터로 사용한다. 출처 표시 없고, 링크 없고, 트래픽도 발생하지 않는다. 대표: GPTBot(OpenAI), ClaudeBot(Anthropic), Google-Extended(Google), Meta-ExternalAgent(Meta).
유형 2 — 검색 봇(Search/Retrieval Crawler). AI가 실시간으로 웹을 검색하고 출처를 인용하는 데 사용한다. 이 봇이 접근해야 AI 답변에서 당신의 사이트가 출처로 표시된다. 대표: OAI-SearchBot(OpenAI), Claude-SearchBot(Anthropic), PerplexityBot(Perplexity).
유형 3 — 사용자 대행 봇(User-Initiated Agent). 사용자가 "이 URL 읽어봐" 같은 요청을 했을 때 해당 페이지를 가져온다. 대표: ChatGPT-User, Claude-User, Perplexity-User. OpenAI는 ChatGPT-User가 "사용자 발신 요청이므로 robots.txt 적용을 받지 않을 수 있다"고 명시했다.
근거 2: 회사별 봇 체계 정리
OpenAI. GPTBot(학습) + OAI-SearchBot(검색) + ChatGPT-User(사용자 대행). OAI-SearchBot을 차단하면 ChatGPT Search에서 당신의 사이트가 표시되지 않는다고 공식 경고.
Anthropic. ClaudeBot(학습) + Claude-SearchBot(검색) + Claude-User(사용자 대행). 세 봇 모두 robots.txt 준수. 이전의 Claude-Web, Anthropic-AI는 폐기(deprecated).
Perplexity. PerplexityBot(검색 인덱스 구축) + Perplexity-User(사용자 실시간 검색). 2단계 봇 체계.
Google. Google-Extended(Gemini 학습 및 AI 답변 생성). 차단해도 Googlebot 크롤링과 일반 검색 노출에는 영향 없음. AI Overview는 Googlebot 데이터 기반이므로, Google-Extended를 차단해도 AI Overview에는 노출될 수 있음.
실행 방법: GEO 관점의 3가지 robots.txt 전략
전략 1 — GEO 최적화(권장). 검색 봇 전면 허용 + 학습 봇 선택적 허용. 민감 영역(/admin/, /api/)만 차단. 적합: 스타트업, SaaS, 콘텐츠 사이트, 공공기관, 대학교.
전략 2 — 균형형. 검색 봇 허용 + 학습 봇 차단. 적합: 독점 콘텐츠 보유 미디어/출판사, 저작권 중요 비즈니스.
전략 3 — 방어형. 모든 AI 봇 차단. AI 검색 채널을 포기하므로 명확한 비즈니스 판단 필요. 적합: 유료 구독 기반 콘텐츠, 법적 AI 학습 차단 필요 시, 서버 부하 심각한 대규모 사이트.
함께 해야 할 것: sitemap.xml 제출(lastmod, changefreq 포함), 구조화 데이터(JSON-LD Schema Markup) 적용, AI 봇 방문 모니터링(서버 로그 또는 Lumiscan AI 봇 분석 기능 활용).
주의사항
robots.txt는 "요청"이지 "강제"가 아니다. 악의적이거나 규칙을 따르지 않는 봇도 존재한다. Cloudflare 조사에서 확인된 AI 크롤러만 226개이며 모든 봇이 robots.txt를 존중하지는 않는다.
사용자 대행 봇은 통제가 어렵다. ChatGPT-User, Perplexity-User는 "사용자 발신 요청"이므로 robots.txt를 무시할 수 있다.
봇 이름이 계속 바뀐다. Anthropic의 경우 Claude-Web → ClaudeBot → Claude-SearchBot/Claude-User로 변경됐다. robots.txt를 한 번 설정하고 방치하면 새로운 봇을 놓칠 수 있다. 최소 분기 1회 점검·업데이트가 필요하다.
학습 봇과 검색 봇을 구분하지 않고 일괄 차단하는 것이 가장 흔한 실수다. 주요 뉴스 사이트의 79%가 최소 하나 이상의 AI 학습 봇을 차단하고 있는데(BuzzStream), 이 과정에서 검색 봇까지 함께 차단하는 경우가 많다.
출처 및 참고 데이터
Hostinger (2026) — 66.7억 건 봇 요청, 500만+ 사이트 분석. OpenAI 학습 봇 허용률 84%→12% 급락, 검색 봇 허용률 4.7%→55% 급등.
BuzzStream — 주요 뉴스 사이트의 79%가 최소 하나 이상의 AI 학습 봇 차단.
Cloudflare — 확인된 AI 크롤러 226개.
OpenAI 공식 문서 — OAI-SearchBot 차단 시 ChatGPT Search 답변에서 사이트 미표시 경고. ChatGPT-User는 robots.txt 적용 외 가능성 명시.
Anthropic 공식 문서 — ClaudeBot, Claude-SearchBot, Claude-User 봇 체계 및 robots.txt 준수 정책.
이 글은 Lumiscan에서 발행되었습니다. AI 봇의 방문 현황과 robots.txt 설정 상태를 진단하려면 Lumiscan AI 봇 분석을 이용해보세요.



