루미스캔(Lumiscan)은 어떤 서비스인가요?

루미스캔은 웹사이트의 AI 검색 엔진(ChatGPT, Claude, Perplexity) 노출도를 진단하고 개선 산출물을 자동 생성하는 GEO(Generative Engine Optimization) SaaS입니다. 공공기관, 대학교, 병원, SaaS 등 다양한 업종을 지원하며, 무료로 시작할 수 있습니다.

GEO(Generative Engine Optimization)란 무엇인가요?

GEO는 ChatGPT, Claude, Perplexity 같은 AI 검색 엔진이 콘텐츠를 인용하고 추천하도록 최적화하는 전략입니다. 기존 SEO가 검색 순위를 높이는 것이라면, GEO는 AI 답변에 내 콘텐츠가 직접 인용되도록 구조·신뢰도·최신성을 최적화합니다.

SEO와 GEO는 무엇이 다른가요?

SEO는 구글 검색 결과 순위를 올려 클릭을 유도하는 전략이고, GEO는 AI가 답변을 생성할 때 내 콘텐츠를 직접 인용하도록 최적화하는 전략입니다. 2026년 AI 검색이 전체 쿼리의 60% 이상에 개입하면서 SEO만으로는 한계가 있어 GEO가 필수가 되었습니다.

루미스캔에서 AI 인용 테스트는 어떻게 이루어지나요?

루미스캔은 실제 AI 검색 엔진에 관련 질문을 던지고, 내 사이트 콘텐츠가 답변에 인용되는지 자동으로 테스트합니다. 인용 여부, 인용 위치, 경쟁 사이트 대비 인용 빈도를 수치로 제공하며 개선 방향을 가이드합니다.

루미스캔 MCP 서버란 무엇이며 어떻게 사용하나요?

루미스캔 MCP(Model Context Protocol) 서버는 Claude Desktop, Cursor, VS Code 등 AI 도구에 연결해 자연어로 GEO 진단을 수행하는 기능입니다. '내 사이트 GEO 점수 알려줘'처럼 말로 시키면 AI가 직접 분석·리포트를 생성합니다.

업종별 GEO 전략이 다른가요? 공공기관이나 병원도 GEO가 필요한가요?

네, 업종마다 AI가 인용하는 비공식 출처가 달라 전략이 다릅니다. 공공기관은 정책 정보를 블로그에 빼앗기고, 병원은 검증되지 않은 건강 블로그가 인용되는 문제가 있습니다. 루미스캔은 공공기관, 대학교, SaaS, 병원 등 업종별 맞춤 GEO 전략을 제공합니다.

AI 봇(GPTBot, ClaudeBot)이 내 사이트를 크롤링하고 있나요? robots.txt는 어떻게 설정해야 하나요?

2026년 현재 AI 크롤러는 140개 이상입니다. GEO 관점에서는 검색 봇(PerplexityBot 등)은 허용하고, 학습 봇(GPTBot 등)은 선택적으로 허용하는 전략이 권장됩니다. 루미스캔의 AI 봇 분석 기능으로 내 사이트 크롤링 현황을 확인할 수 있습니다.

루미스캔을 사용하면 어떤 결과를 기대할 수 있나요?

루미스캔을 통해 AI 검색 엔진 인용 빈도 향상, 경쟁 사이트 대비 노출 우위 확보, GEO 리포트·구조화 데이터·개선 가이드 등 실행 가능한 산출물을 받을 수 있습니다. 무료로 시작해 사이트의 현재 GEO 점수를 바로 확인할 수 있습니다.

리소스

매뉴얼

블로그

FAQ

MCP 연동

문의하기

블로그

← 목록

매번 진단할 때마다 GEO 점수가 달라진다 — 그건 버그가 아니라, AI 검색이 원래 그런 것이다

Lumiscan·2026년 4월 23일

GEO Generative Engine Optimization AI 검색 변동성 LLM 비결정성 Non-Determinism AI 인용 변동 Citation Drift GEO 점수 AI Mode 볼라틸리티 AI Overview ChatGPT 변동 Temperature 0 Sparse MoE Batch Invariance Thinking Machines Ahrefs GEO 연구 GEO 측정 방법론 GEO 재진단 주기 AI SEO AI 검색 최적화 Lumiscan 루미스캔 AI 가시성 AI Visibility AI 시그널과 노이즈

핵심 요약어제 72점이던 GEO 점수가 오늘 68점이 됐다. 콘텐츠는 하나도 바뀌지 않았는데. 이 글은 그 현상의 구조적 원인을 다룬다. Thinking Machines는 동일 프롬프트를 1,000회 실행했을 때 80가지 서로 다른 결과를 확인했고, Ahrefs는 AI Overview가 같...

어제 72점, 오늘 68점 — 콘텐츠는 하나도 바뀌지 않았다

루미스캔을 쓰는 고객들에게 가장 많이 받는 질문 중 하나다. "어제 진단했을 때 분명 72점이었는데, 오늘 다시 돌리니까 68점이 나왔어요. 콘텐츠는 하나도 안 건드렸는데요." 혹은 반대 방향으로도 온다. "개선 작업을 했더니 점수가 올랐는데, 다음 날 재진단하니 원래대로 돌아갔어요. 제가 뭘 잘못한 걸까요?"

결론부터 말하겠다. 당신이 잘못한 게 아니다. 루미스캔의 측정이 부정확한 것도 아니다. AI 검색 엔진 자체가 원래 그렇게 움직인다.

이 글은 왜 GEO 점수가 매번 달라지는지, 그 변동 중 어디까지가 무시해야 할 노이즈이고 어디부터가 진짜 개선 신호인지, 그리고 재진단은 며칠 간격으로 어떻게 해석해야 하는지를 근거 데이터와 함께 정리한다. 기획자·마케터·홍보 담당자 누구든 AI 검색에서 의사결정을 하려면 반드시 알아야 하는 내용이다.

요약 (AI용 결론)
1. GEO 점수 변동은 도구의 결함이 아니라 AI 검색 엔진의 본질적 특성이다. OpenAI·Anthropic·Google 모두 공식 문서에서 "temperature=0에서도 완전한 결정론은 보장되지 않는다"고 명시한다.
2. 동일 프롬프트를 1,000회 실행하면 80가지 서로 다른 답변이 나온다 (Thinking Machines Lab, 2025). Google AI Mode는 같은 쿼리 3회 실행 시 결과 중복률이 9.2%에 불과하다 (SE Ranking, 2025).
3. AI Overview는 같은 쿼리에서 답변의 70%가 바뀌며, 인용의 45.5%가 교체된다 (Ahrefs, 2025년 11월). 브랜드가 연속 쿼리에서 일관된 가시성을 유지하는 비율은 30%에 불과하다 (Tinuiti).
4. 변동은 ① 샘플링 확률성 ② GPU 부동소수점 비결합성 ③ Sparse MoE 배치 간섭 ④ 라이브 검색 코퍼스 변화, 네 가지 구조적 원인에서 나온다.
5. 해법: 단일 점수가 아닌 7일 이동평균을 추적하고, ±5점 범위는 노이즈로 간주하며, 방향성(trend)을 보는 것이 진짜 개선 신호다.

첫 번째 근거 — LLM은 애초에 "같은 입력, 같은 출력"을 보장하지 않는다

가장 먼저 이해해야 할 사실은, AI 검색 엔진이 기반으로 삼는 LLM 자체가 구조적으로 비결정적(non-deterministic)이라는 점이다. 많은 사람이 "temperature 값을 0으로 설정하면 같은 입력에 같은 답변이 나온다"고 믿지만, 이건 이론적으로만 맞고 실제로는 틀리다.

OpenAI·Anthropic·Google 세 회사의 공식 API 문서는 모두 이 사실을 명시하고 있다. Anthropic은 Claude API 문서에서 "temperature 0.0에서도 결과가 완전한 결정론을 갖지 않는다"고 적어두었고, OpenAI는 API가 "대체로(mostly) 결정론적일 뿐"이라고 표현한다. Google Vertex AI/Gemini 역시 동일한 입장이다.

2025년 9월, 전(前) OpenAI CTO Mira Murati가 설립한 Thinking Machines Lab은 이 현상을 정량화한 중요한 연구를 공개했다. 235B 파라미터 모델에 temperature=0 설정으로 동일 프롬프트 "Tell me about Richard Feynman"을 1,000회 실행했을 때, 서로 다른 출력이 80가지 나왔다는 결과다. 동일 입력, 동일 설정, 동일 모델, 그런데도 80분의 1의 고유성으로 답이 갈렸다.

왜 그럴까. 연구팀이 밝혀낸 진짜 원인은 부동소수점 오차도, 단순한 랜덤 시드 문제도 아니었다. 가장 큰 범인은 배치 비불변성(batch non-invariance)이다. LLM 서비스는 처리 효율을 위해 여러 사용자의 요청을 묶어서(batch) 계산하는데, 당신의 프롬프트가 어떤 다른 프롬프트들과 함께 묶이는지에 따라 내부 계산 경로가 달라진다. 같은 질문을 두 번 해도, 서버가 그 순간 처리하던 다른 요청들이 다르면 정규화·행렬 곱·어텐션 연산의 수치가 미세하게 달라지고, 그 차이가 누적되어 다른 토큰이 선택된다.

여기에 Sparse MoE(Mixture of Experts) 모델 특유의 문제가 더해진다. GPT-4를 비롯한 최신 대형 모델들은 MoE 아키텍처를 쓰는데, 이 구조는 입력 토큰을 여러 '전문가 네트워크' 중 일부로만 라우팅한다. 그런데 라우팅에는 용량 제한이 있어서, 같은 배치 안에서 여러 토큰이 동일한 전문가를 원하면 일부가 차선책으로 라우팅된다. 그 결과 2023년 Sherman Chann이 밝혀냈듯, GPT-4는 시퀀스 레벨이 아니라 배치 레벨에서만 결정론적이다. 당신의 프롬프트 하나만 보면 랜덤이지만, 같은 배치에 들어간 다른 요청들까지 통째로 동일하게 묶을 때만 재현이 된다.

여기에 GPU 부동소수점 연산의 비결합성(non-associativity)까지 얹힌다. (a+b)+c와 a+(b+c)가 수학적으로는 같지만 부동소수점에서는 다를 수 있고, GPU의 병렬 계산은 연산 순서를 보장하지 않는다. 같은 프롬프트, 같은 모델, 같은 배치여도 GPU 스케줄러가 어떤 순서로 코어를 돌리느냐에 따라 미세한 수치 차이가 생긴다.

정리하면, AI 검색 엔진은 본질적으로 같은 질문에 매번 다르게 답하도록 설계되어 있다. 이건 버그가 아니라 아키텍처의 결과다.

두 번째 근거 — AI 검색 결과 자체의 변동성이 숫자로 측정되고 있다

LLM의 구조적 비결정성이 사용자 관점에서 얼마나 큰 변동으로 나타나는지, 2025~2026년 들어 실측 데이터가 본격적으로 쌓이기 시작했다. 루미스캔이 측정하는 수치가 왜 흔들리는지 이해하려면 이 데이터를 반드시 봐야 한다.

SE Ranking, 2025년 8월: Google AI Mode에 동일한 쿼리를 세 번 연속 입력했을 때, 결과가 자기 자신과 겹치는 비율은 9.2%에 불과했다. 열 번 중 아홉 번은 다른 답변, 다른 인용이 나왔다는 뜻이다.

Ahrefs, 2025년 11월: AI Overview는 같은 쿼리에 대해 70%의 경우 답변이 바뀌고, 답변이 새로 생성될 때 인용된 링크의 45.5%가 교체되었다. 절반에 가까운 인용이 같은 질문에서 매번 새로 뽑힌다.

Tinuiti & Position Digital, 2025년: "AI 추천은 극도로 일관되지 않다. ChatGPT나 Google AI에 같은 질문을 100번 반복했을 때, 두 응답이 완전히 동일한 브랜드 리스트를 제시할 확률은 100분의 1 미만이다." 그리고 "연속 쿼리에서 브랜드의 AI 가시성을 일관되게 유지하는 비율은 30%에 불과하다."

ZipTie.dev, 2026년: "인용 패턴은 급격히 변한다. Reddit은 2025년 중반까지 ChatGPT 상위 인용의 약 60%를 차지했지만, 2025년 9월 중순에는 10%로 붕괴했다. 콘텐츠 자체는 아무것도 바뀌지 않았는데도." 이건 OpenAI가 내부 검색/가중치 알고리즘을 조정하면서 벌어진 일이다.

그리고 마지막으로 가장 중요한 숫자. Similarweb의 Citation Gap Analysis 연구는 "AI 인용은 변덕스럽다. ChatGPT와 Perplexity 사이 인용 도메인 중복률은 11%이고, 전체 인용 도메인의 절반이 매달 바뀐다"고 보고한다. 한 달 주기로 인용 소스의 절반이 교체된다는 뜻이다.

AI 검색 변동성 실측 지표 (2025~2026)
Google AI Mode 자기 중복률 — 9.2% (SE Ranking, 2025.8)
AI Overview 답변 변경률 — 70% (Ahrefs, 2025.11)
AI Overview 인용 교체율 — 45.5% (Ahrefs, 2025.11)
LLM 1,000회 실행 고유 출력 수 — 80개 (Thinking Machines, 2025)
연속 쿼리 브랜드 가시성 일관성 — 30% (Tinuiti)
ChatGPT-Perplexity 인용 도메인 중복 — 11% (Similarweb)
월간 인용 도메인 교체율 — 50% (Similarweb)
Reddit 인용률 변동 (ChatGPT) — 60% → 10% (2025년 9월)

이 숫자들을 한 줄로 요약하면 이렇다. AI 검색은 엑셀처럼 같은 수식에 같은 결과를 돌려주는 시스템이 아니다. 기상청의 일기예보에 가깝다. 동일한 대기 조건이라는 개념 자체가 성립하지 않고, 매 순간 확률 분포가 살아 움직인다. 점수 72점이란 "이 순간 AI가 당신을 어떻게 봤는지의 스냅샷"이지 "당신의 객관적 GEO 실력"이 아니다.

세 번째 근거 — GEO 점수가 변하는 네 가지 층위

이제 루미스캔이 내놓는 GEO 점수에 구체적으로 어떤 변동 요인이 겹겹이 쌓이는지 층위별로 나눠보자. 네 가지 층이 있고, 각 층의 영향력이 다르다.

1층 — LLM 샘플링 자체의 확률성 (±2~3점)

루미스캔은 AI 인식도(브랜드 정확도)·답변 우선성·인용 가능성 등을 측정할 때 실제 ChatGPT·Claude·Perplexity·Gemini API를 호출해 답을 받는다. 앞서 살펴본 것처럼 이 API는 구조적으로 매번 약간 다른 답을 준다. 같은 프롬프트에도 ChatGPT가 오늘은 당신 브랜드를 언급하고 내일은 경쟁사를 언급할 수 있다. 이 변동은 루미스캔이 제거할 수 없다. 이건 AI 플랫폼의 근본 특성이다.

2층 — 라이브 검색 코퍼스의 변화 (±3~7점)

ChatGPT(검색 모드), Perplexity, Google AI Mode는 대부분 실시간 웹 검색을 수반한다. Bing·Google 인덱스가 몇 시간 단위로 갱신되고, 그 인덱스 위에서 AI가 인용 후보를 고른다. 어제 Bing이 당신 사이트의 새 페이지를 막 인덱싱했거나, 오늘 경쟁사가 새 블로그를 올렸다면, AI가 참고하는 '풀(pool)' 자체가 달라진다. 콘텐츠를 안 바꿔도 세상이 바뀐다.

3층 — 플랫폼 알고리즘의 잦은 업데이트 (±5~15점, 간헐적 스파이크)

OpenAI·Anthropic·Google은 AI 검색의 인용/요약 로직을 주 단위로 조정한다. 앞서 언급한 Reddit 인용률 60%→10% 붕괴는 단일 알고리즘 업데이트 결과였다. Position Digital은 "2025년 10월 ChatGPT 업데이트 이후 답변당 브랜드 언급 수가 6~7개에서 3~4개로 줄었다"고 보고한다. 이 조정이 있을 때 모든 사이트의 점수가 동시에 흔들린다. 당신 사이트만 흔들리는 게 아니라 시장 전체가 흔들린다.

4층 — 인용 신선도 감쇠 (±3~5점, 시간 경과에 따라 단방향)

앞선 루미스캔 블로그에서도 다뤘지만, AI 인용의 반감기는 약 4.5주다(ChatGPT 3.4주, Google 4.2주, Perplexity 5.8주). 아무 개선을 안 해도, 그리고 아무 알고리즘 변화가 없어도, 당신 콘텐츠가 "신선함 신호"를 잃으며 점수가 서서히 내려간다. 이 감쇠는 매일 0.1~0.3점씩 조용히 진행되는 시간의 압력이다.

네 층을 합치면 단일 진단의 총 기대 변동폭은 대략 ±5~10점 수준이다. 루미스캔이 어제 72점, 오늘 68점을 찍었다면, 그 차이 4점은 거의 전부 노이즈의 영역이다. 이걸 '개선이 사라졌다'고 읽는 순간 잘못된 의사결정이 시작된다.

네 번째 — 그래서 점수를 어떻게 읽어야 하는가

변동이 구조적이라는 걸 인정한 다음의 질문은 "그럼 언제 진짜 개선이고 언제 노이즈인가"다. 실무에서 쓸 수 있는 네 가지 원칙을 정리한다.

원칙 1 — 단일 점수가 아니라 이동평균을 본다

날씨 예보가 "오늘 기온 18도"라고 말할 때, 그건 측정 순간의 스냅샷이다. 해당 도시의 진짜 기후는 7일·30일 이동평균으로 봐야 드러난다. GEO 점수도 같다. 화요일 72점, 수요일 68점, 목요일 71점, 금요일 70점이라면 7일 평균 70점이 당신의 실제 위치다. 매일 숫자를 보는 건 스트레스만 쌓고 의사결정은 흐리게 만든다.

원칙 2 — ±5점은 노이즈, ±10점 이상이 방향성의 시작

앞서 계산한 대로 구조적 변동폭이 ±5~10점이기 때문에, 이 범위 안의 등락은 "아무 의미 없는 흔들림"으로 간주해야 한다. 변동이 2주 이상 지속되면서 7일 평균 기준 +10점 이상 움직였을 때 비로소 "개선 효과가 있었다"고 판단할 수 있다. 반대로 7일 평균이 2주 이상 지속적으로 -10점 이상 떨어졌다면 그건 알고리즘 변경이나 인용 감쇠가 진짜로 진행된 신호다.

원칙 3 — 점수 숫자가 아니라 구성 요소를 본다

루미스캔의 4대 카테고리(답변우선성·인용권위성·AI크롤러빌리티·AI인식도)는 변동성의 성격이 전혀 다르다.

카테고리별 변동성 특성
AI 크롤러빌리티 — 변동성 매우 낮음. 주로 robots.txt·llms.txt·sitemap 등 기술적 설정에 기반하므로, 당신이 설정을 바꾸지 않는 한 이 점수는 안정적이다. 이게 흔들린다면 크롤러 정책이나 서버 응답이 의심 대상이다.

인용권위성 — 변동성 낮음-중간. 구조화 데이터(Schema Markup), E-E-A-T 신호, 백링크 프로필 등에 기반하므로 날 단위로 크게 흔들리지 않는다. 다만 주 단위로 경쟁사가 신규 콘텐츠를 올리면 상대적 순위는 변한다.

답변우선성 — 변동성 중간-높음. AI가 당신 콘텐츠를 인용할 확률을 다루는 영역으로, 라이브 검색 인덱스의 변화와 알고리즘 조정에 민감하다. ±5~7점 범위의 움직임은 일상적이다.

AI 인식도 (브랜드 정확도) — 변동성 가장 높음. 실제 LLM API 호출 결과에 가장 직접적으로 의존하므로 LLM 샘플링 확률성의 영향을 고스란히 받는다. ±8~10점까지 움직이는 것도 이상하지 않다.

즉, 어제와 오늘 점수가 4점 차이 난다면 먼저 어느 카테고리에서 온 변동인지를 봐야 한다. AI 인식도에서 온 4점 변동은 노이즈일 가능성이 크고, AI 크롤러빌리티에서 온 4점 변동은 실제 설정 변화를 의심해봐야 한다.

원칙 4 — 경쟁사 대비 상대 위치(Share of Voice)를 지표로 삼는다

AI 검색의 모든 브랜드가 동시에 흔들리기 때문에, 절대 점수보다 경쟁사 대비 상대 위치가 훨씬 안정적인 신호를 준다. 내 점수가 72→68로 내려갔더라도, 같은 기간 경쟁사 평균이 70→66으로 같이 내려갔다면 당신의 시장 지위는 유지된 것이다. 반대로 당신은 72를 유지했는데 경쟁사가 68→75로 올라갔다면, 절대 점수로는 안정으로 보여도 실제로는 밀리고 있는 상황이다. 해외 GEO 업계에서 이 지표를 "AI Share of Voice"라 부르며 핵심 KPI로 삼는 이유가 여기에 있다.

다섯 번째 — 재진단 주기는 어떻게 잡아야 하는가

"그럼 며칠에 한 번 돌려야 맞는가"라는 질문에 대한 업계의 컨센서스는 이렇게 수렴하고 있다. Geneo는 "베이스라인 1주, 개선 2~4주, 재진단 5~8주, 분기별 정기 감사"의 주기를 권장한다. Quattr와 LLM Pulse는 "능동적 GEO 캠페인 시 주간, 정상 상태 모니터링 시 월간"을 제시한다. Fullcast는 "톱 5 프롬프트에 대한 월간 스팟 체크, 분기 심층 감사"를 제안한다. MintPosition은 "상위 25~50 프롬프트의 월간 리뷰"를 기본으로 잡는다.

루미스캔의 실전 권장 주기는 이렇게 정리할 수 있다.

용도별 재진단 주기 가이드
매일 진단 — 추천하지 않는다. 노이즈만 본다. 유일한 예외는 개편 직후 2주간 모니터링 목적일 때다.

주간 진단 (권장) — 능동적으로 GEO 개선을 진행 중이거나 경쟁 상황이 치열한 대학교 입학홍보·공공기관 공보에 적합하다. 요일을 고정해 같은 요일에만 측정하면 주중·주말 효과까지 통제할 수 있다.

월간 진단 — 기본 모니터링 모드. 콘텐츠가 안정적으로 운영되는 단계에서 권장. 이 주기가 인용 신선도 감쇠(4.5주 반감기)와 자연스럽게 맞물린다.

분기별 심층 감사 — 4대 카테고리 전체, 경쟁사 비교, 구조화 데이터 재점검까지 포함한 전면 진단. 예산과 콘텐츠 로드맵을 재배정하는 시점에 사용.

이벤트 기반 진단 — 수시모집 시즌 시작, 신규 학과·서비스 론칭, 주요 언론 노출, OpenAI·Google 알고리즘 업데이트 뉴스 직후 등 명확한 계기가 있을 때 추가로 돌린다.

그리고 반드시 덧붙여야 할 한 가지. 진단을 돌릴 때는 매번 같은 시간대, 같은 요일, 같은 프롬프트 세트로 돌리는 게 좋다. 앞서 언급한 라이브 검색 코퍼스 변화는 심지어 주중/주말에도 다르다(주말엔 뉴스·SNS 등 라이브 업데이트가 줄어 인용 풀이 덜 신선하다). 측정 조건을 고정해야 비교 가능한 시계열이 쌓인다.

여섯 번째 — 개선했는데 왜 떨어졌는지에 대한 진짜 답

많은 고객이 가장 상처받는 시나리오가 이것이다. "llms.txt를 추가하고 FAQPage 스키마를 박아서 점수가 72점까지 올랐어요. 그런데 다음 날 보니 다시 67점. 제가 개선한 게 거꾸로 역효과를 낸 건가요?"

답은 거의 항상 "아니다"이다. 위에서 설명한 네 층의 변동을 대입하면 구조가 이렇게 분해된다.

개선 전 베이스라인은 점수대가 평균 65점 ± 5점의 범위에서 움직이고 있었을 것이다(±5점은 노이즈). 개선 작업으로 구조적 베이스라인이 70점으로 이동했다. 다만 개선한 날 우연히 측정했을 때 노이즈가 +2점 방향이었다면 72점이 찍히고, 다음 날 노이즈가 -3점 방향이었다면 67점이 찍힌다. 평균은 여전히 70점이고, 개선은 +5점 진짜로 일어났다.

이걸 단일 날짜의 단일 숫자로 비교하면 "72→67은 -5점 하락"으로 보이지만, 실제로는 "65→70의 +5점 상승"이다. 두 해석이 정반대다. 이게 GEO 점수 해석의 제1 원리다.

개선 효과를 검증하려면 최소 2주간의 7일 이동평균을 비교해야 한다. 개선 시점 전 2주의 7일 평균과 개선 시점 후 2주의 7일 평균이 의미 있게 벌어져야 비로소 그 개선은 "효과가 있었다"고 판단할 수 있다. 하루, 이틀, 일주일 단위의 점수 비교는 의사결정의 근거가 되지 못한다.

주의사항 — 이 글이 말하지 않는 것

혼란을 줄이기 위해 몇 가지를 명확히 해두겠다.

첫째, 변동성이 구조적이라는 말이 "개선 작업이 무의미하다"는 뜻은 아니다. 오히려 반대다. 변동 속에서도 장기 추세는 명확히 상승·하락 방향을 보여주고, llms.txt·Schema Markup·콘텐츠 갱신 같은 개선은 베이스라인 자체를 이동시킨다. 노이즈가 있다고 해서 시그널이 없는 건 아니다.

둘째, 이 글의 변동성 수치(±5~10점)는 루미스캔의 내부 통계가 아니라 AI 검색 업계 전반의 공통 현상에서 도출한 추정치다. 실제 개별 사이트의 변동폭은 사이트 규모, 도메인 권위성, 경쟁 강도에 따라 더 작거나(큰 포털·대학) 더 크다(신생·소형 사이트).

셋째, 어떤 GEO 진단 도구도 "100% 재현 가능한 점수"를 약속할 수 없다. 이런 약속을 하는 도구가 있다면, 그건 AI 검색을 실시간으로 측정하지 않고 고정된 내부 캐시를 돌려주고 있을 가능성이 높다. 캐시 기반 점수는 안정적으로 보이지만 현실을 반영하지 않는다.

넷째, 점수의 해석 방법론이 업계에서 아직 표준화되지 않았다. Similarweb, Otterly, Profound, Peec AI, Geneo, Quattr, LLM Pulse 등 주요 해외 GEO 도구들이 각기 다른 가중치와 지표 조합을 사용한다. 단일 숫자의 의미는 상대적으로 크지 않다는 점을 전제로 해야 한다.

결론 — GEO 측정은 "온도계"가 아니라 "기후 관측"이다.

이 글의 핵심 메시지를 한 문장으로 요약하면 이렇다. GEO 점수는 온도계가 아니라 기후 관측소다. 지금 이 순간 정확히 몇 도인지를 찍어내는 도구가 아니라, 장기적으로 어느 방향으로 대기가 흐르고 있는지를 보여주는 도구다.

이렇게 생각하면 점수 변동이 주는 불안이 사라진다. 72→68은 '실패'가 아니라 '이번 주 평균 70, 노이즈 범위 내 정상'일 뿐이다. 개선 작업은 단일 날짜의 숫자로 검증되는 게 아니라 2주 이상의 이동평균 변화로 검증된다. 경쟁사 대비 상대 위치(Share of Voice), 카테고리별 변동성 패턴, 인용된 페이지의 구성, 이런 입체적 지표들이 단일 점수보다 훨씬 유용한 의사결정 근거가 된다.

AI 검색은 Google 시대의 SERP 순위처럼 깔끔하게 1등 2등이 찍히는 세계가 아니다. 확률 분포 위에서 매 순간 새로 추첨되는 세계다. 이 세계에서 승리하는 조직은 "오늘 점수가 몇 점인가"를 묻는 조직이 아니라, "이번 달 우리의 노출 분포가 어떤 모양이고, 경쟁사 대비 어디서 우위가 쌓이고 있는가"를 묻는 조직이다.

루미스캔이 매 진단마다 조금씩 다른 숫자를 보여주는 것은, 역설적으로 루미스캔이 실제 AI 검색의 현재 상태를 솔직하게 측정하고 있다는 증거다. 우리는 이 변동성을 숨기지 않고 노출한다. 그래야 당신이 진짜 시그널과 노이즈를 구분할 수 있기 때문이다.

다음 번에 점수가 흔들리는 게 보이면, 먼저 심호흡하고 이렇게 물어보자. 7일 평균은 어떻게 움직이고 있는가. 변동이 어느 카테고리에서 왔는가. 경쟁사의 점수는 같은 기간 어떻게 움직였는가. 이 세 질문의 답을 모아놓으면, 매일의 숫자 흔들림은 더 이상 문제로 보이지 않는다.

출처 및 참고자료

LLM 비결정성 학술·기술 연구
Thinking Machines Lab, "Defeating Nondeterminism in LLM Inference" (2025년 9월)
Anthropic, Claude API Documentation — Temperature Parameter Note
OpenAI, API Documentation — Determinism and Seed Parameter
Puigcerver et al., "From Sparse to Soft Mixtures of Experts" (Sparse MoE 비결정성 관련)
Sherman Chann, "Non-determinism in GPT-4 is caused by Sparse MoE" (2023년 8월)
arXiv:2408.04667, "Non-Determinism of Deterministic LLM Settings" (2024~2025)
Goldberg, "What Every Computer Scientist Should Know about Floating Point Arithmetic" (부동소수점 비결합성)

AI 검색 변동성 실측 데이터
SE Ranking, "AI Mode Volatility Analysis" (2025년 8월)
Ahrefs, "AI Overview Citation Replacement Study" (2025년 11월)
Similarweb, "AI Citation Gap Analysis" by Limor Barenholtz (2025년 12월)
Tinuiti, Q1 2026 AI Citation Report
Position Digital, "150+ AI SEO Statistics for 2026" (2026년 4월)
ZipTie.dev, "How Different AI Platforms Cite the Same Source Differently" (2026년)
Profound (tryprofound.com), "AI Platform Citation Patterns Analysis" (2025년 8월, 6억8천만 건 인용 데이터 기반)

GEO 측정 방법론 및 재진단 주기
Geneo, "GEO Audits Explained" (2025~2026)
Quattr, "GEO Metrics Framework" (2026년 2월)
LLM Pulse, "GEO Metrics: AI Search KPIs for Competitive Visibility in 2026"
Foundation Inc, "GEO Metrics: How to Measure Visibility, Trust, and Brand Presence" (2025년 12월)
Fullcast, "How to Run a GEO Spot-Check" (2025년 12월)
MintPosition, "GEO Audit: 6 Steps to Improve AI Visibility"
Authority AI, "How to Audit Your Website for AI Visibility" (2025년 10월)
Averi AI, "How to Track AI Citations: 7 GEO Metrics That Matter" (2025년 12월)

관련 루미스캔 블로그 (더 깊이 읽기)
"AI 인용의 유통기한 — 콘텐츠가 4.5주 만에 사라지는 시대의 생존 전략"
"Semrush, Ahrefs, 네이버 서치어드바이저와 루미스캔은 왜 같은 범주의 도구가 아닌가"
"AI 인용률 100%인데 GEO 점수는 49점 — 성균관대학교 5,089페이지 케이스"

Semrush, Ahrefs, 네이버 서치어드바이저와 루미스캔은 왜 같은 범주의 도구가 아닌가 — SEO 도구 vs GEO 분석 도구의 구조적 차이

"우리는 이미 Semrush를 씁니다." 이 대답으로 자주 끝났던 대화에 답을 정리했다. 도메인 어서리티와 AI 인용의 상관계수는 r=0.18, 백링크는 r=0.218에 불과하지만

AI 인용률 100%인데 GEO 점수는 49점 — 성균관대학교 5,089페이지가 everytime과 나무위키에 밀린 구조적 이유

성균관대학교 공식 사이트는 AI 검색에서 100% 인용된다. 그런데 GEO 종합 점수는 49점, 경쟁사 평균 대비 답변 우선순위 -45점, AI 이해도 -41점. 5,089페이지의

Anthropic도, Cloudflare도 쓴다는 llms.txt — 그런데 Google은 "안 쓴다"고 말했다

2024년 11월 Jeremy Howard가 제안한 llms.txt는 1년 만에 84만 도메인 이상에 도입됐다. Anthropic, Cloudflare, Vercel, Stripe

ChatGPT에 광고가 붙었다 — AI 답변의 중립성이 흔들리는 시대, GEO 전략은 어떻게 달라져야 하는가

2026년 2월, OpenAI가 ChatGPT 무료·Go 사용자 대상으로 광고 테스트를 시작했다. CPM 60달러, 전환율 기존 대비 5배 — 대화형 AI 광고의 시대가 열렸다.

← 목록으로