콘텐츠는 많은데 왜 AI는 모를까요?
핵심 요약 — ChatGPT·Perplexity가 "30대 남성 겨울 선물 추천해줘"라는 질문에 특정 브랜드를 답으로 내놓을 때, 출발점은 '이 상품이 좋은가'가 아니라 'AI가 이 상품 페이지를 읽을 수 있는가'입니다. 크롤러 접근이 막혀 있거나 정보가 AI가 해석할 수 없는 형태라면, 아무리 좋은 상품도 추천 후보에 오르지 못합니다. 실제로 상위 1,000개 웹사이트 중 약 25%가 ChatGPT 크롤러를 차단하고 있는 것으로 분석됩니다(출처: xseek).
상품이 나쁜 게 아니라, AI가 못 읽는 것입니다
지금 ChatGPT를 켜고 우리 브랜드가 속한 카테고리의 추천을 물어보십시오. 경쟁사 이름은 줄줄이 나오는데 정작 우리 브랜드만 빠져 있는 경우가 적지 않습니다.
이때 가장 흔한 오해는 "우리 콘텐츠가 부족해서"라고 결론짓는 것입니다. 그러나 더 근본적인 원인이 따로 있습니다. AI가 애초에 우리 사이트를 읽지 못하고 있을 가능성입니다.
ChatGPT는 사람이 보는 화면이 아니라 GPTBot·OAI-SearchBot 같은 전용 크롤러로 웹을 읽습니다. 이 크롤러는 사이트 최상단의 robots.txt 파일을 먼저 확인해 접근 허용 여부를 판단합니다. 만약 이 파일이 크롤러를 막고 있다면 결과는 단순하고도 잔인합니다. AI는 읽을 수 없는 것을 추천할 수 없습니다. GPTBot을 차단하면 ChatGPT는 해당 콘텐츠를 크롤링하지도, 인용하지도 못합니다(출처: xseek).
문제는 이 차단이 의도치 않게 일어나는 경우가 많다는 데 있습니다. 2023년 뉴욕타임스·CNN·로이터 같은 매체들이 GPTBot을 일제히 차단했고(출처: The Guardian), 이후 "AI 차단" 헤드라인을 본 담당자들이 별생각 없이 모든 봇을 막아버리는 사례가 늘었습니다. 그 결과 상위 1,000개 사이트의 GPTBot 차단율은 2023년 초 5%에서 약 25%까지 올랐습니다(출처: xseek).
한 가지 함정이 더 있습니다. 콘텐츠를 자바스크립트로 화면에 그려내는 방식을 쓰는 자사몰이라면 robots.txt를 아무리 잘 열어둬도 소용이 없을 수 있습니다. AI 크롤러의 약 69%가 자바스크립트를 실행하지 못해 빈 페이지로 인식하기 때문입니다(출처: Vercel·MERJ 분석).
AI는 '좋은 상품'이 아니라 '읽히는 상품'을 고릅니다
그렇다면 AI는 무엇을 보고 추천을 결정할까요. 핵심은 'RAG(검색증강생성)'에 있습니다. AI가 답을 만들기 전에 신뢰할 만한 외부 자료를 먼저 찾아 읽고, 그 내용을 근거로 답변을 구성하는 방식입니다. 이때 자료를 고르는 기준은 백링크 수나 키워드 빈도가 아니라 의미적 명료성, 구조적 검색 용이성, 제3자 검증으로 분석됩니다(출처: Discovered Labs).
이 과정을 자사몰 입장에서 풀면 세 개의 관문으로 정리됩니다.
첫 번째 관문 — 접근. AI 크롤러가 우리 페이지에 들어올 수 있는가. robots.txt와 렌더링 방식이 여기서 갈립니다.
두 번째 관문 — 이해. 들어온 AI가 "이건 89,000원짜리 캐시미어 니트이고 재고가 있다"를 정확히 파악할 수 있는가. 사람 눈에는 멀쩡한 상세페이지도 기계에게는 의미를 알 수 없는 텍스트 덩어리일 뿐입니다. 이 간극을 메우는 것이 구조화 데이터입니다.
세 번째 관문 — 인용 가치. 같은 정보라도 AI가 더 믿고 인용할 만한가. 프린스턴대·조지아공대 연구진의 GEO 논문은 통계 수치 삽입, 출처 인용, 신뢰할 만한 인용문 추가 같은 기법이 생성형 엔진에서의 가시성을 최대 40%까지 끌어올린다는 사실을 입증했습니다(출처: Aggarwal et al., arXiv:2311.09735).
결국 추천의 승패는 콘텐츠를 쏟아붓는 양이 아니라 AI가 읽고 이해하고 신뢰하도록 데이터를 정돈했는가에서 갈립니다.
직접 비교: 추천받는 페이지 vs 외면받는 페이지
추상적인 설명보다 실제 차이를 보는 편이 빠릅니다.
관문 ① 크롤러 접근 설정
❌ 외면받는 페이지
모든 봇을
Disallow: /로 일괄 차단 → ChatGPT 검색 결과에서 통째로 제외GPTBot과 OAI-SearchBot을 같은 것으로 오해해 둘 다 차단
✅ 추천받는 페이지
OAI-SearchBot·PerplexityBot 등 검색 크롤러는 허용, 결제·회원 영역만 선별 차단
학습용(GPTBot)과 검색용(OAI-SearchBot)을 구분해 검색 노출은 열어둠
GPTBot은 모델 학습용, OAI-SearchBot은 ChatGPT 실시간 검색용입니다. 검색용 봇을 막으면 ChatGPT 검색 결과에서 사라집니다(출처: Mersel AI).
관문 ② 상품 정보 구조화
❌ 외면받는 페이지
가격·재고·브랜드가 이미지와 줄글에만 존재 → AI가 수치를 추출하지 못함
"겨울에 따뜻한 데일리 니트"라는 감성 문구만 존재
✅ 추천받는 페이지
동일 정보를 JSON-LD 구조화 데이터로 함께 제공 → AI가 즉시 파싱
카테고리·소재·가격·재고 상태가 기계 판독 가능한 형태로 정리
아래는 AI가 곧바로 이해하는 구조화 데이터의 예시입니다.
{
"@context": "https://schema.org",
"@type": "Product",
"name": "캐시미어 블렌드 터틀넥 니트",
"description": "30대 남성 겨울 데일리룩, 보온성 우수",
"brand": { "@type": "Brand", "name": "우리브랜드" },
"offers": {
"@type": "Offer",
"price": "89000",
"priceCurrency": "KRW",
"availability": "https://schema.org/InStock"
}
}관문 ③ 인용 가치 높이기
❌ 외면받는 페이지
"최고의 보온성"이라는 주관적 주장만 반복
출처 없는 단정
✅ 추천받는 페이지
"타사 대비 평균 1.5배 두꺼운 게이지" 등 구체 수치와 근거 제시
시험 성적서·리뷰 데이터 등 검증 가능한 출처 함께 표기
프린스턴 연구에서 가장 효과가 컸던 상위 기법이 바로 '통계 수치 삽입'과 '출처 인용'이었습니다(출처: arXiv:2311.09735).
세 관문 중 어디서 막혀 있는지, 우리 자사몰은 지금 몇 점일까요? 3분이면 확인할 수 있습니다.
오늘 바로 점검할 수 있는 5단계
1. robots.txt부터 열어 확인하기
브라우저에 우리도메인.com/robots.txt를 직접 입력해 아래 크롤러가 차단되어 있지 않은지 점검합니다.
OAI-SearchBot(ChatGPT 검색) 허용 여부PerplexityBot(Perplexity) 허용 여부ClaudeBot(Claude) 허용 여부Google-Extended(Gemini·AI 개요) 허용 여부
전면 차단(Disallow: /)이 걸려 있다면 이것이 추천 누락의 1순위 원인일 확률이 높습니다.
2. CDN과 렌더링 방식 점검하기
robots.txt가 정상이어도 Cloudflare 같은 CDN의 AI 차단 기능이 봇을 막는 경우가 있습니다. 서버 로그에서 AI 크롤러에 대한 403 응답이 찍히는지 확인하십시오. 상품 페이지가 자바스크립트로만 렌더링된다면 핵심 정보는 서버에서 미리 그려 보내도록 개선이 필요합니다.
3. 상품 페이지에 구조화 데이터(JSON-LD) 적용하기
모든 상품 페이지에 위 예시 같은 Product 스키마를 삽입합니다. 가격·재고·브랜드·카테고리를 기계 판독 가능한 형태로 제공하는 것이 핵심입니다. 적용 후에는 구글 '리치 결과 테스트'로 오류가 없는지 검증하십시오.
4. 콘텐츠에 'AI가 인용하고 싶은 신호' 심기
프린스턴 연구가 입증한 효과 높은 기법을 상세 설명에 반영합니다.
구체적 수치 추가 (예: "재구매율 32%")
근거 출처 명시 (시험 성적서, 공신력 있는 데이터)
모호한 형용사 대신 검증 가능한 사실로 서술
5. AI 준비도 측정하고 변화 추적하기
위 작업을 마쳤다면 현재 우리 사이트가 AI에 얼마나 준비되어 있는지 점수로 진단하고 정기적으로 모니터링하십시오. 기술 적용은 1~2주면 끝나지만, AI 크롤러가 변경된 데이터를 반영하기까지 추가 시간이 걸리므로 변화를 꾸준히 관찰하는 과정이 필요합니다.
마무리: 0순위는 '읽히는 사이트'를 만드는 일입니다
여기까지 읽으셨다면 한 가지가 분명해졌을 것입니다. AI 추천의 시작점은 화려한 카피가 아니라 AI가 우리 사이트를 읽고, 이해하고, 신뢰하게 만드는 기술적 토대라는 사실입니다.
다만 현실적으로 이 모든 것을 직접 챙기기는 쉽지 않습니다. 수시로 바뀌는 AI 크롤러 정책을 추적하고, 수천 개 상품마다 JSON-LD를 일일이 작성하며, 점수까지 관리하는 일은 적지 않은 시간과 기술을 요구합니다.
지오독스(GeoDocs)는 바로 이 지점을 자동화합니다. AI봇 접근 허용(robots.txt) 자동 설정으로 첫 번째 관문을 열고, GPT Vision 기반 스키마 자동 생성으로 상품 정보를 AI가 읽는 형태로 변환하며, 0~100점 AI 준비도 점수와 대시보드로 현재 상태와 변화를 한눈에 보여줍니다.
검색의 시대가 가고 대답의 시대가 왔습니다. AI 시대의 노출, 지오독스(GeoDocs)와 함께 점검해 보시기 바랍니다.
우리 브랜드는 AI에게 잘 보이고 있을까요? robots.txt·스키마·AI 준비도 점수를 무료로 진단받아 보세요.
FAQ
Q. GEO는 기존 SEO와 다른 건가요?
A. 목적이 다릅니다. SEO는 구글 검색 결과에서 클릭을 받기 위한 최적화이고, GEO는 ChatGPT·Perplexity 같은 생성형 엔진이 우리를 '답의 근거'로 인용하게 만드는 최적화입니다. 다만 둘은 상당 부분 겹치므로 함께 관리하는 편이 효율적입니다.
Q. robots.txt에서 GPTBot만 막으면 ChatGPT에서 사라지나요?
A. 아닙니다. GPTBot은 모델 학습용, OAI-SearchBot은 ChatGPT 검색용으로 별개입니다. 검색 노출을 원한다면 OAI-SearchBot을 반드시 허용해야 합니다(출처: Mersel AI).
Q. 상품이 500개뿐인 소규모 자사몰도 GEO가 필요한가요?
A. 규모와 무관하게 '읽히는가'가 먼저입니다. 상품 수가 적어도 크롤러가 막혀 있으면 추천 후보에서 통째로 빠집니다. 오히려 적은 상품 수일수록 구조화와 인용 신호 작업의 투자 대비 효과가 큽니다.
Q. 구조화 데이터를 넣으면 ChatGPT가 무조건 추천하나요?
A. 구조화는 '이해'의 필요조건이지 충분조건은 아닙니다. 접근 허용·구조화·인용 가치 세 관문을 함께 갖출 때 추천 확률이 올라갑니다.
Q. 개발팀 없이도 적용할 수 있나요?
A. robots.txt 수정과 스키마 삽입은 최소한의 기술 작업을 동반합니다. 지오독스(GeoDocs) 같은 솔루션을 쓰면 robots.txt 자동 설정과 스키마 자동 생성으로 코딩 부담을 크게 줄일 수 있습니다.
Q. 효과는 언제쯤 체감할 수 있나요?
A. 기술 적용은 1~2주, AI 크롤러가 변경 데이터를 반영하는 데 추가 시간이 걸립니다. 적용 직후보다 수 주에 걸친 모니터링으로 변화를 확인하는 접근이 적합합니다.
Q. 네이버 스마트스토어에 입점해 있으면 자사몰은 신경 안 써도 되나요?
A. 플랫폼 노출과 AI 추천은 별개입니다. 자사몰이 AI에 읽히지 않으면 브랜드 고유의 스토리와 상품 정보가 AI 답변에 반영될 기회를 잃게 됩니다.