스키마 마크업과 거대언어모델의 상관관계 분석
거대언어모델이 스키마 마크업을 구조적 데이터로 이해한다는 통념은 사실과 다릅니다. 모델은 스키마를 단순 텍스트로 처리하며 검색 엔진과 다른 방식으로 작동합니다. 스키마 마크업의 역할을 명확히 구분해야 합니다.
주장거대언어모델(LLM)이 스키마 마크업을 의도된 구조대로 해석한다는 견해는 사실과 다릅니다. 모델은 스키마를 구조적 데이터가 아닌 단순한 텍스트의 일부로 인식합니다. 잘못된 형식의 제이슨-엘디(JSON-LD) 데이터조차 정보로 받아들입니다.
팩트실험 결과, 오리 관련 페이지에 가짜 회사 주소를 포함한 잘못된 제이슨-엘디를 삽입해도 모델은 이를 그대로 수용합니다. 해당 페이지 본문에 주소가 없음에도 불구하고, 모델은 스키마 데이터를 근거로 회사 위치를 답변합니다.
교차검증일부 전문가는 모델이 스키마를 통해 정보를 인용하는 행위를 구조적 이해의 증거로 제시합니다. 그러나 이는 모델이 하이퍼텍스트 마크업 언어(HTML) 내 텍스트를 읽고 구조를 무시한 채 답변하는 현상에 불과합니다.
팩트스키마 마크업은 구글, 마이크로소프트, 야후, 얀덱스가 협력하여 만든 표준화된 어휘 체계입니다. 이는 기계가 페이지 콘텐츠를 명확히 이해하고 모호성을 제거하기 위한 목적으로 설계되었습니다.
주장스키마는 검색 엔진의 지식 그래프를 구축하는 데 필수적인 입력값입니다. 하지만 모델은 검색 엔진과 완전히 다른 방식으로 작동합니다. 스키마가 모델에서도 동일한 역할을 수행한다는 가정은 위험합니다.
팩트모델 학습 데이터 구축 파이프라인은 하이퍼텍스트 마크업 언어와 보일러플레이트 코드를 제거합니다. 특히 파인웹(FineWeb) 데이터셋 추출에 사용하는 트라필라투라(trafilatura) 라이브러리는 스크립트 태그 내의 제이슨-엘디를 무시합니다.
교차검증모델이 스키마 작성법을 알고 있는 이유는 학습 데이터에 포함된 예제 코드와 튜토리얼을 읽었기 때문입니다. 이는 모델이 스키마 구조를 이해해서가 아니라, 프로그래밍 언어를 학습하는 것과 같은 원리입니다.
주장현재 업계에서 스키마를 모델 인용을 위한 마법의 도구로 홍보하는 행위는 근거가 빈약합니다. 스키마는 검색 엔진 최적화에는 여전히 유효합니다. 그러나 모델의 작동 원리를 오해해서는 안 됩니다.
팩트모델은 페이지 전체를 기억하지 않습니다. 확률적 분포를 통해 언어를 생성합니다. 특정 페이지의 스키마 데이터를 별도의 데이터베이스처럼 저장하고 인출하는 구조가 아닙니다.
주장검색 엔진 최적화 전략과 인공지능 모델 최적화 전략을 분리해야 합니다. 스키마 마크업은 검색 엔진의 이해를 돕는 도구일 뿐입니다. 모델의 환각 현상을 제어하는 수단으로 활용하기에는 한계가 명확합니다.
주장기술적 오해는 잘못된 마케팅 전략으로 이어집니다. 모델의 특성을 정확히 파악하고 데이터 전략을 수립해야 합니다. 스키마 마크업의 본질을 이해하는 태도가 필요합니다.
출처서치 엔진 저널(Search Engine Journal)의 '스키마와 거대언어모델: 지리적 증거의 낮은 기준(Schema & LLMs: The Low Bar for Evidence in GEO)' 보고서를 교차 검증했습니다.
본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

