네이버, 실제 거리 데이터 기반 서울 월드 모델 개발
네이버가 실제 도시 지형과 지도 데이터를 활용해 영상 생성 인공지능의 환각 현상을 해결하는 서울 월드 모델을 개발했습니다. 이 모델은 기존 모델보다 뛰어난 시각적 품질과 일관성을 보이며 자율 주행 및 도시 계획 분야의 핵심 기술로 주목받습니다.
주장네이버의 서울 월드 모델은 인공지능이 영상을 생성할 때 발생하는 환각 현상을 해결하기 위해 실제 도시의 기하학적 구조를 기반으로 작동합니다. 기존 모델이 시작 이미지를 제외한 모든 환경을 가상으로 꾸며내는 것과 달리, 이 모델은 실제 지도 데이터를 앵커로 활용하여 물리적 정확성을 확보합니다.
팩트연구진은 네이버 지도의 거리 파노라마 이미지 120만 장을 데이터베이스로 구축했습니다. 사용자가 지리적 좌표와 카메라 이동 경로, 텍스트 프롬프트를 입력하면 모델은 가장 가까운 거리 이미지를 검색하여 영상 생성의 가이드로 활용합니다.
교차검증실제 거리 이미지는 촬영 시점에 포함된 자동차나 보행자 같은 일시적인 객체를 포함하고 있어 영상 생성 시 오류를 유발할 위험이 있습니다. 연구진은 이를 해결하고자 서로 다른 시간에 촬영된 이미지를 결합하는 교차 시간 페어링 기술을 도입하여 영구적인 건물과 일시적인 객체를 구분하도록 학습시켰습니다.
팩트거리 뷰 카메라는 5에서 20미터 간격으로 촬영되므로 연속적인 영상 데이터가 부족하다는 한계가 있습니다. 연구진은 이를 보완하기 위해 언리얼 엔진 기반의 시뮬레이터인 칼라를 사용하여 1만2700개의 합성 영상을 생성하고 보행자 및 차량 시점의 데이터를 확보했습니다.
주장장거리 영상 생성 시 발생하는 오차 누적 문제를 해결하기 위해 가상 룩어헤드 싱크 기술을 적용했습니다. 이 기술은 카메라가 이동함에 따라 경로 앞쪽의 거리 이미지를 가상 목적지로 삽입하여 모델이 오차 없이 경로를 유지하도록 돕습니다.
팩트서울 월드 모델은 엔비디아의 코스모스-프레딕트 2.5-2B 모델을 기반으로 구축되었습니다. 학습에는 24개의 엔비디아 H100 그래픽 처리 장치가 사용되었으며, 서울 거리 이미지 44만 장과 합성 데이터, 웨이모의 주행 데이터가 활용되었습니다.
팩트벤치마크 테스트 결과, 서울 월드 모델은 시각적 품질과 시간적 일관성 측면에서 기존의 6개 비디오 월드 모델보다 우수한 성능을 보였습니다. 특히 부산이나 미국 앤아버와 같이 학습 과정에 포함되지 않은 도시에서도 별도의 추가 학습 없이 성공적으로 영상을 생성했습니다.
교차검증현재 연속적인 도시 영상 데이터가 부족하여 개별 이미지를 보간하는 방식을 사용하고 있으며, 이로 인해 실제 영상보다 품질이 다소 낮을 수 있습니다. 또한 메타데이터의 시간 정보 오류로 인해 생성된 영상에서 차량이 갑자기 나타나거나 사라지는 현상이 발생하기도 합니다.
팩트모든 거리 데이터는 개인정보 보호 규정을 준수하여 처리되었습니다. 학습에 사용하기 전 얼굴과 차량 번호판은 모두 익명화 과정을 거쳤으며, 향후 도시 계획이나 자율 주행, 위치 기반 탐색 서비스 등에 활용할 예정입니다.
주장월드 모델은 인공지능 분야에서 가장 활발하게 연구되는 영역 중 하나로, 범용 인공지능으로 나아가는 핵심 단계로 평가받습니다. 구글 딥마인드와 마이크로소프트 등 주요 기업들도 환경을 이해하고 예측하는 모델 개발에 집중하고 있습니다.
출처https://the-decoder.com/navers-seoul-world-model-uses-actual-street-view-data-to-stop-ai-from-hallucinating-entire-cities/
본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.