마이크로소프트, 영상 생성 모델 미라지 공개
마이크로소프트 연구진이 3차원 공간 정보를 잠재 공간에 직접 저장하는 영상 생성 모델 미라지를 발표했습니다. 기존 모델 대비 연산 속도와 메모리 효율을 획기적으로 개선하며 공간 일관성을 확보했습니다.
주장마이크로소프트 연구진이 개발한 미라지는 픽셀 기반의 3차원 포인트 클라우드를 거치지 않고 내부 잠재 공간에 공간 정보를 직접 저장합니다. 이 방식은 영상 생성 시 공간 구조를 안정적으로 유지하며 긴 카메라 이동에도 일관성을 보장합니다.
팩트미라지는 기존 모델 대비 영상 생성 속도를 최대 10.57배까지 향상시켰습니다. 메모리 사용량은 기존 방식보다 최대 55배까지 절감하는 효율성을 보여줍니다.
팩트연구진은 알리바바의 오픈소스 영상 모델인 완 2.2를 기반으로 미라지를 구축했습니다. 모델에 새로운 메모리 사용법을 학습시키는 소형 모듈을 추가하고 로라 어댑터를 사용하여 전체 모델을 미세 조정했습니다.
팩트미라지는 영상 생성 시 픽셀 공간을 거치지 않고 내부 잠재 공간의 특징을 3차원 공간에 직접 매핑합니다. 이 과정에서 렌더링과 재인코딩 단계를 생략하여 연산 병목 현상을 제거했습니다.
주장기존 영상 세계 모델은 메모리 부족으로 인해 카메라가 이전 위치로 돌아올 때 가구의 위치가 바뀌거나 질감이 변하는 문제를 겪었습니다. 미라지는 이러한 공간 기억 상실 문제를 해결하여 시뮬레이션 정확도를 높였습니다.
팩트미라지는 월드스코어 벤치마크에서 기존 색상 기반 메모리 모델인 스페이시아를 능가하는 성능을 기록했습니다. 완 2.1이나 코그비디오X와 같은 일반적인 영상 생성 모델보다 공간 구조 유지력 면에서 우위를 점합니다.
팩트리얼에스테이트10K 데이터셋을 활용한 폐쇄 루프 테스트에서 미라지는 3개 지표 중 2개에서 1위를 차지했습니다. 카메라가 시작점으로 돌아오는 이 테스트는 누적 오차를 확인하는 가혹한 조건입니다.
교차검증미라지는 움직이는 물체나 하늘과 같은 불안정한 요소를 메모리에서 제거하는 필터링 과정을 거칩니다. 이로 인해 복잡한 동적 장면보다는 정적인 실내 환경에서 더 높은 성능을 발휘한다는 한계가 있습니다.
주장영상 세계 모델은 단순히 영상을 생성하는 단계를 넘어 사용자가 탐색 가능한 일관된 환경을 구축하는 방향으로 발전합니다. 이는 구글 딥마인드의 지니 3와 같은 실시간 대화형 환경 구축 기술과 궤를 같이합니다.
주장공간 일관성을 확보한 미라지의 기술적 진보는 가상 현실 시뮬레이션의 정밀도를 한 단계 높입니다. 이는 향후 고도화된 영상 생성 기술의 표준으로 자리 잡을 가능성이 큽니다.
주장렌더링 과정을 생략한 효율적인 구조는 대규모 데이터 처리가 필요한 영상 생성 분야에서 중요한 전환점이 됩니다. 연구진은 이를 통해 복잡한 3차원 환경을 보다 빠르게 구현합니다.
출처더 디코더의 보도 내용과 아카이브 논문 자료를 교차 검증했습니다.
본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

