옴니디렉터(OmniDirector): 다중 샷 영상 생성을 위한 카메라 모션 복제 기술 개발
연구진은 교차 쌍 데이터 없이도 정교한 카메라 움직임을 복제하는 옴니디렉터 프레임워크를 발표했습니다. 이 기술은 백만 단위 규모의 데이터셋을 학습하여 영상 생성 모델의 연출 제어 능력을 획기적으로 개선합니다.
팩트칭화대학교를 포함한 공동 연구진은 최근 비디오 생성 분야에서 카메라 움직임을 정밀하게 제어하는 새로운 기술인 옴니디렉터(OmniDirector)를 공개했습니다. 연구진 소속 정보는 arxiv 등록 기준입니다.
주장기존 영상 생성 모델은 카메라의 움직임을 복제하는 과정에서 다중 샷(Multi-shot, 여러 개의 장면을 연속적으로 촬영하는 기법) 처리에 한계를 보였습니다. 연구진은 이러한 문제를 해결하고자 카메라 파라미터를 시각화한 그리드 모션 비디오(Grid Motion Video) 방식을 도입했습니다.
팩트이 기술은 카메라의 움직임을 그리드 형태의 영상으로 변환하여 잠재 공간(Latent Space, 데이터의 핵심 특징을 압축하여 표현하는 고차원 공간)에서 효율적으로 처리합니다. 이를 통해 복잡한 카메라 궤적을 통합하고 다중 샷 영상 생성의 정확도를 높입니다.
주장옴니디렉터는 백만 단위 규모의 카메라 그리드-비디오 쌍 데이터를 학습했습니다. 이 프레임워크는 등장인물의 행동과 카메라의 움직임을 유기적으로 결합하여 영상 제작자가 의도한 연출을 구현합니다.
팩트연구진은 계층적 프롬프트 확장 에이전트(Hierarchical Prompt Expansion Agent)라는 새로운 알고리즘을 설계했습니다. 이 에이전트는 카메라 모션과 시각적 콘텐츠 사이의 관계를 이해하여 다양한 제어 신호를 조화롭게 통합합니다.
주장이번 연구는 기존 방식이 겪던 데이터 부족 문제를 해결했다는 점에서 큰 의미가 있습니다. 교차 쌍 데이터(Cross-Paired Data, 서로 다른 소스에서 추출된 데이터 쌍) 없이도 고품질의 영상 생성이 가능함을 입증했습니다.
교차검증본 연구는 arxiv에 공개된 선공개 논문으로 아직 학계의 공식적인 동료 평가(Peer Review) 과정을 거치지 않았습니다. 따라서 기술의 상용화 가능성에 대해서는 추가적인 검증이 필요합니다.
교차검증해당 기술은 방대한 데이터셋을 기반으로 학습되었으나, 학습 데이터에 포함되지 않은 특수한 카메라 궤적이나 극단적인 환경에서의 범용성(Generalizability)은 여전히 한계로 남을 수 있습니다.
팩트연구진은 실험을 통해 옴니디렉터가 기존의 파라미터 기반 방식보다 복잡한 카메라 모션 복제에서 훨씬 뛰어난 성능을 보인다고 밝혔습니다. 특히 감독 수준의 정밀한 제어가 가능함을 데이터로 증명했습니다.
주장영상 생성 AI 분야에서 카메라 제어는 완성도를 결정짓는 핵심 요소입니다. 이번 기술은 영상 제작 도구로서 AI의 활용 범위를 한층 넓힐 것으로 기대합니다.
팩트옴니디렉터는 멀티모달 확산 트랜스포머(Multimodal Diffusion Transformer, 텍스트와 영상 등 다양한 입력을 처리하는 생성 모델) 구조를 활용하여 영상 생성의 일관성을 유지합니다.
출처arxiv의 선공개 논문(https://arxiv.org/abs/2606.13432)을 참고했습니다.
본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

