MARKETS
KOSPI
KOSDAQ
S&P 500
NASDAQ
USD/KRW
BTC
NIKKEI
WTI
KOSPI
KOSDAQ
S&P 500
NASDAQ
USD/KRW
BTC
NIKKEI
WTI
Wittgenhaus

2026년 6월 16일 화요일

AI 시대, 당신을 더욱 스마트하게

AI미검

옴니디렉터(OmniDirector): 다중 샷 영상 생성을 위한 카메라 모션 복제 기술 개발

연구진은 교차 쌍 데이터 없이도 정교한 카메라 움직임을 복제하는 옴니디렉터 프레임워크를 발표했습니다. 이 기술은 백만 단위 규모의 데이터셋을 학습하여 영상 생성 모델의 연출 제어 능력을 획기적으로 개선합니다.

2026년 6월 16일

팩트칭화대학교를 포함한 공동 연구진은 최근 비디오 생성 분야에서 카메라 움직임을 정밀하게 제어하는 새로운 기술인 옴니디렉터(OmniDirector)를 공개했습니다. 연구진 소속 정보는 arxiv 등록 기준입니다.

주장기존 영상 생성 모델은 카메라의 움직임을 복제하는 과정에서 다중 샷(Multi-shot, 여러 개의 장면을 연속적으로 촬영하는 기법) 처리에 한계를 보였습니다. 연구진은 이러한 문제를 해결하고자 카메라 파라미터를 시각화한 그리드 모션 비디오(Grid Motion Video) 방식을 도입했습니다.

팩트이 기술은 카메라의 움직임을 그리드 형태의 영상으로 변환하여 잠재 공간(Latent Space, 데이터의 핵심 특징을 압축하여 표현하는 고차원 공간)에서 효율적으로 처리합니다. 이를 통해 복잡한 카메라 궤적을 통합하고 다중 샷 영상 생성의 정확도를 높입니다.

주장옴니디렉터는 백만 단위 규모의 카메라 그리드-비디오 쌍 데이터를 학습했습니다. 이 프레임워크는 등장인물의 행동과 카메라의 움직임을 유기적으로 결합하여 영상 제작자가 의도한 연출을 구현합니다.

팩트연구진은 계층적 프롬프트 확장 에이전트(Hierarchical Prompt Expansion Agent)라는 새로운 알고리즘을 설계했습니다. 이 에이전트는 카메라 모션과 시각적 콘텐츠 사이의 관계를 이해하여 다양한 제어 신호를 조화롭게 통합합니다.

주장이번 연구는 기존 방식이 겪던 데이터 부족 문제를 해결했다는 점에서 큰 의미가 있습니다. 교차 쌍 데이터(Cross-Paired Data, 서로 다른 소스에서 추출된 데이터 쌍) 없이도 고품질의 영상 생성이 가능함을 입증했습니다.

교차검증본 연구는 arxiv에 공개된 선공개 논문으로 아직 학계의 공식적인 동료 평가(Peer Review) 과정을 거치지 않았습니다. 따라서 기술의 상용화 가능성에 대해서는 추가적인 검증이 필요합니다.

교차검증해당 기술은 방대한 데이터셋을 기반으로 학습되었으나, 학습 데이터에 포함되지 않은 특수한 카메라 궤적이나 극단적인 환경에서의 범용성(Generalizability)은 여전히 한계로 남을 수 있습니다.

팩트연구진은 실험을 통해 옴니디렉터가 기존의 파라미터 기반 방식보다 복잡한 카메라 모션 복제에서 훨씬 뛰어난 성능을 보인다고 밝혔습니다. 특히 감독 수준의 정밀한 제어가 가능함을 데이터로 증명했습니다.

주장영상 생성 AI 분야에서 카메라 제어는 완성도를 결정짓는 핵심 요소입니다. 이번 기술은 영상 제작 도구로서 AI의 활용 범위를 한층 넓힐 것으로 기대합니다.

팩트옴니디렉터는 멀티모달 확산 트랜스포머(Multimodal Diffusion Transformer, 텍스트와 영상 등 다양한 입력을 처리하는 생성 모델) 구조를 활용하여 영상 생성의 일관성을 유지합니다.

출처arxiv의 선공개 논문(https://arxiv.org/abs/2606.13432)을 참고했습니다.

본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

스팟

WIRE

글로벌 인텔리전스

전체보기 →

본 페이지의 정보는 공개 채널을 통해 자동 수집되는 정보로 정보의 정확성·완전성을 보장하지 않으며, Wittgenhaus의 공식 입장이 아닙니다. 이를 근거로 한 판단과 행위의 결과에 Wittgenhaus는 책임을 지지 않습니다.

버블 지표

상세보기 →

릴리즈 & 논문

전체보기 →

RELEASES

Anthropicv0.109.2

v0.109.2

API 및 SDK에서 지원 중단된 모델이 제거되었습니다. 이번 업데이트는 API와 SDK 모두에 적용됩니다.

16시간 전

Transformersv5.12.1

패치 릴리즈 v5.12.1

PEFT의 하한선이 업데이트되었으며, `mistral-common`이 설치된 경우 mistral 토크나이저를 올바르게 해결하기 위한 auto tokenizer 수정이 포함되었습니다. 이는 v5.10.3과 유사하며 메인 릴리즈에 이미 포함된 수정 사항은 제외되었습니다.

16시간 전

Transformersv5.10.3

패치 릴리즈 v5.10.3

vLLM이 transformers와 동기화하는 데 필요한 몇 가지 수정 사항이 적용되었습니다. 주요 수정 사항으로는 #45534, #46456에서 발생한 회귀 문제 해결, ProcessorMixin의 {image/video/audio}_token_ids 수정, InternVL 모델 수정 등이 포함됩니다. 또한, 처리 오프셋 수정 및 `peft` 하한선 수정, mistral 공통 백엔드 수정도 이루어졌습니다.

16시간 전

meta-llama/llama-stackv1.1.1

v1.1.1

이번 릴리즈에서는 UI 잠금 파일의 ogx-client를 업데이트하고, 동기 파싱을 스레드 풀로 오프로드하는 등의 여러 버그 수정이 포함되었습니다. 또한 Milvus 3.0 호환성을 위해 명시적인 output_fields를 사용하고, stale 클라이언트로 인한 런타임 오류를 방지하며, 검색 오류를 빈 결과 대신 전파하도록 수정되었습니다.

18시간 전

LangChainlangchain-openai==1.3.2

langchain-openai==1.3.2

langchain-openai 라이브러리의 1.3.2 버전이 릴리즈되었습니다. 이번 릴리즈는 이전 버전인 1.3.1 이후의 변경 사항을 포함합니다. 구체적인 내용은 릴리즈 번호 #38130으로 확인 가능합니다.

3일 전

PAPERS