엔비디아, 물리 AI 위한 옴니모달 세계 모델 '코스모스 3' 공개
엔비디아 연구진이 언어와 영상, 동작을 통합 처리하는 옴니모달 세계 모델 '코스모스 3'를 발표했습니다. 이 모델은 물리 AI 분야의 다양한 작업을 단일 프레임워크로 통합해 성능을 극대화했습니다.
팩트엔비디아 연구진이 물리 AI(Physical AI)를 위한 통합형 세계 모델인 '코스모스 3(Cosmos 3)'를 발표했습니다. 이 모델은 언어, 이미지, 비디오, 오디오, 그리고 로봇의 행동 시퀀스를 동시에 처리하고 생성하는 능력을 갖췄습니다.
주장코스모스 3는 물리 AI의 핵심인 다양한 양식을 단일 프레임워크로 통합했다는 점에서 혁신적입니다. 기존의 비전-언어 모델과 비디오 생성기, 세계 시뮬레이터의 기능을 하나의 모델로 결합했습니다.
팩트모델 구조는 혼합 전문가 트랜스포머(Mixture-of-Transformers) 아키텍처를 기반으로 설계되었습니다. 이는 특정 작업에 최적화된 하위 네트워크를 선택적으로 활성화하여 효율성을 높이는 방식입니다.
주장연구진은 이번 모델이 물리적 세계를 이해하고 상호작용하는 임베디드 에이전트(Embodied Agents, 물리적 신체를 가진 인공지능)의 범용적인 기반 모델로 활용될 수 있다고 강조합니다.
팩트코스모스 3는 아티피셜 애널리시스(Artificial Analysis) 평가에서 오픈소스 텍스트-이미지 및 이미지-비디오 생성 모델 부문 1위를 차지했습니다. 또한 로보아레나(RoboArena)의 정책 모델 평가에서도 최고 성능을 기록했습니다.
팩트연구진은 연구 생태계 확장을 위해 모델 코드와 체크포인트, 합성 데이터셋을 리눅스 재단의 오픈MDW-1.1 라이선스 조건으로 공개했습니다. 누구나 허브를 통해 모델을 내려받아 활용할 수 있습니다.
교차검증본 연구는 아카이브(arXiv)에 선공개된 논문으로, 아직 학계의 정식 동료 평가(Peer Review) 과정을 거치지 않았습니다. 따라서 기술적 성과에 대한 객관적인 검증은 향후 학술대회 발표 등을 통해 보완될 필요가 있습니다.
교차검증코스모스 3가 다양한 환경에서 범용적으로 작동하는지에 대한 일반화 성능은 추가적인 검증이 필요합니다. 특히 실제 물리 환경에서의 복잡한 변수를 모델이 얼마나 정확하게 예측할 수 있는지에 대한 실증 데이터가 더 확보되어야 합니다.
주장이번 발표는 물리 AI 분야에서 엔비디아의 기술적 주도권을 공고히 하는 계기가 됩니다. 특히 다양한 모달리티(Modality, 데이터의 형태)를 하나의 잠재 공간(Latent Space, 고차원 데이터를 압축하여 표현한 수학적 공간)에서 처리하는 방식은 향후 AI 모델 설계의 표준이 될 가능성이 큽니다.
팩트코스모스 3는 유연한 입출력 구성을 지원합니다. 사용자는 필요에 따라 언어와 영상, 동작 데이터를 조합하여 모델을 구동할 수 있습니다.
주장물리 AI의 발전은 로봇 공학과 자율주행 등 실생활과 밀접한 분야에 큰 변화를 가져올 것입니다. 코스모스 3와 같은 통합 모델은 로봇이 복잡한 환경을 이해하고 스스로 판단하는 능력을 한 단계 높일 것입니다.
출처arxiv의 선공개 논문(https://arxiv.org/abs/2606.02800)을 참고했습니다.
본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

