다중 에이전트 상호작용을 구현한 생성형 월드 모델 '감마 월드' 개발
토론토 대학교와 엔비디아 연구진이 다수의 에이전트가 공유 공간에서 상호작용하는 환경을 생성하는 '감마 월드' 모델을 발표했습니다. 이 모델은 희소 허브 어텐션을 통해 연산 효율을 획기적으로 개선하고 초당 24프레임의 실시간 시뮬레이션을 구현했습니다.
주장최근 인공지능 분야에서는 단일 에이전트 환경을 넘어 다수의 주체가 동시에 상호작용하는 복잡한 환경을 모델링하는 기술이 주목받고 있습니다. 토론토 대학교와 엔비디아 연구진은 이러한 요구를 해결하기 위해 새로운 생성형 월드 모델인 '감마 월드(Gamma-World)'를 공개했습니다.
팩트연구진은 기존 모델이 가진 한계를 극복하기 위해 '심플렉스 로터리 에이전트 인코딩(Simplex Rotary Agent Encoding)' 기술을 도입했습니다. 이는 3차원 회전 위치 인코딩(3D RoPE)을 확장한 방식으로, 각 에이전트를 정단체의 꼭짓점으로 표현하여 개별적인 위상을 부여합니다.
팩트이 방식은 별도의 학습된 식별자나 고정된 순서 없이도 모든 에이전트를 순열 대칭적으로 처리할 수 있게 합니다. 결과적으로 에이전트의 수가 늘어나도 모델이 유연하게 대응할 수 있는 확장성을 확보했습니다.
주장다중 에이전트 시스템(MAS, 여러 지능형 에이전트가 협력하거나 경쟁하며 문제를 해결하는 시스템)에서 가장 큰 기술적 난제는 에이전트 간의 복잡한 상호작용을 처리하는 연산 비용입니다. 연구진은 이를 해결하기 위해 '희소 허브 어텐션(Sparse Hub Attention)' 구조를 제안했습니다.
팩트희소 허브 어텐션은 학습 가능한 허브 토큰을 매개체로 활용하여 에이전트 간의 상호작용을 중계합니다. 이를 통해 기존의 이차함수적(Quadratic) 연산 복잡도를 선형적(Linear) 수준으로 대폭 낮추어 연산 효율을 극대화했습니다.
팩트연구진은 실시간 시뮬레이션을 위해 전체 맥락을 학습한 디퓨전 교사 모델을 인과적 학생 모델로 증류했습니다. 이 과정에서 키-값(KV) 캐싱 기술을 적용하여 초당 24프레임(FPS)의 속도로 행동 반응형 영상을 생성하는 데 성공했습니다.
교차검증본 연구는 아카이브(arxiv)에 공개된 선공개 논문으로, 아직 학계의 공식적인 동료 평가(Peer Review) 과정을 거치지 않았습니다. 따라서 기술적 성과에 대한 객관적인 검증은 향후 학술대회 발표 등을 통해 추가로 이루어질 예정입니다.
교차검증기술적 측면에서 일반화 가능성에 대한 한계도 존재합니다. 연구진은 2명에서 4명으로의 확장을 입증했으나, 에이전트 수가 수십 명 이상으로 늘어날 경우 발생하는 복잡한 사회적 상호작용이나 잠재 공간(Latent Space, 고차원 데이터를 압축하여 표현하는 저차원 공간)에서의 정보 손실 문제에 대해서는 추가적인 연구가 필요합니다.
팩트실험 결과, 감마 월드는 기존의 슬롯 기반 모델이나 밀집 어텐션 모델보다 영상의 충실도와 행동 제어 능력, 에이전트 간 일관성 측면에서 뛰어난 성능을 보였습니다. 특히 2명의 플레이어 환경에서 학습한 모델이 추가 학습 없이 4명의 플레이어 환경으로 일반화되는 성과를 거두었습니다.
주장이번 연구는 로봇 공학이나 가상 환경 시뮬레이션 분야에서 다중 에이전트 간의 협업을 구현하는 데 중요한 이정표가 될 전망입니다. 복잡한 현실 세계의 물리적 상호작용을 디지털 공간에서 재현하려는 시도가 한층 정교해졌습니다.
주장향후 연구진은 더 많은 에이전트가 참여하는 환경에서도 일관성을 유지할 수 있도록 모델의 구조를 최적화할 계획입니다. 이는 자율주행 자동차나 다중 로봇 물류 시스템 등 실제 산업 현장에 적용될 가능성이 높습니다.
출처arxiv의 선공개 논문(https://arxiv.org/abs/2605.28816)을 참고했습니다.
본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

