다중모달 거대언어모델의 기억력 한계 극복 위한 RNG-Bench 평가 체계 도입
홍콩중문대학 등 공동 연구진이 보이지 않는 과거 정보를 추론하고 행동하는 다중모달 거대언어모델(MLLM)의 능력을 평가하는 RNG-Bench를 발표했습니다. 이 연구는 모델이 단순히 현재 상황을 인지하는 것을 넘어, 과거 관측을 재구성하여 복잡한 게임 환경에서 의사결정을 내리는 능력을 측정합니다.
팩트홍콩중문대학(CUHK)과 상하이 인공지능 연구소 연구진은 다중모달 거대언어모델(MLLM)의 기억력과 추론 능력을 평가하는 새로운 벤치마크인 RNG-Bench(Reconstructive Non-Markov Games)를 공개했습니다.
주장기존의 인공지능 평가 도구는 모델이 이미 전체 상태를 알고 있거나, 게임이 끝난 뒤에만 기억력을 측정하는 한계를 지닙니다. 연구진은 모델이 과거의 관측을 잠재 공간(Latent Space, 데이터의 핵심 특징을 압축하여 표현하는 고차원 공간)에 저장하고 이를 현재 행동에 반영하는 능력을 정밀하게 측정하고자 이 벤치마크를 설계했습니다.
팩트RNG-Bench는 카드 짝 맞추기 게임과 3차원 미로 탐색 게임으로 구성됩니다. 카드 게임은 특정 위치의 정보를 기억하는 능력을, 미로 게임은 시각 정보를 공간 지도로 통합하는 능력을 각각 평가합니다.
팩트연구진은 격자 크기, 시각적 패턴, 관측 양식이라는 세 가지 통제된 난이도 축을 도입했습니다. 이를 통해 모델의 성능 변화를 객관적으로 분석할 수 있는 환경을 구축했습니다.
교차검증본 논문은 아카이브(arxiv)에 공개된 선공개 논문으로, 아직 학계의 공식적인 동료 평가(Peer Review) 과정을 거치지 않았습니다. 따라서 연구 결과의 학술적 타당성은 추후 검증이 필요합니다.
팩트가장 높은 난이도의 환경에서는 에피소드당 약 12만 8천 개의 토큰(Token, 언어 모델이 처리하는 최소 단위)과 350개의 이미지 입력을 처리해야 합니다. 현재 최첨단 다중모달 모델들도 이러한 고난도 환경에서는 여전히 낮은 성능을 보입니다.
주장연구진은 모델의 성능 저하 원인을 분석하기 위해 메모리 갭(Memory Gap) 지표를 도입했습니다. 이 지표는 모델이 과거 정보를 잊어버리는 문제와 의사결정 자체의 오류를 명확히 구분합니다.
팩트분석 결과, 모델의 오류 대부분은 의사결정 과정의 미숙함보다는 과거 관측 정보를 제대로 유지하지 못하는 망각 현상에서 비롯된다는 사실을 확인했습니다.
교차검증본 연구가 제안한 벤치마크는 특정 게임 환경에 최적화되어 있어, 실제 현실 세계의 복잡하고 비정형화된 데이터 환경에서도 동일한 성능 평가가 가능한지에 대한 일반화 가능성(Generalizability)은 추가적인 검증이 요구됩니다.
팩트연구진은 Qwen3.5-9B 모델을 최적의 정책 데이터로 미세 조정(Fine-tuning, 특정 목적에 맞게 모델을 추가 학습하는 기법)했습니다. 그 결과 RNG-Bench 성능이 향상되었으며, 기존의 다른 벤치마크에서도 일반적인 다중모달 능력을 훼손하지 않고 성능을 유지했습니다.
주장이번 연구는 인공지능이 현재 눈앞의 정보에만 의존하지 않고, 과거의 경험을 토대로 미래를 예측하고 행동하는 능력을 갖추는 데 중요한 이정표가 될 전망입니다.
출처arxiv의 선공개 논문(https://arxiv.org/abs/2606.19338)을 참고했습니다.
본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

