AI미검

다중모달 거대언어모델의 기억력 한계 극복 위한 RNG-Bench 평가 체계 도입

홍콩중문대학 등 공동 연구진이 보이지 않는 과거 정보를 추론하고 행동하는 다중모달 거대언어모델(MLLM)의 능력을 평가하는 RNG-Bench를 발표했습니다. 이 연구는 모델이 단순히 현재 상황을 인지하는 것을 넘어, 과거 관측을 재구성하여 복잡한 게임 환경에서 의사결정을 내리는 능력을 측정합니다.

2026년 6월 18일

팩트홍콩중문대학(CUHK)과 상하이 인공지능 연구소 연구진은 다중모달 거대언어모델(MLLM)의 기억력과 추론 능력을 평가하는 새로운 벤치마크인 RNG-Bench(Reconstructive Non-Markov Games)를 공개했습니다.

주장기존의 인공지능 평가 도구는 모델이 이미 전체 상태를 알고 있거나, 게임이 끝난 뒤에만 기억력을 측정하는 한계를 지닙니다. 연구진은 모델이 과거의 관측을 잠재 공간(Latent Space, 데이터의 핵심 특징을 압축하여 표현하는 고차원 공간)에 저장하고 이를 현재 행동에 반영하는 능력을 정밀하게 측정하고자 이 벤치마크를 설계했습니다.

팩트RNG-Bench는 카드 짝 맞추기 게임과 3차원 미로 탐색 게임으로 구성됩니다. 카드 게임은 특정 위치의 정보를 기억하는 능력을, 미로 게임은 시각 정보를 공간 지도로 통합하는 능력을 각각 평가합니다.

팩트연구진은 격자 크기, 시각적 패턴, 관측 양식이라는 세 가지 통제된 난이도 축을 도입했습니다. 이를 통해 모델의 성능 변화를 객관적으로 분석할 수 있는 환경을 구축했습니다.

교차검증본 논문은 아카이브(arxiv)에 공개된 선공개 논문으로, 아직 학계의 공식적인 동료 평가(Peer Review) 과정을 거치지 않았습니다. 따라서 연구 결과의 학술적 타당성은 추후 검증이 필요합니다.

팩트가장 높은 난이도의 환경에서는 에피소드당 약 12만 8천 개의 토큰(Token, 언어 모델이 처리하는 최소 단위)과 350개의 이미지 입력을 처리해야 합니다. 현재 최첨단 다중모달 모델들도 이러한 고난도 환경에서는 여전히 낮은 성능을 보입니다.

주장연구진은 모델의 성능 저하 원인을 분석하기 위해 메모리 갭(Memory Gap) 지표를 도입했습니다. 이 지표는 모델이 과거 정보를 잊어버리는 문제와 의사결정 자체의 오류를 명확히 구분합니다.

팩트분석 결과, 모델의 오류 대부분은 의사결정 과정의 미숙함보다는 과거 관측 정보를 제대로 유지하지 못하는 망각 현상에서 비롯된다는 사실을 확인했습니다.

교차검증본 연구가 제안한 벤치마크는 특정 게임 환경에 최적화되어 있어, 실제 현실 세계의 복잡하고 비정형화된 데이터 환경에서도 동일한 성능 평가가 가능한지에 대한 일반화 가능성(Generalizability)은 추가적인 검증이 요구됩니다.

팩트연구진은 Qwen3.5-9B 모델을 최적의 정책 데이터로 미세 조정(Fine-tuning, 특정 목적에 맞게 모델을 추가 학습하는 기법)했습니다. 그 결과 RNG-Bench 성능이 향상되었으며, 기존의 다른 벤치마크에서도 일반적인 다중모달 능력을 훼손하지 않고 성능을 유지했습니다.

주장이번 연구는 인공지능이 현재 눈앞의 정보에만 의존하지 않고, 과거의 경험을 토대로 미래를 예측하고 행동하는 능력을 갖추는 데 중요한 이정표가 될 전망입니다.

출처arxiv의 선공개 논문(https://arxiv.org/abs/2606.19338)을 참고했습니다.

주제

LLM

관련 콘텐츠

← 목록으로 돌아가기

본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

스팟

WIRE

글로벌 인텔리전스

전체보기 →

TELEGRAM · Clash Report

Argentina's President Javier Milei on Europe: They faced a demographic and pension problem, they opened the door through multiculturalism, and then people came in. We don't have a problem with immigration. In fact, Argentina is a country built by immigrants. If you have a welfare state, people can come to take advantage of benefits paid for by Argentine taxpayers. If those who arrive don't adapt to your culture, then it isn't immigration anymore—it's an invasion.

2시간 전

TELEGRAM · Clash Report

Two tankers carrying 3 million barrels of Saudi crude successfully exited the Red Sea over the weekend despite the Houthis' maritime embargo. However, shipping through both the Bab el-Mandeb and Strait of Hormuz slowed as tanker attacks continued, with some vessels rerouting around Africa or switching off their tracking systems. Source: Reuters

2시간 전

TELEGRAM · Clash Report

European Commission President Ursula von der Leyen said the EU "must do more" to strengthen its borders, telling Spanish Prime Minister Pedro Sánchez that Brussels would continue supporting Spain in tackling illegal migration. "We could enhance border management early-warning systems and improve our technical and financial support to Morocco," she wrote, referring to cooperation on Ceuta and Melilla. Source: Reuters

2시간 전

본 페이지의 정보는 공개 채널을 통해 자동 수집되는 정보로 정보의 정확성·완전성을 보장하지 않으며, Wittgenhaus의 공식 입장이 아닙니다. 이를 근거로 한 판단과 행위의 결과에 Wittgenhaus는 책임을 지지 않습니다.

버블 지표

상세보기 →

많이 본 콘텐츠

우크라이나 드론 공격에 따른 러시아 민간인 8명 사망

국제21시간 전

로보택시 산업의 규제 갈등과 글로벌 시장 동향

AI21시간 전

영국 중앙은행, EDMC 신임 의장단 선임

경제6시간 전

수면 데이터 기반 질병 위험 예측 파운데이션 모델 개발

AI6시간 전

샘 올트먼의 인공지능 개발 속도 조절론과 보안 체계 강화

AI12시간 전

릴리즈 & 논문

전체보기 →

RELEASES

TensorRTv1.3.0rc23

v1.3.0rc23 릴리즈

이번 릴리즈에서는 DeepSeek V4 혼합 정밀도 NVFP4 체크포인트 로딩, Gemma4 K=V 레이어 W4A8 체크포인트 로딩 지원 등 모델 지원이 강화되었습니다. 또한, VisualGen 모델에 대한 비대칭 TP 선형 구현, 멀티 프로세스 HTTP 프론트엔드 지원 등 API 개선이 이루어졌습니다. GPT-OSS 및 GLM-5의 Python KV-캐시 트랜시버 기본값 설정, MiniMax-M3 MSA 희소 어텐션 백엔드 추가 등 다양한 기능이 추가되었으며, 여러 버그 수정 및 성능 최적화가 포함되었습니다.

2일 전

OpenAIv2.52.0

v2.52.0

이번 릴리즈에서는 API에 콘텐츠 출처 확인 기능이 추가되었습니다. 또한, 클라이언트에서 Retry-After 지연 시간을 최대 2분까지 지원하도록 수정되었으며, API 키 mTLS HTTP 클라이언트 레시피 관련 문서가 업데이트되었습니다.

3일 전

OpenAIv2.51.0

v2.51.0

이번 릴리즈에서는 API에 fast tier 기능이 추가되었습니다. 또한, 해당 fast tier 기능이 헬퍼 메서드에도 적용되었습니다.

3일 전

LangChainlangchain-core==1.5.3

langchain-core==1.5.3

langchain-core 1.5.3 릴리즈에서는 게이트웨이에서 `LANGSMITH_API_KEY`를 사용하도록 폴백(fallback)하는 수정 사항이 포함되었습니다.