AI미검

장기 기억 LLM 에이전트 성능 평가 플랫폼 '에이전틱STS' 공개

상하이 AI 연구소 등 공동 연구진이 거대언어모델(LLM) 에이전트의 장기 기억 성능을 정밀하게 측정하는 새로운 테스트베드 '에이전틱STS'를 개발했습니다. 이 플랫폼은 복잡한 게임 환경을 통해 에이전트의 의사결정 과정을 체계적으로 분석합니다.

2026년 7월 3일

팩트상하이 AI 연구소(Shanghai AI Lab)와 홍콩 중문대학교 등 공동 연구진이 장기 기억 LLM 에이전트의 성능을 검증하는 테스트베드인 '에이전틱STS(AgenticSTS)'를 발표했습니다.

주장기존 LLM 에이전트는 과거의 모든 정보를 프롬프트에 무작위로 나열하는 방식을 사용해 성능 측정에 한계가 있었습니다. 연구진은 이를 해결하기 위해 필요한 정보만 선별적으로 호출하는 '제한적 메모리 계약(Bounded-Memory Contract)' 방식을 도입했습니다.

팩트이 방식은 모든 의사결정 단계에서 과거의 원시 데이터를 전부 포함하지 않고, 유형별로 검색된 정보만을 활용합니다. 덕분에 프롬프트의 길이를 일정하게 유지하면서 특정 기억 요소가 에이전트의 판단에 미치는 영향을 독립적으로 분석할 수 있습니다.

팩트연구진은 이 플랫폼을 검증하기 위해 복잡한 전략 게임인 '슬레이 더 스파이어 2(Slay the Spire 2)'를 활용했습니다. 이 게임은 수백 번의 전술적 결정을 요구하며, 인간의 승률은 최저 난이도 기준 약 16%에 불과할 정도로 난도가 높습니다.

팩트기존 LLM 모델들은 동일한 게임 환경에서 최저 난이도조차 승리하지 못하는 결과를 보였습니다. 이는 현재의 LLM 에이전트가 장기적인 전략 수립에 상당한 어려움을 겪고 있음을 시사합니다.

주장연구진은 에이전트의 기억 구조를 분리해 분석한 결과, 특정 전략 기술을 활성화했을 때 에이전트의 승률이 유의미하게 개선되는 점을 확인했습니다. 이는 에이전트 설계에서 기억 계층의 구조화가 핵심임을 보여줍니다.

교차검증본 연구는 아카이브(arXiv)에 공개된 선공개 논문으로, 아직 학계의 공식적인 동료 평가(Peer Review) 과정을 거치지 않았습니다. 따라서 연구 결과의 학술적 엄밀함은 향후 검증이 필요합니다.

교차검증또한, 이번 실험은 특정 게임 환경에 국한되어 진행되었습니다. 따라서 다른 복잡한 실제 업무 환경이나 다양한 분야로 연구 결과를 일반화하기에는 데이터의 다양성과 범용성 측면에서 한계가 존재합니다.

팩트연구진은 총 298개의 완성된 에이전트 궤적 데이터와 메모리 스냅샷, 분석 스크립트를 포함한 테스트베드를 공개했습니다. 이는 에이전트 설계 연구의 재현성을 높이는 데 기여할 전망입니다.

주장이번 연구는 단순히 모델의 성능을 측정하는 것을 넘어, 명시적인 기억 계층이 에이전트의 장기적인 의사결정에 어떤 영향을 미치는지 규명하는 새로운 방법론을 제시합니다.

팩트연구진은 향후 다양한 LLM 모델을 대상으로 이 테스트베드를 적용해 에이전트의 지능을 고도화하는 연구를 지속할 계획입니다.

출처arxiv의 선공개 논문(https://arxiv.org/abs/2607.02255)을 참고했습니다.

← 목록으로 돌아가기

본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

스팟

WIRE

글로벌 인텔리전스

전체보기 →

TELEGRAM · Clash Report

Sami Hamdi | Geopolitical Analyst | The International Interest:   Palestine has a long history of Muslims, Jews, and Christians living side by side. Zionism ruined it by expelling Muslims & Christians. Today, Israel operates as an apartheid state, mirroring America's Jim Crow laws with segregated infrastructure. Israel's greatest fear is not a military conquest of Tel Aviv. Its greatest fear is equality of all Palestinians. If forced into a one-state solution with equal voting r

3시간 전

TELEGRAM · Clash Report

WATCH: Iran’s Ghalibaf cries during the farewell ceremony of late Supreme Leader Ali Khamenei.

3시간 전

TELEGRAM · Clash Report

Sami Hamdi | Geopolitical Analyst | The International Interest:   Iran has emerged stronger by exposing the limitations of US power that are now driving a schism between the US and Israel. Its regional proxies, like Hezbollah and the Houthis, have been preserved. Gulf states that once hoped the US and Israel would defeat Iran are now quietly going to Tehran to negotiate their own safety. Iran has proved it can squeeze the global economy through the Strait of Hormuz, even without weaponizing

3시간 전

본 페이지의 정보는 공개 채널을 통해 자동 수집되는 정보로 정보의 정확성·완전성을 보장하지 않으며, Wittgenhaus의 공식 입장이 아닙니다. 이를 근거로 한 판단과 행위의 결과에 Wittgenhaus는 책임을 지지 않습니다.

버블 지표

상세보기 →

많이 본 콘텐츠

피드먼트 헬스케어의 환자 신뢰 구축을 위한 마케팅 전략

마케팅17시간 전

클라우드플레어 AI 크롤러 제어 정책 도입과 검색 엔진 영향

마케팅12시간 전

범암 면역항암제 반응 예측 AI 모델 컴퍼스 개발

AI7시간 전

AI 산업의 지속 가능한 성장을 위한 경쟁과 협력 전략

AI17시간 전

앤스로픽, 클로드 코드 시스템 프롬프트 80퍼센트 축소

AI17시간 전

릴리즈 & 논문

전체보기 →

RELEASES

Transformersv5.13.0

릴리즈 v5.13.0

이번 릴리즈에서는 KimiK 2.5, 2.6, 2.7 모델과 MiMo-V2-Flash 모델, 그리고 NVIDIA의 Nemotron 3.5 ASR 모델이 추가되었습니다. KimiK 모델은 장기 코딩, 코딩 기반 디자인, 자율 실행 등에서 향상된 기능을 제공하며, MiMo-V2-Flash는 긴 컨텍스트 처리 능력과 추론 효율성 사이의 균형을 맞춘 모델입니다. Nemotron 3.5 ASR은 스트리밍 및 배치 환경 모두에서 고품질 다국어 음성 인식을 지원합니다.

6시간 전

Anthropicv0.116.0

v0.116.0

이번 릴리즈에서는 `agent-memory-2026-07-22` 베타 API 헤더가 추가되었습니다. 이 변경 사항은 새로운 기능과 관련된 API 지원을 확장합니다.

1일 전

Anthropicv0.115.1

0.115.1 (20260701) Full Changelog: v0.115.0...v0.115.1(https://github.com/anthropics/anthropicsdkpython/compare/v0.115

2일 전

Anthropicv0.115.0

v0.115.0

이번 릴리즈에서는 Managed Agents 이벤트 델타 스트리밍, 에이전트 재정의, 역방향 페이지네이션, Vault 자격 증명 주입 범위 지정, 에이전트 및 배포 웹훅 이벤트에 대한 지원이 추가되었습니다. API 기능이 전반적으로 향상되었습니다.

3일 전