MARKETS
KOSPI
KOSDAQ
S&P 500
NASDAQ
USD/KRW
BTC
NIKKEI
WTI
KOSPI
KOSDAQ
S&P 500
NASDAQ
USD/KRW
BTC
NIKKEI
WTI
Wittgenhaus

2026년 6월 12일 금요일

AI 시대, 당신을 더욱 스마트하게

AI검증

AI 에이전트 성능 검증을 위한 Agent-EvalKit 도입

AI 에이전트의 복잡한 실행 경로를 체계적으로 평가하는 오픈소스 툴킷인 Agent-EvalKit이 공개되었습니다. 이 도구는 개발 생애주기 전반에 걸쳐 에이전트의 도구 사용 적절성과 코드 개선안을 제시합니다.

2026년 6월 11일

주장AI 에이전트는 단순한 출력값 확인만으로는 성능을 완전히 검증할 수 없습니다. 에이전트가 도구를 호출하고 데이터를 처리하는 전체 실행 경로를 추적해야만 숨겨진 오류를 발견할 수 있습니다.

팩트Agent-EvalKit은 아파치 2.0 라이선스로 배포되는 오픈소스 툴킷입니다. 이 도구는 클로드 코드, 키로 CLI, 킬로 코드와 같은 AI 코딩 어시스턴트와 통합되어 작동합니다.

교차검증단일 평가 방식으로는 에이전트의 복잡한 성능을 모두 측정하기 어렵습니다. 코드 기반 평가는 빠르지만 유연성이 부족하고, 거대언어모델(LLM) 기반 평가는 정교하지만 비용과 프롬프트 설계의 어려움이 존재합니다.

팩트Agent-EvalKit은 계획, 데이터 생성, 추적, 실행, 평가, 보고라는 6단계 평가 생애주기를 지원합니다. 각 단계는 슬래시 명령어를 통해 개발 환경 내에서 즉시 실행 가능합니다.

주장효과적인 에이전트 평가를 위해서는 대시보드상의 수치 확인을 넘어 구체적인 코드 수정안이 도출되어야 합니다. 평가 결과가 실제 코드의 특정 위치와 연결될 때 개발 생산성이 극대화됩니다.

팩트이 툴킷은 오픈텔레메트리 호환 추적 기능을 사용하여 스트랜즈, 랭그래프, 크루AI 등 주요 프레임워크의 도구 호출 기록을 수집합니다. 수집된 데이터는 에이전트가 도구를 올바르게 사용했는지 검증하는 근거로 활용됩니다.

교차검증기존의 사후 배포 방식 평가 모델은 에이전트의 복잡한 내부 상태를 파악하는 데 한계가 있습니다. Agent-EvalKit은 개발 과정 중에 평가를 통합하여 이러한 격차를 해소합니다.

팩트사용자는 자연어 지시사항으로 평가 목표를 설정합니다. 시스템은 이를 바탕으로 테스트 케이스를 생성하고, 에이전트의 소스 코드를 분석하여 우선순위가 높은 개선 권장 사항을 제공합니다.

주장에이전트의 환각 현상은 도구에서 반환된 빈 결과값을 모델이 제대로 처리하지 못할 때 발생합니다. 따라서 출력값의 정확성뿐만 아니라 도구 사용의 충실도를 평가하는 작업이 필수적입니다.

팩트Agent-EvalKit은 스트랜즈 에이전트 SDK와 아마존 베드록을 사용하여 구축된 여행 연구 에이전트를 사례로 검증되었습니다. 이 사례는 복잡한 에이전트 로직을 체계적으로 평가하는 방법론을 제시합니다.

주장개발자는 이 툴킷을 통해 에이전트의 논리적 오류를 사전에 차단하고 신뢰성 높은 인공지능 서비스를 구축할 수 있습니다. 체계적인 평가 체계는 에이전트의 상용화 가능성을 높이는 핵심 요소입니다.

출처아마존 웹 서비스(AWS)의 머신러닝 블로그 게시물을 통해 해당 내용을 교차 검증했습니다. (https://aws.amazon.com/blogs/machine-learning/evaluate-ai-agents-systematically-with-agent-evalkit/)

본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

스팟

WIRE

버블 지표

상세보기 →

릴리즈 & 논문

전체보기 →

RELEASES

meta-llama/llama-stackv1.1.0

v1.1.0

이번 릴리즈에서는 라이브러리 클라이언트의 요청 빌드 전 헤더 정리, CI 환경에서 테스트 픽스처가 메인 서버 로그를 덮어쓰는 문제 수정, OpenAI 응답 스키마 드리프트 검사기 추가 등 다양한 수정 사항이 포함되었습니다. 또한, 라우터의 헬스 체크 및 벡터 스토어 팬아웃 병렬 처리, 비-OpenAI 모델을 위한 5단계 토크나이저 해석 체인 추가, pgvector에서 psycopg2를 asyncpg로 마이그레이션하는 등의 성능 개선 및 기능 추가가 이루어졌습니다. Anthropic Message Batches API가 추가되었으며, 여러 프로바이더의 비동기 안전성 개선 및 비밀 처리 강화 등 전반적인 안정성 향상에 초점을 맞추었습니다.

10시간 전

LangChainlangchain-core==1.4.6

langchain-core==1.4.6

이번 릴리즈에서는 추적 메타데이터에 패키지 버전 추적 기능이 추가되었습니다. 또한, v1 스트리밍 도구 호출이 정규화되었으며, 타입 체크 설정이 통합되었습니다.

16시간 전

LangChainlangchain-model-profiles==0.0.6

langchain-model-profiles 0.0.6

langchain-model-profiles 0.0.6 버전이 릴리즈되었습니다. 이번 업데이트에서는 모델 프로필에 `text_inputs` 및 `text_outputs` 필드가 추가되었으며, 프로필 생성을 위한 도구가 개선되었습니다. 또한, 여러 종속성이 업데이트되었습니다.

20시간 전

LangChainlangchain-core==1.4.5

langchain-core==1.4.5

langchain-core 1.4.5 릴리즈에서는 스트리밍 시 툴 호출 청크 유효성 검사 기능이 추가되었습니다. 또한, 비동기 트레이서의 동기 컨텍스트에서의 대체 동작 및 구조화된 출력 모델의 대체 동작이 개선되었습니다.

21시간 전

LangChainlangchain-mistralai==1.1.5

langchain-mistralai==1.1.5

MistralAI 라이브러리 1.1.5 버전이 출시되었습니다. 이번 업데이트에서는 MistralAI 통합 테스트의 안정성이 향상되었으며, 의존성 라이브러리들이 업데이트되었습니다. 또한, 코어 라이브러리의 변경 사항이 포함되었습니다.

1일 전

PAPERS