AI미검

VAKRA 벤치마크의 AI 에이전트 추론 및 도구 활용 평가 체계 도입

VAKRA는 기업 환경에서 AI 에이전트의 복합적인 업무 수행 능력을 측정하기 위해 설계된 벤치마크입니다. 62개 도메인과 8,000개 이상의 API를 활용해 에이전트의 다단계 추론과 도구 사용 역량을 검증합니다.

2026년 4월 16일

주장VAKRA는 기존의 단편적인 기술 테스트를 넘어 기업 환경과 유사한 복잡한 다단계 워크플로우에서 AI 에이전트가 안정적으로 추론하고 행동하는지 평가합니다. 이는 실제 비즈니스 환경에서 인공지능의 실질적인 활용 가능성을 검증하는 핵심 지표가 됩니다.

팩트VAKRA 벤치마크는 62개 도메인에 걸쳐 8,000개 이상의 로컬 호스팅 API와 연동된 데이터베이스를 제공합니다. 각 작업은 3단계에서 7단계에 이르는 추론 체인을 요구하며 구조화된 API 상호작용과 비구조화된 문서 검색을 결합합니다.

팩트API 체이닝 평가 기능은 54개 도메인에서 2,077개의 테스트 인스턴스를 포함합니다. 에이전트는 1개에서 12개의 도구 호출을 연결해 최종 답변을 도출하며 데이터 전송 효율을 위해 서버 측에서 데이터를 처리합니다.

팩트대시보드 API 도구 선택 기능은 17개 도메인에서 1,597개의 인스턴스를 다룹니다. REST-BIRD 컬렉션을 사용하며 도메인당 평균 116개의 도구를 제공해 에이전트의 적절한 도구 선별 능력을 측정합니다.

팩트오픈에이아이(OpenAI) API 사양은 도구 목록 입력을 최대 128개로 제한합니다. 이로 인해 에이전트 개발자는 도구 목록의 길이를 관리하는 별도의 단축 목록 메커니즘을 구현해야 하는 기술적 제약을 갖습니다.

팩트다중 홉 추론 기능은 38개 도메인에서 869개의 테스트 인스턴스를 포함합니다. 이는 여러 증거를 추출하고 결합하는 1개에서 5개의 논리적 단계를 요구해 복합적인 정보 처리 능력을 평가합니다.

팩트다중 소스 추론 및 정책 준수 평가 기능은 41개 도메인에서 644개의 인스턴스를 제공합니다. 여기에는 API 호출과 검색 증강 생성(RAG)을 혼합해 수행해야 하는 복잡한 작업이 포함됩니다.

팩트이 벤치마크는 다중 턴 대화와 도구 사용 정책 준수 여부도 평가 항목에 포함합니다. 에이전트는 대화 이력을 유지하면서 주어진 정책에 따라 도구를 사용하는 고난도의 제약 조건을 해결해야 합니다.

교차검증현재 대부분의 AI 모델은 VAKRA 벤치마크에서 낮은 성능을 보입니다. 이는 복잡한 도구 사용과 다단계 추론이 결합된 환경에서 에이전트가 여전히 상당한 오류를 나타냄을 시사합니다.

교차검증데이터 생성 과정에서 정보 소스를 오염 제거하여 특정 단계에 필요한 정보가 오직 하나의 소스에서만 나오도록 설계했습니다. 이는 에이전트가 추론 과정에서 정보를 혼동하지 않고 정확한 소스를 선택하는지 엄격하게 평가하기 위함임을 허깅페이스(Hugging Face) 공식 블로그를 통해 교차 검증했습니다.

출처https://huggingface.co/blog/ibm-research/vakra-benchmark-analysis (IBM Research, 2026년 4월 15일 발행)을 교차 검증했습니다.

← 목록으로 돌아가기

본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

스팟

WIRE

글로벌 인텔리전스

전체보기 →

TELEGRAM · Clash Report

Al Jazeera cameraman Ahmed Wishah was killed in an Israeli air strike on a house in the Bureij refugee camp in central Gaza. At least 10 people were killed in Israeli attacks across Gaza on the same day. The Israeli military said, without providing evidence, that he was a "Hamas operative."

4시간 전

TELEGRAM · Clash Report

Trump: There will be NO TOLLS in the Hormuz Strait for 60 days during the Cease Fire Period, and there will be NO TOLLS after the 60 day period has expired, unless they are imposed by and for the United States of America, should the deal not be completed, for services rendered as the Guardian Angel to the countries of the Middle East for purposes of both past, present, and future reimbursement of costs. Thank you for your attention to this matter!!!

4시간 전

TELEGRAM · Clash Report

Tucker Carlson on Iran: They've been talking about this war, as Netanyahu himself said, for 30 odd years. And Trump is the first American president who actually did it. He fell for it. They lured him into the trap and he just jumped. Trump understands how shafted he got. He understands just how fooled he was. And he's clearly bitter about it. And he understands further that in order to get out of this, he needs to make this deal, bad as it may be, because there's no option.

4시간 전

본 페이지의 정보는 공개 채널을 통해 자동 수집되는 정보로 정보의 정확성·완전성을 보장하지 않으며, Wittgenhaus의 공식 입장이 아닙니다. 이를 근거로 한 판단과 행위의 결과에 Wittgenhaus는 책임을 지지 않습니다.

버블 지표

상세보기 →

많이 본 콘텐츠

단백질 설계 오픈소스 생태계 오보(Ovo) 공개

AI21시간 전

콘텐츠 마케팅 성장을 저해하는 과거 프레임워크 탈피

마케팅10시간 전

챗GPT, 예약 작업 관리 기능 도입 및 서비스 고도화

AI16시간 전

인 더 웨이츠: AI 모델 기반 인물 인지도 측정 서비스

AI3시간 전

이란, 미국에 레바논 휴전 이행 및 이스라엘 통제 촉구

국제21시간 전

릴리즈 & 논문

전체보기 →

RELEASES

LangChainlangchain==1.3.10

langchain==1.3.10

langchain 1.3.10 릴리즈에서는 cryptography, aiohttp, pyjwt 라이브러리 버전이 업데이트되었습니다. 또한, 요약 형식 변경 및 특정 스냅샷에 대한 프로바이더 전략 감지 기능이 수정되었습니다. README 설치 및 리소스 문서도 갱신되었습니다.

2일 전

LangChainlangchain-core==1.4.8

langchain-core==1.4.8

이번 릴리즈에서는 Python 3.10 미만 버전에 대한 코드가 제거되었으며, `BaseTool.tool_call_schema` 및 `model_json_schema`에 대한 성능 개선이 이루어졌습니다. 또한, v3 스트리밍 이벤트에서 사용 토큰 세부 정보가 보존되고, 명시적 역직렬화 허용 목록에 대한 테스트가 업데이트되었습니다.

2일 전

Anthropicv0.111.0

v0.111.0

이번 릴리즈에서는 refusal-fallback 미들웨어 요청에 fallback-refusal-middleware 태그를 추가하는 기능이 포함되었습니다. 자세한 변경 사항은 전체 변경 로그를 참조하시기 바랍니다.

2일 전

Anthropicv0.110.0

v0.110.0

이번 릴리즈에서는 새로운 code_execution_20260120 도구에 대한 지원이 추가되었습니다. 또한, 헤더 병합 시 x-stainless-helper가 덮어쓰이는 대신 추가되도록 수정되었으며, 스트림 이벤트 유형이 보존되도록 개선되었습니다.

2일 전

OpenAIv2.43.0

v2.43.0

OpenAI Python 라이브러리가 v2.43.0 버전으로 업데이트되었습니다. 이번 릴리즈에서는 API 관련 변경 사항으로 OpenAPI 사양 또는 Stainless 설정을 업데이트했습니다.