AI검증

랭체인, 에이전트 성능 개선 위한 베터 하니스 공개

랭체인이 에이전트의 일반화 성능을 높이기 위해 평가 데이터를 학습 신호로 활용하는 베터 하니스 시스템을 발표했습니다. 데이터 소싱부터 인간 검토까지 이어지는 체계적인 최적화 루프를 통해 에이전트의 실질적인 문제 해결 능력을 강화합니다.

2026년 4월 8일

주장랭체인은 인공지능 에이전트의 성능을 높이기 위해 평가 데이터인 이벌스(Evals)를 학습 신호로 활용하는 베터 하니스(Better-Harness) 시스템을 제안합니다. 이는 에이전트가 특정 데이터에만 반응하지 않고 실제 환경에서 일반화된 성능을 발휘하도록 돕는 복합 시스템 엔지니어링 방식입니다.

팩트베터 하니스는 평가 데이터를 에이전트의 학습 데이터로 간주하여, 에이전트가 올바른 행동을 수행했는지 여부를 신호로 삼아 하니스를 수정합니다. 이 과정은 데이터 소싱, 실험 설계, 최적화, 검토 및 승인의 단계로 구성됩니다.

팩트평가 데이터는 직접 작성한 데이터, 실제 운영 환경의 트레이스(Trace), 외부 데이터셋 등 세 가지 경로로 수집됩니다. 모든 평가 데이터에는 행동 카테고리 태그를 부착하여 타겟팅된 실험과 비용 효율적인 테스트를 수행합니다.

교차검증에이전트 학습 시스템은 기존 평가 데이터에만 과도하게 맞춰지는 과적합(Overfitting) 문제에 취약합니다. 랭체인은 데이터를 최적화 세트와 홀드아웃 세트로 분리하여 보지 못한 데이터에서도 성능이 유지되는지 검증합니다.

팩트랭체인은 스탠포드의 메타 하니스(Meta-Harness) 및 딥마인드의 오토 하니스(Auto-Harness) 연구 흐름을 참고했습니다. 이들은 하니스 개선 루프를 통해 터미널 벤치 2.0의 성능을 향상시키는 등 하니스 계층 최적화의 중요성을 강조합니다.

주장품질이 낮은 대규모 데이터보다 잘 태깅된 소규모 평가 데이터 세트가 에이전트의 일반화 성능 향상에 더 효과적입니다. 에이전트가 보상 해킹을 통해 평가 점수만 높이는 상황을 방지하려면 인간의 검토를 병행해야 합니다.

팩트베터 하니스의 최적화 루프는 진단, 실험, 검증, 인간 검토의 단계를 거칩니다. 각 단계에서 에이전트는 성능 저하를 방지하면서 새로운 평가 데이터를 통과할 수 있도록 프롬프트나 도구 설명을 수정합니다.

팩트실제 적용 사례로 클로드 소넷 3.5와 지아이(Z.ai)의 지엘엠(GLM)-5 모델을 사용하여 평가 데이터의 일부를 테스트했습니다. 랭체인은 앞으로 다양한 모델에 대한 프로필을 공개하여 각 모델이 특정 평가 데이터에 어떻게 최적화되는지 공유할 계획입니다.

교차검증자동화된 최적화 과정에서 인간의 검토는 필수적인 안전장치입니다. 인간은 자동화 시스템이 놓칠 수 있는 에지 케이스를 확인하고, 최적화 세트에 과적합된 불필요한 토큰 낭비를 방지합니다.

출처랭체인 공식 블로그(https://blog.langchain.com/better-harness-a-recipe-for-harness-hill-climbing-with-evals/)를 교차 검증했습니다.

← 목록으로 돌아가기

본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

스팟

WIRE

글로벌 인텔리전스

전체보기 →

TELEGRAM · Clash Report

Israeli Opposition Leader Yair Lapid: Like most Israelis, I supported the war against Iran. But it is impossible to support the way it was managed. Netanyahu promised us a historic victory. Instead, we got a crisis with the Americans, the Strait of Hormuz open to Iran, money flowing to the IRGC, ballistic missiles aimed at Israel, Hezbollah still part of the equation, and Israel waiting in the hallway like a scolded child.

1시간 전

TELEGRAM · Clash Report

Israeli Opposition Leader Yair Lapid attacks Netanyahu: Netanyahu failed even at the easiest public diplomacy task imaginable—a democracy defending itself against a violent, radical, antisemitic Islamic dictatorship that arms terrorist organizations throughout the Middle East. How did you manage to fail to explain even this war to the world?

1시간 전

TELEGRAM · Clash Report

Israeli Opposition Leader Yair Lapid on Iran: Netanyahu sold the Americans a scenario in which the regime would fall. He did not present them with the risks: not the impact on energy markets, not the issue of Hormuz, not Lebanon, and above all not the fact that he did not actually know how to bring down the regime. And when that scenario failed to materialize, he lost their trust in the middle of the war.

1시간 전

본 페이지의 정보는 공개 채널을 통해 자동 수집되는 정보로 정보의 정확성·완전성을 보장하지 않으며, Wittgenhaus의 공식 입장이 아닙니다. 이를 근거로 한 판단과 행위의 결과에 Wittgenhaus는 책임을 지지 않습니다.

버블 지표

상세보기 →

많이 본 콘텐츠

아우라, 전자잉크 적용 디지털 액자 잉크 출시

AI12시간 전

구글, 생성형 AI 스팸 탐지 기술 S-CTS 도입

AI22시간 전

릴라이언스 인더스트리, 인도 AI 시장 주도권 확보 전략

AI19시간 전

단백질 설계 오픈소스 생태계 오보(Ovo) 공개

AI6시간 전

챗GPT, 예약 작업 관리 기능 도입 및 서비스 고도화

AI1시간 전

릴리즈 & 논문

전체보기 →

RELEASES

LangChainlangchain==1.3.10

langchain==1.3.10

langchain 1.3.10 릴리즈에서는 cryptography, aiohttp, pyjwt 라이브러리 버전이 업데이트되었습니다. 또한, 요약 형식 변경 및 특정 스냅샷에 대한 프로바이더 전략 감지 기능이 수정되었습니다. README 설치 및 리소스 문서도 갱신되었습니다.

1일 전

LangChainlangchain-core==1.4.8

langchain-core==1.4.8

이번 릴리즈에서는 Python 3.10 미만 버전에 대한 코드가 제거되었으며, `BaseTool.tool_call_schema` 및 `model_json_schema`에 대한 성능 개선이 이루어졌습니다. 또한, v3 스트리밍 이벤트에서 사용 토큰 세부 정보가 보존되고, 명시적 역직렬화 허용 목록에 대한 테스트가 업데이트되었습니다.

1일 전

Anthropicv0.111.0

v0.111.0

이번 릴리즈에서는 refusal-fallback 미들웨어 요청에 fallback-refusal-middleware 태그를 추가하는 기능이 포함되었습니다. 자세한 변경 사항은 전체 변경 로그를 참조하시기 바랍니다.

1일 전

Anthropicv0.110.0

v0.110.0

이번 릴리즈에서는 새로운 code_execution_20260120 도구에 대한 지원이 추가되었습니다. 또한, 헤더 병합 시 x-stainless-helper가 덮어쓰이는 대신 추가되도록 수정되었으며, 스트림 이벤트 유형이 보존되도록 개선되었습니다.

1일 전

OpenAIv2.43.0

v2.43.0

OpenAI Python 라이브러리가 v2.43.0 버전으로 업데이트되었습니다. 이번 릴리즈에서는 API 관련 변경 사항으로 OpenAPI 사양 또는 Stainless 설정을 업데이트했습니다.