AI검증

랭체인, 에이전트 성능 개선 위한 베터 하니스 공개

랭체인이 에이전트의 일반화 성능을 높이기 위해 평가 데이터를 학습 신호로 활용하는 베터 하니스 시스템을 발표했습니다. 데이터 소싱부터 인간 검토까지 이어지는 체계적인 최적화 루프를 통해 에이전트의 실질적인 문제 해결 능력을 강화합니다.

2026년 4월 8일

주장랭체인은 인공지능 에이전트의 성능을 높이기 위해 평가 데이터인 이벌스(Evals)를 학습 신호로 활용하는 베터 하니스(Better-Harness) 시스템을 제안합니다. 이는 에이전트가 특정 데이터에만 반응하지 않고 실제 환경에서 일반화된 성능을 발휘하도록 돕는 복합 시스템 엔지니어링 방식입니다.

팩트베터 하니스는 평가 데이터를 에이전트의 학습 데이터로 간주하여, 에이전트가 올바른 행동을 수행했는지 여부를 신호로 삼아 하니스를 수정합니다. 이 과정은 데이터 소싱, 실험 설계, 최적화, 검토 및 승인의 단계로 구성됩니다.

팩트평가 데이터는 직접 작성한 데이터, 실제 운영 환경의 트레이스(Trace), 외부 데이터셋 등 세 가지 경로로 수집됩니다. 모든 평가 데이터에는 행동 카테고리 태그를 부착하여 타겟팅된 실험과 비용 효율적인 테스트를 수행합니다.

교차검증에이전트 학습 시스템은 기존 평가 데이터에만 과도하게 맞춰지는 과적합(Overfitting) 문제에 취약합니다. 랭체인은 데이터를 최적화 세트와 홀드아웃 세트로 분리하여 보지 못한 데이터에서도 성능이 유지되는지 검증합니다.

팩트랭체인은 스탠포드의 메타 하니스(Meta-Harness) 및 딥마인드의 오토 하니스(Auto-Harness) 연구 흐름을 참고했습니다. 이들은 하니스 개선 루프를 통해 터미널 벤치 2.0의 성능을 향상시키는 등 하니스 계층 최적화의 중요성을 강조합니다.

주장품질이 낮은 대규모 데이터보다 잘 태깅된 소규모 평가 데이터 세트가 에이전트의 일반화 성능 향상에 더 효과적입니다. 에이전트가 보상 해킹을 통해 평가 점수만 높이는 상황을 방지하려면 인간의 검토를 병행해야 합니다.

팩트베터 하니스의 최적화 루프는 진단, 실험, 검증, 인간 검토의 단계를 거칩니다. 각 단계에서 에이전트는 성능 저하를 방지하면서 새로운 평가 데이터를 통과할 수 있도록 프롬프트나 도구 설명을 수정합니다.

팩트실제 적용 사례로 클로드 소넷 3.5와 지아이(Z.ai)의 지엘엠(GLM)-5 모델을 사용하여 평가 데이터의 일부를 테스트했습니다. 랭체인은 앞으로 다양한 모델에 대한 프로필을 공개하여 각 모델이 특정 평가 데이터에 어떻게 최적화되는지 공유할 계획입니다.

교차검증자동화된 최적화 과정에서 인간의 검토는 필수적인 안전장치입니다. 인간은 자동화 시스템이 놓칠 수 있는 에지 케이스를 확인하고, 최적화 세트에 과적합된 불필요한 토큰 낭비를 방지합니다.

출처랭체인 공식 블로그(https://blog.langchain.com/better-harness-a-recipe-for-harness-hill-climbing-with-evals/)를 교차 검증했습니다.

관련 콘텐츠

← 목록으로 돌아가기

본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

스팟

WIRE

글로벌 인텔리전스

전체보기 →

TELEGRAM · Clash Report

Syrian President Ahmad al-Sharaa: We should never be forced to choose between Israeli ambitions and Iranian ambitions in the region. The region itself must have its own independent policy and its own independent identity.

48분 전

TELEGRAM · Clash Report

Syrian President Ahmad al-Sharaa: In its natural course, a national renaissance takes about 20 to 25 years before its full results become visible. When we talk about Singapore, Rwanda today, Türkiye, or even the Gulf Cooperation Council countries—every country that has achieved this kind of success took time. It took around 20 to 25 years. But that doesn't mean we have to wait 20 years before we see change in Syria. What matters is that the trajectory is upward. Progress should become visibl

48분 전

TELEGRAM · Clash Report

Syrian President Ahmad al-Sharaa: Let's distinguish between the SDF and the Kurdish people. The Kurdish community is a large community spread across Syria; it is not confined to one specific area. A segment of the Kurdish population had been denied Syrian citizenship under the previous regime. This is an old issue that we inherited, but we were determined to resolve it. We issued a decree granting citizenship and nationality rights, and many have already received them. Their cultural rights

48분 전

본 페이지의 정보는 공개 채널을 통해 자동 수집되는 정보로 정보의 정확성·완전성을 보장하지 않으며, Wittgenhaus의 공식 입장이 아닙니다. 이를 근거로 한 판단과 행위의 결과에 Wittgenhaus는 책임을 지지 않습니다.

버블 지표

상세보기 →

많이 본 콘텐츠

루마니아의 러시아 드론 격추 및 외교적 항의

국제7시간 전

먼데이닷컴 등 기술 기업의 인공지능 전환에 따른 대규모 인력 감축

경제23시간 전

오픈에이아이의 허깅페이스 시스템 침해와 투명성 요구

AI7시간 전

앤스로픽 클로드 오퍼스 5의 ARC-AGI-3 벤치마크 신기록 달성

AI13시간 전

오픈에이아이 지피티-5 모델의 생화학 무기 정보 제공 논란

AI13시간 전

릴리즈 & 논문

전체보기 →

RELEASES

vLLMv0.26.0

v0.26.0 릴리즈

이번 릴리즈에서는 Inkling 모델 제품군 지원, DeepSeek-V4 성능 향상, fp32 `lm_head` 지원 추가, 유연한 어텐션 백엔드, KV 오프로딩 및 계층형 보조 스토리지 기능 강화 등 다양한 업데이트가 포함되었습니다. 또한 Rust 프론트엔드 기능 확장 및 Transformers 5.13.0 지원이 추가되었습니다.

1일 전

LangChainlangchain-anthropic==1.5.2

langchain-anthropic==1.5.2

Claude Opus 5 모델 지원이 추가되었습니다. 이번 릴리즈는 이전 버전인 langchain-anthropic==1.5.1 이후의 변경 사항을 포함합니다.

2일 전

Anthropicv0.120.0

v0.120.0

이번 릴리즈에서는 claude-opus-5 모델이 추가되었습니다. 또한, 도구 추가/제거 블록 및 tool_change 이벤트가 지원되며, 클라이언트 측 대체 크레딧 토큰 유형이 확장되고 서버 측 대체 기본 옵션이 추가되었습니다.

2일 전

LangChainlangchain-openai==1.4.1

langchain-openai==1.4.1

이번 릴리즈에서는 LangSmith 게이트웨이를 환경 변수를 통해 지원하도록 기능이 추가되었습니다. 또한 `gpt-5.3-chat-latest` 프로필이 수정되었습니다.