MARKETS
KOSPI
KOSDAQ
S&P 500
NASDAQ
USD/KRW
BTC
NIKKEI
WTI
KOSPI
KOSDAQ
S&P 500
NASDAQ
USD/KRW
BTC
NIKKEI
WTI
Wittgenhaus

2026년 5월 4일 월요일

전문가의 AI 하이브리드 리서치 랩

AI검증

랭체인, 에이전트 성능 개선 위한 베터 하니스 공개

랭체인이 에이전트의 일반화 성능을 높이기 위해 평가 데이터를 학습 신호로 활용하는 베터 하니스 시스템을 발표했습니다. 데이터 소싱부터 인간 검토까지 이어지는 체계적인 최적화 루프를 통해 에이전트의 실질적인 문제 해결 능력을 강화합니다.

2026년 4월 8일

주장랭체인은 인공지능 에이전트의 성능을 높이기 위해 평가 데이터인 이벌스(Evals)를 학습 신호로 활용하는 베터 하니스(Better-Harness) 시스템을 제안합니다. 이는 에이전트가 특정 데이터에만 반응하지 않고 실제 환경에서 일반화된 성능을 발휘하도록 돕는 복합 시스템 엔지니어링 방식입니다.

팩트베터 하니스는 평가 데이터를 에이전트의 학습 데이터로 간주하여, 에이전트가 올바른 행동을 수행했는지 여부를 신호로 삼아 하니스를 수정합니다. 이 과정은 데이터 소싱, 실험 설계, 최적화, 검토 및 승인의 단계로 구성됩니다.

팩트평가 데이터는 직접 작성한 데이터, 실제 운영 환경의 트레이스(Trace), 외부 데이터셋 등 세 가지 경로로 수집됩니다. 모든 평가 데이터에는 행동 카테고리 태그를 부착하여 타겟팅된 실험과 비용 효율적인 테스트를 수행합니다.

교차검증에이전트 학습 시스템은 기존 평가 데이터에만 과도하게 맞춰지는 과적합(Overfitting) 문제에 취약합니다. 랭체인은 데이터를 최적화 세트와 홀드아웃 세트로 분리하여 보지 못한 데이터에서도 성능이 유지되는지 검증합니다.

팩트랭체인은 스탠포드의 메타 하니스(Meta-Harness) 및 딥마인드의 오토 하니스(Auto-Harness) 연구 흐름을 참고했습니다. 이들은 하니스 개선 루프를 통해 터미널 벤치 2.0의 성능을 향상시키는 등 하니스 계층 최적화의 중요성을 강조합니다.

주장품질이 낮은 대규모 데이터보다 잘 태깅된 소규모 평가 데이터 세트가 에이전트의 일반화 성능 향상에 더 효과적입니다. 에이전트가 보상 해킹을 통해 평가 점수만 높이는 상황을 방지하려면 인간의 검토를 병행해야 합니다.

팩트베터 하니스의 최적화 루프는 진단, 실험, 검증, 인간 검토의 단계를 거칩니다. 각 단계에서 에이전트는 성능 저하를 방지하면서 새로운 평가 데이터를 통과할 수 있도록 프롬프트나 도구 설명을 수정합니다.

팩트실제 적용 사례로 클로드 소넷 3.5와 지아이(Z.ai)의 지엘엠(GLM)-5 모델을 사용하여 평가 데이터의 일부를 테스트했습니다. 랭체인은 앞으로 다양한 모델에 대한 프로필을 공개하여 각 모델이 특정 평가 데이터에 어떻게 최적화되는지 공유할 계획입니다.

교차검증자동화된 최적화 과정에서 인간의 검토는 필수적인 안전장치입니다. 인간은 자동화 시스템이 놓칠 수 있는 에지 케이스를 확인하고, 최적화 세트에 과적합된 불필요한 토큰 낭비를 방지합니다.

출처랭체인 공식 블로그(https://blog.langchain.com/better-harness-a-recipe-for-harness-hill-climbing-with-evals/)를 교차 검증했습니다.

본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

WIRE

WIRE

버블 지표

상세보기 →

릴리즈 & 논문

전체보기 →

RELEASES

LangChainlangchain-anthropic==1.4.3

langchain-anthropic==1.4.3

이번 릴리즈에서는 Anthropic 관련 기능이 1.4.3 버전으로 업데이트되었습니다. 또한, `create_agent`로의 이전 경고 대상 재지정 및 기타 내부 정리 작업이 포함되었습니다. 문서의 X 핸들 참조 업데이트와 Anthropic 관련 HTTPX 최종 처리기 보호 기능도 개선되었습니다.

17시간 전

LangChainlangchain-classic==1.0.5

langchain-classic==1.0.5

langchain-classic 1.0.5 릴리즈에서는 `create_agent`로의 마이그레이션을 위한 경고 메시지 수정 및 기타 정리 작업이 포함되었습니다. 또한, 일부 의존성 버전이 업데이트되었으며, 코어 라이브러리의 최소 버전이 상향 조정되었습니다.

17시간 전

vLLMv0.20.1

vLLM v0.20.1

이번 릴리즈는 v0.20.0 버전을 기반으로 하며, DeepSeek V4의 안정성 및 성능 개선에 중점을 두었습니다. 또한 여러 중요한 버그 수정이 포함되었습니다. 주요 변경 사항으로는 DeepSeek V4 모델 지원, 성능 향상을 위한 다양한 최적화, 그리고 CUDA 그래프 및 메모리 관련 버그 수정 등이 있습니다.

1일 전

LangChainlangchain-openrouter==0.2.3

langchain-openrouter==0.2.3

langchain-openrouter 0.2.3 버전이 출시되었습니다. 스트리밍 시 분할된 `reasoning_details`를 병합하는 버그가 수정되었습니다.

2일 전

LangChainlangchain-mistralai==1.1.3

langchain-mistralai==1.1.3

이번 릴리즈에서는 MistralAI 통합에 대한 기능 개선 및 버그 수정이 포함되었습니다. 주요 변경 사항으로는 휴먼 메시지에 대한 이미지 입력 지원 추가, 모델 프로필 데이터 업데이트, 그리고 `langchain-core`의 최소 버전이 `1.2.21`로 상향 조정되었습니다. 또한, 여러 의존성 패키지가 최신 버전으로 업데이트되었습니다.

2일 전

PAPERS