MARKETS
KOSPI
KOSDAQ
S&P 500
NASDAQ
USD/KRW
BTC
NIKKEI
WTI
KOSPI
KOSDAQ
S&P 500
NASDAQ
USD/KRW
BTC
NIKKEI
WTI
Wittgenhaus

2026년 6월 11일 목요일

AI 시대, 당신을 더욱 스마트하게

AI검증

랭체인, 에이전트 성능 개선 위한 베터 하니스 공개

랭체인이 에이전트의 일반화 성능을 높이기 위해 평가 데이터를 학습 신호로 활용하는 베터 하니스 시스템을 발표했습니다. 데이터 소싱부터 인간 검토까지 이어지는 체계적인 최적화 루프를 통해 에이전트의 실질적인 문제 해결 능력을 강화합니다.

2026년 4월 8일

주장랭체인은 인공지능 에이전트의 성능을 높이기 위해 평가 데이터인 이벌스(Evals)를 학습 신호로 활용하는 베터 하니스(Better-Harness) 시스템을 제안합니다. 이는 에이전트가 특정 데이터에만 반응하지 않고 실제 환경에서 일반화된 성능을 발휘하도록 돕는 복합 시스템 엔지니어링 방식입니다.

팩트베터 하니스는 평가 데이터를 에이전트의 학습 데이터로 간주하여, 에이전트가 올바른 행동을 수행했는지 여부를 신호로 삼아 하니스를 수정합니다. 이 과정은 데이터 소싱, 실험 설계, 최적화, 검토 및 승인의 단계로 구성됩니다.

팩트평가 데이터는 직접 작성한 데이터, 실제 운영 환경의 트레이스(Trace), 외부 데이터셋 등 세 가지 경로로 수집됩니다. 모든 평가 데이터에는 행동 카테고리 태그를 부착하여 타겟팅된 실험과 비용 효율적인 테스트를 수행합니다.

교차검증에이전트 학습 시스템은 기존 평가 데이터에만 과도하게 맞춰지는 과적합(Overfitting) 문제에 취약합니다. 랭체인은 데이터를 최적화 세트와 홀드아웃 세트로 분리하여 보지 못한 데이터에서도 성능이 유지되는지 검증합니다.

팩트랭체인은 스탠포드의 메타 하니스(Meta-Harness) 및 딥마인드의 오토 하니스(Auto-Harness) 연구 흐름을 참고했습니다. 이들은 하니스 개선 루프를 통해 터미널 벤치 2.0의 성능을 향상시키는 등 하니스 계층 최적화의 중요성을 강조합니다.

주장품질이 낮은 대규모 데이터보다 잘 태깅된 소규모 평가 데이터 세트가 에이전트의 일반화 성능 향상에 더 효과적입니다. 에이전트가 보상 해킹을 통해 평가 점수만 높이는 상황을 방지하려면 인간의 검토를 병행해야 합니다.

팩트베터 하니스의 최적화 루프는 진단, 실험, 검증, 인간 검토의 단계를 거칩니다. 각 단계에서 에이전트는 성능 저하를 방지하면서 새로운 평가 데이터를 통과할 수 있도록 프롬프트나 도구 설명을 수정합니다.

팩트실제 적용 사례로 클로드 소넷 3.5와 지아이(Z.ai)의 지엘엠(GLM)-5 모델을 사용하여 평가 데이터의 일부를 테스트했습니다. 랭체인은 앞으로 다양한 모델에 대한 프로필을 공개하여 각 모델이 특정 평가 데이터에 어떻게 최적화되는지 공유할 계획입니다.

교차검증자동화된 최적화 과정에서 인간의 검토는 필수적인 안전장치입니다. 인간은 자동화 시스템이 놓칠 수 있는 에지 케이스를 확인하고, 최적화 세트에 과적합된 불필요한 토큰 낭비를 방지합니다.

출처랭체인 공식 블로그(https://blog.langchain.com/better-harness-a-recipe-for-harness-hill-climbing-with-evals/)를 교차 검증했습니다.

본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

스팟

WIRE

버블 지표

상세보기 →

릴리즈 & 논문

전체보기 →

RELEASES

LangChainlangchain-mistralai==1.1.5

langchain-mistralai==1.1.5

MistralAI 라이브러리 1.1.5 버전이 출시되었습니다. 이번 업데이트에서는 MistralAI 통합 테스트의 안정성이 향상되었으며, 의존성 라이브러리들이 업데이트되었습니다. 또한, 코어 라이브러리의 변경 사항이 포함되었습니다.

11시간 전

LangChainlangchain==1.3.7

langchain==1.3.7

`ProviderToolSearchMiddleware` 기능이 추가되었습니다. 또한, ruff 규칙 ARG가 추가되었고 mypy의 `warn_return_any`가 활성화되었습니다. 레거시 트리거 뷰는 2.0 버전에서 제거될 예정입니다.

15시간 전

Transformersv5.11.0

릴리즈 v5.11.0

이번 릴리즈에서는 DiffusionGemma와 DeepSeek-V3.2 모델이 추가되었습니다. 또한, `KernelConfig` API가 확장되어 n-to-1 모듈 융합 및 파라미터 변환을 지원하며, Mamba2 CUDA 커널 경로의 dtype 불일치 문제 등이 수정되었습니다. Qwen2-VL, Qwen2.5-VL, Qwen3-VL MoE 모델 패밀리의 모델 병렬 빔 탐색 버그가 수정되었고, 연속 배치 처리를 위한 텐서 병렬 지원 문서가 추가되었습니다.

16시간 전

OpenAIv2.41.1

v2.41.1

이번 릴리즈에서는 빌드 시스템 관련 변경 사항이 적용되었습니다. 예약된 릴리즈 워크플로우 트리거가 제거되었습니다.

17시간 전

LangChainlangchain-groq==1.1.3

langchain-groq==1.1.3

이번 릴리즈에서는 Groq 통합에 대한 Strict Mode 기능이 추가되었습니다. 또한, 모델 프로필에 새로운 필드가 추가되고, 사용량 메타데이터 토큰 추출 시 is-not-None 검사가 사용되는 등 다양한 개선 및 버그 수정이 이루어졌습니다. 일부 종속성 버전도 업데이트되었습니다.

1일 전

PAPERS