AI검증

허깅페이스의 인공지능 모델 평가 결과 통합 및 표준화 추진

허깅페이스가 파편화된 인공지능 모델 평가 결과를 표준화하기 위해 에브리 이발 에버와 커뮤니티 평가 시스템을 통합합니다. 이를 통해 모델 평가 데이터의 신뢰성을 높이고 재현성을 확보합니다.

2026년 7월 1일

주장허깅페이스는 에브리 이발 에버(Every Eval Ever, EEE)와 커뮤니티 평가 시스템을 상호 호환되도록 통합합니다. 이번 통합은 파편화된 인공지능 모델 평가 결과를 표준화하고 데이터 신뢰성을 확보하는 것을 목표로 합니다.

팩트에브리 이발 에버는 2026년 2월 이발이발 연합(EvalEval Coalition)이 시작한 프로젝트입니다. 허깅페이스는 같은 시기에 커뮤니티 평가 기능을 출시하여 벤치마크 점수 보고의 탈중앙화를 추진했습니다.

교차검증현재 인공지능 모델 평가 데이터는 논문과 리더보드, 블로그 등 다양한 경로에 흩어져 있어 직접 비교가 어렵습니다. 동일한 모델이라도 평가 방식에 따라 점수가 달라지는 등 평가 환경의 불투명성이 문제로 지적됩니다.

팩트에브리 이발 에버는 평가 주체와 모델 정보, 생성 설정, 메트릭 의미를 포함하는 단일 제이슨(JSON) 스키마를 사용합니다. 현재 허깅페이스 데이터 저장소에는 2만2000개 이상의 모델과 2200개 이상의 벤치마크에 대한 22만9000개의 평가 결과가 축적되어 있습니다.

주장평가 데이터를 재현하는 과정에는 막대한 비용이 발생합니다. 한 번 생성된 데이터를 유실하지 않고 표준화된 형태로 보존하는 작업이 중요합니다.

주장허깅페이스는 평가 결과를 모델 페이지와 리더보드에 직접 연결하는 방식을 채택하여 데이터 접근성을 높입니다.

팩트허깅페이스의 커뮤니티 평가는 모델 저장소 내 이발 리절트(eval_results) 폴더의 야믈(YAML) 파일을 통해 점수를 관리합니다. 모델 작성자나 커뮤니티 기여자가 제출한 점수는 리더보드에 집계되며, 출처에 따라 인증 배지를 부여합니다.

주장에브리 이발 에버와 커뮤니티 평가의 연동은 평가 결과의 가독성과 해석 가능성을 동시에 해결합니다. 허깅페이스는 모델 페이지에서 결과를 시각화하고, 에브리 이발 에버는 상세한 생성 설정과 재현성 데이터를 제공합니다.

팩트허깅페이스는 에브리 이발 에버 기록을 커뮤니티 평가용 야믈 파일로 자동 변환하는 도구를 제공합니다. 이 도구는 엠엠엘유-프로(MMLU-Pro), 지피큐에이(GPQA), 에이치엘이(HLE), 지에스엠에이트케이(GSM8K) 등 주요 벤치마크를 지원합니다.

팩트해당 도구는 데이터 충돌 여부를 사전에 검사합니다.

교차검증변환 도구는 자동으로 풀 리퀘스트를 생성하기 전에 기존 데이터를 감사하고 충돌 여부를 확인합니다. 사용자의 최종 승인 없이는 어떠한 데이터도 모델 저장소에 반영되지 않도록 설계되었습니다.

출처허깅페이스 공식 블로그 및 이발이발 연합 공식 문서를 교차 검증했습니다.

← 목록으로 돌아가기

본 기사는 전문가의 분석과 공개 자료를 기반으로 AI가 작성 후 다른 AI의 검증을 거쳐 작성됐으며 정보의 정확성과 완전성을 보장하지 않습니다. 기사 내용은 특정 투자·의사결정의 권유가 아니며, Wittgenhaus는 이를 근거로 한 행위의 결과에 책임을 지지 않습니다.

스팟

WIRE

글로벌 인텔리전스

전체보기 →

OSINT Team Blog

Attack Surface Management vs Exposure Management

2시간 전

OSINT Team Blog

A Chrome Extension Just Stole 2,300 Work Logins. Check Yours Now.

2시간 전

OSINT Team Blog

10 Burp Suite Extensions Every Pentester Should Know (And How to Actually Use Them) — I remember the first time I opened Burp Suite and thought it was enough on its own.Continue reading on OSINT Team »

2시간 전

본 페이지의 정보는 공개 채널을 통해 자동 수집되는 정보로 정보의 정확성·완전성을 보장하지 않으며, Wittgenhaus의 공식 입장이 아닙니다. 이를 근거로 한 판단과 행위의 결과에 Wittgenhaus는 책임을 지지 않습니다.

버블 지표

상세보기 →

많이 본 콘텐츠

엔비디아 추론 소프트웨어, 토큰당 비용 절감 효과 입증

AI11시간 전

앤스로픽의 과학 연구용 인공지능 클로드 사이언스 출시

AI11시간 전

앤스로픽의 클로드 사이언스 출시 및 기술 산업 현황

AI11시간 전

인공지능 건축 미학의 역사적 기원과 데이터 기반 설계의 미래

AI5시간 전

구글, 뉴욕 교육 리더 대상 인공지능 서밋 개최

AI5시간 전

릴리즈 & 논문

전체보기 →

RELEASES

Anthropicv0.115.0

v0.115.0

이번 릴리즈에서는 Managed Agents 이벤트 델타 스트리밍, 에이전트 재정의, 역방향 페이지네이션, Vault 자격 증명 주입 범위 지정, 에이전트 및 배포 웹훅 이벤트에 대한 지원이 추가되었습니다. API 기능이 전반적으로 향상되었습니다.

1일 전

Anthropicv0.114.0

v0.114.0

이번 릴리즈에서는 claude-sonnet-5 모델에 대한 지원이 추가되었습니다. 또한, agent_toolset에서 작업 디렉토리 내에서 해석되는 절대 경로를 허용하도록 버그가 수정되었습니다.

1일 전

TensorRTv1.3.0rc20

v1.3.0rc20

이번 RC 버전은 TensorRT 백엔드를 지원하는 마지막 버전이며, 다음 버전부터 TensorRT 백엔드가 제거될 예정입니다. DeepSeek V4 준비, MXFP8 가중치 형식 및 CUTLASS W8A8 Linear/MoE 지원, Marlin NVFP4 백엔드 추가 등 다양한 기능이 개선되었습니다. 또한 API 변경 사항으로 `chat_template`이 선택 사항으로 변경되었으며, 여러 버그 수정 및 문서 업데이트가 포함되었습니다.

1일 전

LangChainlangchain-openrouter==0.2.5

langchain-openrouter==0.2.5

OpenRouter 통합에 대한 0.2.5 버전 릴리즈입니다. 반복되는 완료 메타데이터를 중복 제거하고, 응답의 추론 ID를 제거하는 수정 사항이 포함되었습니다.

2일 전

vLLMv0.24.0

v0.24.0 릴리즈

이번 릴리즈에서는 MiniMax-M3 모델 지원 추가, DeepSeek-V4 최적화, Model Runner V2(MRv2) 기능 확장, 새로운 스트리밍 파서 엔진 도입, Diffusion LLM 지원, WideEP/DeepEP v2 통합, Rust 프론트엔드 기능 강화 등이 주요 변경 사항입니다. 또한, 장치 선택 방식이 변경되어 `device_ids` 인자가 새로 추가되었으며, MiniMax-M3, DiffusionGemma 등 새로운 모델 지원이 추가되었습니다.

2일 전

PAPERS

cs.LG

QVal: 장기 호라이즌 LLM 에이전트를 위한 저비용 밀집 지도 신호 평가

2일 전

cs.CL

메타인지 피드백을 활용한 강화학습을 통한 LLM의 충실한 불확실성 표현 유도

2일 전

cs.CL

LLM이 표를 부주의하게 읽을 때: 데이터 참조 오류 측정 및 감소

2일 전

cs.CV